HPCC2025/human_action.py

# from env import PartitionMazeEnv
# from env_dis import PartitionMazeEnv
from env_partion_dist import PartitionEnv

# env = PartitionMazeEnv()
env = PartitionEnv()

state = env.reset()
print('state:', state)

# action_series = [[0.67], [0], [0], [0], [0.7]]
action_series = [3, 3, 3, 5, 5, 1, 1, 1, 0, 0, 0]
# action_series = [1] * 30
# action_series = [[0.2], [0.4], [0.7], [0.5]]
# action_series = [[-0.08], [-0.08], [0], [0]]

for i in range(100):
    action = action_series[i]
    state, reward, done, info, _ = env.step(action)
    print('state:', state)
    print('reward:', reward)
    if done:
        break
跑通PPO partition 2025-03-28 21:37:31 +08:00			`# from env import PartitionMazeEnv`
环境增加delay_time 2025-03-22 09:47:52 +08:00			`# from env_dis import PartitionMazeEnv`
离散情况 2025-03-29 21:28:39 +08:00			`from env_partion_dist import PartitionEnv`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00
跑通PPO partition 2025-03-28 21:37:31 +08:00			`# env = PartitionMazeEnv()`
			`env = PartitionEnv()`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00
			`state = env.reset()`
跑通PPO partition 2025-03-28 21:37:31 +08:00			`print('state:', state)`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00
跑通PPO partition 2025-03-28 21:37:31 +08:00			`# action_series = [[0.67], [0], [0], [0], [0.7]]`
修改dqn bug 2025-04-01 20:45:13 +08:00			`action_series = [3, 3, 3, 5, 5, 1, 1, 1, 0, 0, 0]`
			`# action_series = [1] * 30`
每一个加一个奖励 2025-03-29 16:53:03 +08:00			`# action_series = [[0.2], [0.4], [0.7], [0.5]]`
离散情况 2025-03-29 21:28:39 +08:00			`# action_series = [[-0.08], [-0.08], [0], [0]]`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00
添加ddpg代码 2025-03-14 15:27:05 +08:00			`for i in range(100):`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00			`action = action_series[i]`
			`state, reward, done, info, _ = env.step(action)`
跑通PPO partition 2025-03-28 21:37:31 +08:00			`print('state:', state)`
			`print('reward:', reward)`
添加人工操作，修改环境bug 2025-03-14 09:42:56 +08:00			`if done:`
修改dqn 2025-03-19 01:04:03 +08:00			`break`