rl-atari

Serendipity/rl-atari

Fork 0

Commit Graph

Author	SHA1	Message	Date
Serendipity	d5c9baffe6	perf: 为PPO和DQN添加GPU优化——AMP混合精度、pinned memory、torch.compile - PPO (CW1_id_name): 添加 AMP GradScaler + autocast 混合精度训练，pinned memory 加速 CPU→GPU 传输，torch.compile JIT 编译支持，调整默认超参适配 RTX 5090 - DQN (Atari): 添加 AMP 混合精度、pinned memory 回放缓冲区、向量化批量添加经验 (add_batch) 和批量动作选择 (batch_select_actions)，消除 Python 循环 - train_parallel.py: 重写为无缓冲脚本，集成所有优化，64 并行环境 + 每步 4 次训练更新 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-05 00:50:16 +08:00
Serendipity	ed0822966b	feat(训练): 添加并行环境DQN训练脚本和Jupyter笔记本 - 新增 train_parallel.py 脚本，使用 AsyncVectorEnv 并行运行多个Atari环境 - 添加配套的 Jupyter 笔记本 train_parallel.ipynb 用于交互式训练 - 在 utils.py 的 wrapper 中修复 observation_space 定义，确保与预处理后的观测形状一致 - 删除旧的压缩文件 CW2_DQN_SpaceInvaders.zip - 新增图片文件 image.png 并行训练器通过批量GPU推理和异步环境步进显著提升数据收集速度，适合在多核服务器环境下运行。包含完整的超参数配置、进度监控和模型保存功能。	2026-05-03 16:29:14 +08:00

Author

SHA1

Message

Date

Serendipity

d5c9baffe6

perf: 为PPO和DQN添加GPU优化——AMP混合精度、pinned memory、torch.compile

- PPO (CW1_id_name): 添加 AMP GradScaler + autocast 混合精度训练，pinned memory 加速 CPU→GPU 传输，torch.compile JIT 编译支持，调整默认超参适配 RTX 5090
- DQN (Atari): 添加 AMP 混合精度、pinned memory 回放缓冲区、向量化批量添加经验 (add_batch) 和批量动作选择 (batch_select_actions)，消除 Python 循环
- train_parallel.py: 重写为无缓冲脚本，集成所有优化，64 并行环境 + 每步 4 次训练更新

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-05 00:50:16 +08:00

Serendipity

ed0822966b

feat(训练): 添加并行环境DQN训练脚本和Jupyter笔记本

- 新增 train_parallel.py 脚本，使用 AsyncVectorEnv 并行运行多个Atari环境
- 添加配套的 Jupyter 笔记本 train_parallel.ipynb 用于交互式训练
- 在 utils.py 的 wrapper 中修复 observation_space 定义，确保与预处理后的观测形状一致
- 删除旧的压缩文件 CW2_DQN_SpaceInvaders.zip
- 新增图片文件 image.png

并行训练器通过批量GPU推理和异步环境步进显著提升数据收集速度，适合在多核服务器环境下运行。包含完整的超参数配置、进度监控和模型保存功能。

2026-05-03 16:29:14 +08:00

2 Commits