rl-atari

Author	SHA1	Message	Date
Serendipity	ed0822966b	feat(训练): 添加并行环境DQN训练脚本和Jupyter笔记本 - 新增 train_parallel.py 脚本，使用 AsyncVectorEnv 并行运行多个Atari环境 - 添加配套的 Jupyter 笔记本 train_parallel.ipynb 用于交互式训练 - 在 utils.py 的 wrapper 中修复 observation_space 定义，确保与预处理后的观测形状一致 - 删除旧的压缩文件 CW2_DQN_SpaceInvaders.zip - 新增图片文件 image.png 并行训练器通过批量GPU推理和异步环境步进显著提升数据收集速度，适合在多核服务器环境下运行。包含完整的超参数配置、进度监控和模型保存功能。	2026-05-03 16:29:14 +08:00
Serendipity	faf0d5ea42	feat: 改进DQN训练稳定性和性能 - 将奖励裁剪替换为奖励缩放，保留奖励大小信号 - 添加学习率调度器，支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点	2026-05-02 02:02:17 +08:00
Serendipity	85f912483a	refactor(agent): 重命名 train_step 为 step_count 以提高可读性 - 将 agent.py 中的 train_step 变量重命名为 step_count，使其含义更清晰 - 更新所有相关引用，包括 epsilon 衰减和目标网络更新逻辑 - 同步修改模型保存和加载时的键名 - 修复多个源文件末尾的换行符问题	2026-05-01 10:19:14 +08:00
Serendipity	e8b51240f9	feat: 添加DQN强化学习项目框架和核心实现实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括： - QNetwork和DuelingQNetwork神经网络架构 - 经验回放缓冲区（标准和优先级版本） - DQN智能体实现ε-greedy策略和Double DQN - 环境包装器（灰度化、调整大小、帧堆叠等） - 训练器、评估脚本和图表生成工具 - 详细的项目文档和依赖配置	2026-05-01 10:01:12 +08:00

4 Commits