rl-atari

Serendipity/rl-atari

Fork 0

Commit Graph

Author	SHA1	Message	Date
Serendipity	79ffb90823	feat: 优化DQN训练配置并支持Dueling网络评估 - 将学习率调整为5e-5，批次大小增加到64，经验回放缓冲区扩大到500,000 - 启用优先经验回放，调整目标网络更新频率为1000步 - 评估时使用Dueling网络架构，训练时评估模式的ε设为0 - 更新评估结果以反映配置改进后的性能变化	2026-05-02 11:36:12 +08:00
Serendipity	faf0d5ea42	feat: 改进DQN训练稳定性和性能 - 将奖励裁剪替换为奖励缩放，保留奖励大小信号 - 添加学习率调度器，支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点	2026-05-02 02:02:17 +08:00
Serendipity	e8b51240f9	feat: 添加DQN强化学习项目框架和核心实现实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括： - QNetwork和DuelingQNetwork神经网络架构 - 经验回放缓冲区（标准和优先级版本） - DQN智能体实现ε-greedy策略和Double DQN - 环境包装器（灰度化、调整大小、帧堆叠等） - 训练器、评估脚本和图表生成工具 - 详细的项目文档和依赖配置	2026-05-01 10:01:12 +08:00

Author

SHA1

Message

Date

Serendipity

79ffb90823

feat: 优化DQN训练配置并支持Dueling网络评估

- 将学习率调整为5e-5，批次大小增加到64，经验回放缓冲区扩大到500,000
- 启用优先经验回放，调整目标网络更新频率为1000步
- 评估时使用Dueling网络架构，训练时评估模式的ε设为0
- 更新评估结果以反映配置改进后的性能变化

2026-05-02 11:36:12 +08:00

Serendipity

faf0d5ea42

feat: 改进DQN训练稳定性和性能

- 将奖励裁剪替换为奖励缩放，保留奖励大小信号
- 添加学习率调度器，支持warmup和步进衰减
- 增加经验回放缓冲区大小至200,000
- 默认启用Dueling DQN架构
- 优化代码格式和参数传递
- 添加更多训练中间模型保存点

2026-05-02 02:02:17 +08:00

Serendipity

e8b51240f9

feat: 添加DQN强化学习项目框架和核心实现

实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括：
- QNetwork和DuelingQNetwork神经网络架构
- 经验回放缓冲区（标准和优先级版本）
- DQN智能体实现ε-greedy策略和Double DQN
- 环境包装器（灰度化、调整大小、帧堆叠等）
- 训练器、评估脚本和图表生成工具
- 详细的项目文档和依赖配置

2026-05-01 10:01:12 +08:00

3 Commits