rl-atari

Serendipity/rl-atari

Fork 0

Commit Graph

Author	SHA1	Message	Date
Serendipity	e8b51240f9	feat: 添加DQN强化学习项目框架和核心实现实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括： - QNetwork和DuelingQNetwork神经网络架构 - 经验回放缓冲区（标准和优先级版本） - DQN智能体实现ε-greedy策略和Double DQN - 环境包装器（灰度化、调整大小、帧堆叠等） - 训练器、评估脚本和图表生成工具 - 详细的项目文档和依赖配置	2026-05-01 10:01:12 +08:00
Serendipity	b32490ae03	fix(ppo): 修正日志概率维度与状态张量格式修复 replay buffer 中 log_probs 的维度错误，从 (buffer_size, action_dim) 改为 buffer_size 修正训练时状态张量格式，从 (N, H, W, C) 转换为 (N, C, H, W) 更新 collect_rollout 返回观测值并修正 log_prob 计算添加项目配置文件和训练曲线生成脚本	2026-04-30 20:30:40 +08:00
Serendipity	d353133b31	feat: 添加强化学习项目报告及重构课程作业报告代码结构 - 新增强化学习个人项目报告，包含基于PyTorch从零实现的PPO算法 - 重构课程作业报告代码结构，提取运行时路径管理和notebook执行逻辑到独立模块 - 更新依赖文件requirements.txt，添加强化学习相关依赖 - 简化模型比较结果表格，仅保留基线逻辑回归模型数据	2026-04-30 16:54:41 +08:00

Author

SHA1

Message

Date

Serendipity

e8b51240f9

feat: 添加DQN强化学习项目框架和核心实现

实现完整的DQN算法框架，用于Atari Space Invaders游戏训练。包括：
- QNetwork和DuelingQNetwork神经网络架构
- 经验回放缓冲区（标准和优先级版本）
- DQN智能体实现ε-greedy策略和Double DQN
- 环境包装器（灰度化、调整大小、帧堆叠等）
- 训练器、评估脚本和图表生成工具
- 详细的项目文档和依赖配置

2026-05-01 10:01:12 +08:00

Serendipity

b32490ae03

fix(ppo): 修正日志概率维度与状态张量格式

修复 replay buffer 中 log_probs 的维度错误，从 (buffer_size, action_dim) 改为 buffer_size
修正训练时状态张量格式，从 (N, H, W, C) 转换为 (N, C, H, W)
更新 collect_rollout 返回观测值并修正 log_prob 计算
添加项目配置文件和训练曲线生成脚本

2026-04-30 20:30:40 +08:00

Serendipity

d353133b31

feat: 添加强化学习项目报告及重构课程作业报告代码结构

- 新增强化学习个人项目报告，包含基于PyTorch从零实现的PPO算法
- 重构课程作业报告代码结构，提取运行时路径管理和notebook执行逻辑到独立模块
- 更新依赖文件requirements.txt，添加强化学习相关依赖
- 简化模型比较结果表格，仅保留基线逻辑回归模型数据

2026-04-30 16:54:41 +08:00

3 Commits