rl-atari

T

Serendipity fb09e66d09 feat: 重构项目结构并添加向量化PPO训练与评估脚本

- 将原始单环境训练代码重构为模块化结构，添加向量化环境支持以提高数据采集效率
- 实现完整的PPO训练流水线，包括共享CNN的Actor-Critic网络、向量化经验回放缓冲和GAE优势估计
- 添加训练脚本(train_vec.py)、评估脚本(evaluate.py)和SB3基线对比脚本(train_sb3_baseline.py)
- 提供详细的文档和开发日志，包含问题解决记录和实验分析
- 移除旧版项目文件，统一项目结构到CW1_id_name目录下

2026-05-02 13:44:08 +08:00

CW1_id_name

feat: 重构项目结构并添加向量化PPO训练与评估脚本

2026-05-02 13:44:08 +08:00

外教课

docs: 添加课程资料与更新作业要求文档

2026-05-01 09:47:09 +08:00

强化学习个人课程作业报告

feat: 重构项目结构并添加向量化PPO训练与评估脚本

2026-05-02 13:44:08 +08:00

强化学习个人项目报告（Atari 游戏方向）

feat: 重构项目结构并添加向量化PPO训练与评估脚本