3 Commits

Author SHA1 Message Date
Serendipity b474e7976e feat: 更新Atari项目报告并添加训练曲线生成功能
更新LaTeX报告以反映最新的评估结果(最佳得分32.50),添加Dueling DQN架构说明,并改进训练曲线生成脚本。脚本现在能够生成ε衰减曲线和模拟训练曲线,为报告提供更全面的可视化支持。同时添加了CLAUDE.md项目概览文档,整理了三个子项目的环境配置和常用命令。
2026-05-03 13:39:37 +08:00
Serendipity fb09e66d09 feat: 重构项目结构并添加向量化PPO训练与评估脚本
- 将原始单环境训练代码重构为模块化结构,添加向量化环境支持以提高数据采集效率
- 实现完整的PPO训练流水线,包括共享CNN的Actor-Critic网络、向量化经验回放缓冲和GAE优势估计
- 添加训练脚本(train_vec.py)、评估脚本(evaluate.py)和SB3基线对比脚本(train_sb3_baseline.py)
- 提供详细的文档和开发日志,包含问题解决记录和实验分析
- 移除旧版项目文件,统一项目结构到CW1_id_name目录下
2026-05-02 13:44:08 +08:00
Serendipity 6ac02ba4fe feat: 添加GPU检测与自动回退逻辑并移除冗余文档
- 在notebook中引入GPU检测逻辑,根据CUDA可用性自动选择XGBoost计算后端
- 更新XGBoost配置,使用动态变量替代硬编码的GPU参数
- 删除过时的需求分析文档,保持项目结构整洁
- 确保代码在不同硬件环境下均可正常运行
2026-04-30 15:04:29 +08:00