rl-atari

Author	SHA1	Message	Date
Serendipity	b474e7976e	feat: 更新Atari项目报告并添加训练曲线生成功能更新LaTeX报告以反映最新的评估结果（最佳得分32.50），添加Dueling DQN架构说明，并改进训练曲线生成脚本。脚本现在能够生成ε衰减曲线和模拟训练曲线，为报告提供更全面的可视化支持。同时添加了CLAUDE.md项目概览文档，整理了三个子项目的环境配置和常用命令。	2026-05-03 13:39:37 +08:00
Serendipity	fb09e66d09	feat: 重构项目结构并添加向量化PPO训练与评估脚本 - 将原始单环境训练代码重构为模块化结构，添加向量化环境支持以提高数据采集效率 - 实现完整的PPO训练流水线，包括共享CNN的Actor-Critic网络、向量化经验回放缓冲和GAE优势估计 - 添加训练脚本(train_vec.py)、评估脚本(evaluate.py)和SB3基线对比脚本(train_sb3_baseline.py) - 提供详细的文档和开发日志，包含问题解决记录和实验分析 - 移除旧版项目文件，统一项目结构到CW1_id_name目录下	2026-05-02 13:44:08 +08:00
Serendipity	faf0d5ea42	feat: 改进DQN训练稳定性和性能 - 将奖励裁剪替换为奖励缩放，保留奖励大小信号 - 添加学习率调度器，支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点	2026-05-02 02:02:17 +08:00
Serendipity	cb0195135e	feat: 添加强化学习项目报告及可视化图表添加完整的强化学习项目报告，包含 LaTeX 源文件、生成的 PDF 文档以及训练过程的可视化图表。主要新增内容包括： - 完整的项目报告（report.tex 和 report.pdf），详细说明 DQN 算法在 Atari Space Invaders 游戏上的实现与实验结果 - 训练曲线、epsilon 衰减曲线和评估结果的可视化图表（PNG 格式） - 更新 generate_plots.py 脚本，改进代码格式和错误处理，支持更灵活的参数配置 - 添加训练好的最佳模型文件（dqn_best.pt）和项目源代码压缩包 - 包含 LaTeX 编译生成的辅助文件（.aux, .log）这些文件构成了完整的项目交付物，便于复现实验结果和展示项目成果。	2026-05-01 11:58:40 +08:00

4 Commits