rl-atari

8 Commits 1 Branch 0 Tags

Author	SHA1	Message	Date
Serendipity	8f04be4617	chore: 添加 .venv 到 .gitignore 并忽略二进制日志文件 - 在 .gitignore 文件中添加 .venv/ 目录，以排除 Python 虚拟环境 - 忽略 TensorBoard 生成的二进制日志文件，避免将运行时数据提交到仓库	2026-05-01 09:28:36 +08:00
Serendipity	7dea00195e	feat: 添加并行训练脚本和奖励塑形以改进PPO性能引入并行环境训练脚本 train_parallel_improved.py，实现多进程并行数据收集添加奖励塑形包装器，根据速度、赛道位置和完成圈数调整奖励信号优化神经网络结构和训练参数，包括更大的rollout缓冲区删除旧的tensorboard日志文件，创建新的训练运行记录	2026-05-01 09:26:39 +08:00
Serendipity	d6860f1f15	chore: 更新项目文档、依赖和训练脚本 - 更新 requirements.txt，添加 opencv-python-headless 并补充 uv 安装说明 - 修复 CSV 文件中的换行符格式（CRLF 转 LF） - 更新 TASK_PROGRESS.md，记录并行训练实现和 WSL 支持 - 优化 train_improved.py 代码格式，移除多余空行和注释 - 更新课程作业要求文档的字符编码 - 添加新的 TensorBoard 日志文件和训练模型	2026-05-01 09:26:23 +08:00
Serendipity	6b929e9790	docs: 添加强化学习项目报告及相关文件添加完整的强化学习个人项目报告，包括PDF文档、LaTeX源文件、训练曲线图、TensorBoard日志以及改进的训练脚本。报告详细记录了从零实现PPO算法解决CarRacing-v3环境的过程，包含算法设计、网络架构、超参数配置和实验结果分析。	2026-04-30 22:59:14 +08:00
Serendipity	b32490ae03	fix(ppo): 修正日志概率维度与状态张量格式修复 replay buffer 中 log_probs 的维度错误，从 (buffer_size, action_dim) 改为 buffer_size 修正训练时状态张量格式，从 (N, H, W, C) 转换为 (N, C, H, W) 更新 collect_rollout 返回观测值并修正 log_prob 计算添加项目配置文件和训练曲线生成脚本	2026-04-30 20:30:40 +08:00
Serendipity	d353133b31	feat: 添加强化学习项目报告及重构课程作业报告代码结构 - 新增强化学习个人项目报告，包含基于PyTorch从零实现的PPO算法 - 重构课程作业报告代码结构，提取运行时路径管理和notebook执行逻辑到独立模块 - 更新依赖文件requirements.txt，添加强化学习相关依赖 - 简化模型比较结果表格，仅保留基线逻辑回归模型数据	2026-04-30 16:54:41 +08:00
Serendipity	6ac02ba4fe	feat: 添加GPU检测与自动回退逻辑并移除冗余文档 - 在notebook中引入GPU检测逻辑，根据CUDA可用性自动选择XGBoost计算后端 - 更新XGBoost配置，使用动态变量替代硬编码的GPU参数 - 删除过时的需求分析文档，保持项目结构整洁 - 确保代码在不同硬件环境下均可正常运行	2026-04-30 15:04:29 +08:00
Serendipity	ceddbdd559	Add lecture materials for Model-Free, Control, and Value topics - Added Lecture4 - ModelFree.pdf (3013 KB) - Added Lecture5 - Control.pdf (2575 KB) - Added Lecture6 - Value.pdf (3320 KB)	2026-04-28 20:28:00 +08:00