Commit Graph

2 Commits

Author SHA1 Message Date
Serendipity 6b929e9790 docs: 添加强化学习项目报告及相关文件
添加完整的强化学习个人项目报告,包括PDF文档、LaTeX源文件、训练曲线图、TensorBoard日志以及改进的训练脚本。报告详细记录了从零实现PPO算法解决CarRacing-v3环境的过程,包含算法设计、网络架构、超参数配置和实验结果分析。
2026-04-30 22:59:14 +08:00
Serendipity b32490ae03 fix(ppo): 修正日志概率维度与状态张量格式
修复 replay buffer 中 log_probs 的维度错误,从 (buffer_size, action_dim) 改为 buffer_size
修正训练时状态张量格式,从 (N, H, W, C) 转换为 (N, C, H, W)
更新 collect_rollout 返回观测值并修正 log_prob 计算
添加项目配置文件和训练曲线生成脚本
2026-04-30 20:30:40 +08:00