rl-atari

T

Serendipity 7dea00195e feat: 添加并行训练脚本和奖励塑形以改进PPO性能

引入并行环境训练脚本 train_parallel_improved.py，实现多进程并行数据收集
添加奖励塑形包装器，根据速度、赛道位置和完成圈数调整奖励信号
优化神经网络结构和训练参数，包括更大的rollout缓冲区
删除旧的tensorboard日志文件，创建新的训练运行记录

2026-05-01 09:26:39 +08:00

2026-05-01 09:26:23 +08:00

2026-05-01 09:26:23 +08:00

2026-05-01 09:26:39 +08:00

2026-05-01 09:26:23 +08:00

.gitignore

2026-04-28 20:28:00 +08:00