faf0d5ea426325943d14bc57503f5a7ff5ba52d9
- 将奖励裁剪替换为奖励缩放,保留奖励大小信号 - 添加学习率调度器,支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点
Description
No description provided
Languages
Jupyter Notebook
52.3%
Python
33.9%
TeX
13.8%