79ffb908233b220fe60a3f55bdaa79454390b0ad
- 将学习率调整为5e-5,批次大小增加到64,经验回放缓冲区扩大到500,000 - 启用优先经验回放,调整目标网络更新频率为1000步 - 评估时使用Dueling网络架构,训练时评估模式的ε设为0 - 更新评估结果以反映配置改进后的性能变化
Description
No description provided
Languages
Jupyter Notebook
52.3%
Python
33.9%
TeX
13.8%