Serendipity
|
faf0d5ea42
|
feat: 改进DQN训练稳定性和性能
- 将奖励裁剪替换为奖励缩放,保留奖励大小信号
- 添加学习率调度器,支持warmup和步进衰减
- 增加经验回放缓冲区大小至200,000
- 默认启用Dueling DQN架构
- 优化代码格式和参数传递
- 添加更多训练中间模型保存点
|
2026-05-02 02:02:17 +08:00 |
|
Serendipity
|
8f04be4617
|
chore: 添加 .venv 到 .gitignore 并忽略二进制日志文件
- 在 .gitignore 文件中添加 .venv/ 目录,以排除 Python 虚拟环境
- 忽略 TensorBoard 生成的二进制日志文件,避免将运行时数据提交到仓库
|
2026-05-01 09:28:36 +08:00 |
|
Serendipity
|
ceddbdd559
|
Add lecture materials for Model-Free, Control, and Value topics
- Added Lecture4 - ModelFree.pdf (3013 KB)
- Added Lecture5 - Control.pdf (2575 KB)
- Added Lecture6 - Value.pdf (3320 KB)
|
2026-04-28 20:28:00 +08:00 |
|