Commit Graph

  • b3e240506e update rl report main Serendipity 2026-05-05 15:30:07 +08:00
  • d5c9baffe6 perf: 为PPO和DQN添加GPU优化——AMP混合精度、pinned memory、torch.compile Serendipity 2026-05-05 00:50:16 +08:00
  • ed0822966b feat(训练): 添加并行环境DQN训练脚本和Jupyter笔记本 Serendipity 2026-05-03 16:29:14 +08:00
  • b474e7976e feat: 更新Atari项目报告并添加训练曲线生成功能 Serendipity 2026-05-03 13:39:37 +08:00
  • fb09e66d09 feat: 重构项目结构并添加向量化PPO训练与评估脚本 Serendipity 2026-05-02 13:44:08 +08:00
  • 79ffb90823 feat: 优化DQN训练配置并支持Dueling网络评估 Serendipity 2026-05-02 11:36:12 +08:00
  • faf0d5ea42 feat: 改进DQN训练稳定性和性能 Serendipity 2026-05-02 02:02:17 +08:00
  • 1c1cccd3f6 feat: 添加模型评估脚本并更新实验报告 Serendipity 2026-05-01 18:44:22 +08:00
  • cb0195135e feat: 添加强化学习项目报告及可视化图表 Serendipity 2026-05-01 11:58:40 +08:00
  • 85f912483a refactor(agent): 重命名 train_step 为 step_count 以提高可读性 Serendipity 2026-05-01 10:19:14 +08:00
  • e8b51240f9 feat: 添加DQN强化学习项目框架和核心实现 Serendipity 2026-05-01 10:01:12 +08:00
  • cdec40a7c7 docs: 添加课程资料与更新作业要求文档 Serendipity 2026-05-01 09:47:09 +08:00
  • 8f04be4617 chore: 添加 .venv 到 .gitignore 并忽略二进制日志文件 Serendipity 2026-05-01 09:28:36 +08:00
  • 7dea00195e feat: 添加并行训练脚本和奖励塑形以改进PPO性能 Serendipity 2026-05-01 09:26:39 +08:00
  • d6860f1f15 chore: 更新项目文档、依赖和训练脚本 Serendipity 2026-05-01 09:26:23 +08:00
  • 6b929e9790 docs: 添加强化学习项目报告及相关文件 Serendipity 2026-04-30 22:59:14 +08:00
  • b32490ae03 fix(ppo): 修正日志概率维度与状态张量格式 Serendipity 2026-04-30 20:30:40 +08:00
  • d353133b31 feat: 添加强化学习项目报告及重构课程作业报告代码结构 Serendipity 2026-04-30 16:54:41 +08:00
  • 6ac02ba4fe feat: 添加GPU检测与自动回退逻辑并移除冗余文档 Serendipity 2026-04-30 15:04:29 +08:00
  • ceddbdd559 Add lecture materials for Model-Free, Control, and Value topics Serendipity 2026-04-28 20:28:00 +08:00