Add lecture materials for Model-Free, Control, and Value topics

- Added Lecture4 - ModelFree.pdf (3013 KB) - Added Lecture5 - Control.pdf (2575 KB) - Added Lecture6 - Value.pdf (3320 KB)
2026-04-28 20:28:00 +08:00
commit ceddbdd559
52 changed files with 117740 additions and 0 deletions
@@ -0,0 +1,129 @@
+# 课程作业整合及任务拆解与时间规划清单
+
+## 📋 课程作业要求整合版
+
+### 一、强化学习个人项目报告（Atari 游戏方向）
+
+**核心任务**：
+
+- 自选一个 Atari 游戏，从零实现并训练一个深度强化学习算法，达到有竞争力的表现
+
+- 提交一份不超过 3000 词的技术报告 \+ 包含全部源代码、训练模型的 zip 文件
+
+**报告要求**：
+
+1. 说明所选游戏及其挑战
+
+2. 调研并总结深度强化学习在 Atari 游戏中的应用现状
+
+3. 对比不同算法，解释最终选择当前方法的理由
+
+4. 详细介绍算法原理与具体实现细节
+
+5. 评估智能体表现，说明所选基准和评价指标
+
+6. 分析算法在该游戏上表现好坏的原因
+
+7. 用标注清晰坐标轴、图例的图表展示实验结果
+
+**实现限制**：
+
+- 禁止直接使用 Stable\-Baselines 等强化学习专用库实现算法
+
+- 可以使用 Stable\-Baselines 等库作为 benchmark 对比
+
+- 评分维度：代码质量、结果分析、报告结构、图表使用、引用规范
+
+- 需按指定格式命名并提交 PDF 和 zip 文件
+
+---
+
+### 二、强化学习个人课程作业（PPO \+ CarRacing\-v3 方向）
+
+**核心任务**：
+
+- 用 Python 从零实现 PPO（Proximal Policy Optimization）算法，让智能体在 CarRacing\-v3 环境中完成赛车任务
+
+- 提交一份不超过 3000 词的技术报告 \+ 包含全部源代码、训练模型的 zip 文件
+
+**报告要求**：
+
+1. 介绍任务的强化学习背景
+
+2. 定义状态空间、动作空间和奖励机制
+
+3. 解释 PPO 的目标函数、裁剪机制和优势估计方法
+
+4. 说明策略网络与价值网络结构、训练流程、超参数设置
+
+5. 记录并说明实现过程中遇到的问题与解决办法
+
+6. 用图表展示训练与测试结果，分析模型表现和变化趋势
+
+7. 与 Stable\-Baselines3 等基线方法，在稳定性和样本效率上做简要对比
+
+**实现限制**：
+
+- 禁止直接使用 Stable\-Baselines 等强化学习专用库实现算法
+
+- 可使用 TensorBoard 记录实验结果
+
+- 需按指定格式命名并提交 PDF 和 zip 文件
+
+---
+
+### 三、机器学习个人课程作业（健康保险多分类方向）
+
+**核心任务**：
+
+- 围绕健康保险数据集，建立并改进多分类模型，预测申请人保费风险等级（Low / Standard / High）
+
+- 提交 Jupyter Notebook、1200 词左右的 Theory and Reflection PDF、hidden\-test CSV 及补充代码
+
+**Jupyter Notebook 要求**：
+
+1. 数据清理与预处理
+
+2. 识别并删除数据泄露特征
+
+3. 建立基线模型
+
+4. 对比随机森林和一种 boosting 模型
+
+5. 使用高级超参数优化方法调参
+
+6. 根据学号末位完成指定的个性化改进，并额外完成至少一个可选改进
+
+7. 进行 K\-Means 与 GMM 的无监督探索
+
+8. 基于验证结果选出最终模型，导出规定格式的 hidden\-test CSV
+
+**PDF 报告要求**：
+
+- 围绕以下主题，结合实验数据（表格、图、指标）进行理论与实验结合的总结：
+
+    1. bagging vs boosting 对比
+
+    2. 超参数优化方法
+
+    3. K\-Means vs GMM 对比
+
+    4. 个性化改进反思
+
+    5. AI 使用声明
+
+---
+
+## ⚠️ 外教课文档语言要求
+
+⚠️ **重要提醒**：这是**外教课**作业，所有提交的 **PDF 文档必须使用英文** 撰写，包括：
+
+- 技术报告（Technical Report）— 英文
+- Theory and Reflection PDF — 英文
+- 代码注释（Code Comments）— 英文
+
+建议：
+- 使用英文撰写报告正文
+- 图表标题和图例使用英文
+- 代码中变量命名和注释使用英文
+- 可保留中文的仅为个人笔记/思考过程（无需提交）