- Added Lecture4 - ModelFree.pdf (3013 KB) - Added Lecture5 - Control.pdf (2575 KB) - Added Lecture6 - Value.pdf (3320 KB)
3.6 KiB
课程作业整合及任务拆解与时间规划清单
📋 课程作业要求整合版
一、强化学习个人项目报告(Atari 游戏方向)
核心任务:
-
自选一个 Atari 游戏,从零实现并训练一个深度强化学习算法,达到有竞争力的表现
-
提交一份不超过 3000 词的技术报告 + 包含全部源代码、训练模型的 zip 文件
报告要求:
-
说明所选游戏及其挑战
-
调研并总结深度强化学习在 Atari 游戏中的应用现状
-
对比不同算法,解释最终选择当前方法的理由
-
详细介绍算法原理与具体实现细节
-
评估智能体表现,说明所选基准和评价指标
-
分析算法在该游戏上表现好坏的原因
-
用标注清晰坐标轴、图例的图表展示实验结果
实现限制:
-
禁止直接使用 Stable-Baselines 等强化学习专用库实现算法
-
可以使用 Stable-Baselines 等库作为 benchmark 对比
-
评分维度:代码质量、结果分析、报告结构、图表使用、引用规范
-
需按指定格式命名并提交 PDF 和 zip 文件
二、强化学习个人课程作业(PPO + CarRacing-v3 方向)
核心任务:
-
用 Python 从零实现 PPO(Proximal Policy Optimization)算法,让智能体在 CarRacing-v3 环境中完成赛车任务
-
提交一份不超过 3000 词的技术报告 + 包含全部源代码、训练模型的 zip 文件
报告要求:
-
介绍任务的强化学习背景
-
定义状态空间、动作空间和奖励机制
-
解释 PPO 的目标函数、裁剪机制和优势估计方法
-
说明策略网络与价值网络结构、训练流程、超参数设置
-
记录并说明实现过程中遇到的问题与解决办法
-
用图表展示训练与测试结果,分析模型表现和变化趋势
-
与 Stable-Baselines3 等基线方法,在稳定性和样本效率上做简要对比
实现限制:
-
禁止直接使用 Stable-Baselines 等强化学习专用库实现算法
-
可使用 TensorBoard 记录实验结果
-
需按指定格式命名并提交 PDF 和 zip 文件
三、机器学习个人课程作业(健康保险多分类方向)
核心任务:
-
围绕健康保险数据集,建立并改进多分类模型,预测申请人保费风险等级(Low / Standard / High)
-
提交 Jupyter Notebook、1200 词左右的 Theory and Reflection PDF、hidden-test CSV 及补充代码
Jupyter Notebook 要求:
-
数据清理与预处理
-
识别并删除数据泄露特征
-
建立基线模型
-
对比随机森林和一种 boosting 模型
-
使用高级超参数优化方法调参
-
根据学号末位完成指定的个性化改进,并额外完成至少一个可选改进
-
进行 K-Means 与 GMM 的无监督探索
-
基于验证结果选出最终模型,导出规定格式的 hidden-test CSV
PDF 报告要求:
-
围绕以下主题,结合实验数据(表格、图、指标)进行理论与实验结合的总结:
-
bagging vs boosting 对比
-
超参数优化方法
-
K-Means vs GMM 对比
-
个性化改进反思
-
AI 使用声明
-
⚠️ 外教课文档语言要求
⚠️ 重要提醒:这是外教课作业,所有提交的 PDF 文档必须使用英文 撰写,包括:
- 技术报告(Technical Report)— 英文
- Theory and Reflection PDF — 英文
- 代码注释(Code Comments)— 英文
建议:
- 使用英文撰写报告正文
- 图表标题和图例使用英文
- 代码中变量命名和注释使用英文
- 可保留中文的仅为个人笔记/思考过程(无需提交)