rl-atari/强化学习个人项目报告（Atari 游戏方向）/docs/原文要求.txt

完成一份 强化学习个人课程作业报告：需要用 Python 从零实现一个 PPO（Proximal Policy Optimization）强化学习算法，让智能体在 CarRacing-v3 环境中完成赛车任务，并在此基础上提交一份不超过 3000 词 的技术报告，系统说明你的方法与结果；具体来说，要介绍该任务的强化学习背景，定义状态空间、动作空间和奖励机制，解释 PPO 的目标函数、裁剪机制和优势估计方法，说明策略网络与价值网络结构、训练流程、超参数设置以及实现过程中遇到的问题和解决办法，同时用图表展示训练与测试结果，分析模型表现和变化趋势，并与如 Stable-Baselines3 这类基线方法在稳定性和样本效率上做简要比较；另外，还要提交一个包含全部源代码和训练好模型的 zip 文件，以及一个单独的 PDF 报告，文件命名和提交格式都必须符合要求，而且实现中不能直接使用 Stable-Baselines 等强化学习专用库，但可以合理使用 TensorBoard 记录实验结果。

这个 PDF 要求完成一份 强化学习个人项目报告：需要自己选择一个 Atari 游戏，实现并训练一个你选定的 深度强化学习算法 来达到有竞争力的表现，然后提交一份不超过 3000 词 的技术报告和一个包含全部源代码及训练模型的 zip 文件；报告中需要说明选择的游戏及其挑战，调研并总结深度强化学习尤其是在 Atari 游戏中的应用现状，比较考虑过的算法并解释为什么最终选择当前方法，详细介绍算法原理与具体实现，评估智能体表现、说明所选基准和评价指标，并分析为什么该算法在这个游戏上表现好或不好，同时用清晰标注坐标轴和图例的图表来展示结果；另外，作业明确要求不能直接用 Stable-Baselines 等强化学习专用库来实现算法，但可以用它们做 benchmark，对代码质量、结果分析、报告结构、图表使用和引用规范都会评分，最终还要按指定格式命名并提交 PDF 和 zip 文件。

完成一份 机器学习个人课程作业：围绕一个健康保险数据集，建立并改进一个用于预测申请人保费风险等级（Low / Standard / High）的多分类模型。你需要先完成 Jupyter Notebook 部分，包括数据清理与预处理、识别并删除数据泄露特征、建立基线模型、对比随机森林和一种 boosting 模型、使用高级超参数优化方法调参、根据学号末位完成指定的个性化改进并至少再做一个可选改进、再进行一次 K-Means 与 GMM 的无监督探索，最后基于验证结果选出最终模型并导出规定格式的 hidden-test CSV；同时还要提交一份 不超过1200词 左右的 Theory and Reflection PDF，围绕 bagging vs boosting、超参数优化、K-Means vs GMM、个性化改进反思和 AI 使用声明进行理论与实验结合的总结，并且所有结论都要紧扣你自己 notebook 里的表格、图和指标证据，最终按要求提交 notebook、PDF、CSV 以及必要的补充代码。