# Theory and Reflection PDF — 官方要求汇总

> 来源：原始 PDF `DTS304TC_Assessment1_(word)_2026(1).pdf` + 外教课整理文件

---

## 1. 基本提交要求

| 项目 | 要求 |
|------|------|
| 文件名 | `Coursework Answer Sheet / Theory and Reflection PDF` |
| 格式 | **PDF** |
| 分值 | **30 分**（占整份作业 50% 中的 30%） |
| 提交位置 | Learning Mall 平台 |

---

## 2. 硬性约束（超限扣分）

| 约束 | 说明 | 违规处罚 |
|------|------|---------|
| **页数** | ≤ **4 页** | 固定扣 **5 分** |
| **词数** | ≤ **1200 词**（正文总计） | 固定扣 **5 分** |
| **内容** | 不按 notebook 章节逐段重复 | 会扣分 |

只要页数或词数 **任一超限**，从 PDF 部分直接扣 5 分，无例外。

---

## 3. 必须回答的 5 个主题（全部 compulsory）

### Q1 - Bagging versus Boosting (8 marks 关联)

PDF 必须包含：

1. **简要定义** bagging 和 boosting 的理论性质
2. **报告** 两类模型的验证结果（来自你自己的 notebook）
3. **支撑比较**：至少 1-2 个额外分析，例如
   - class-wise F1 metrics
   - confusion matrix
   - train-vs-validation behaviour
   - tuning 后的稳定性/敏感性
4. **数据集特定解释**：结合你自己的实验结果，解释 bagging vs boosting 在本数据集上的表现差异

> ⚠️ 原文特别强调：泛化的教科书答案（无 notebook 证据支撑）将获得有限分数。

---

### Q2 - Hyperparameter Optimisation (12 marks 关联)

必须解释：

- 为什么你的优化器和搜索空间对所选模型合理
- 你原本预期哪些超参数最重要
- 调参结果是否符合你的预期
- 从调参过程中学到了什么

---

### Q3 - K-Means versus GMM (6 marks 关联)

必须包含：

- 解释 **hard assignment vs soft assignment**
- 解释两者**核心假设差异**
- 用你自己的实验结果讨论结果是否符合直觉
- 说明 GMM 是否揭示了额外信息，例如：
  - soft membership
  - uncertainty
  - partial cluster structure

---

### Q4 - Personalised Reflection

必须反思：

- 你的 **compulsory category**（根据学号末位决定）
- 你做的每个 **optional category**
- 你尝试过的策略、遇到的挑战、如何解决
- 学到的关键教训

> 💡 即使结果中性或负面，只要反思具体，也可以接受。

---

### Q5 - AI Use Declaration

必须说明：

- 是否使用了 AI 工具，使用了什么形式的辅助
- **Generic AI-written theory** 如果和 notebook 证据对不上，只会拿到很有限的分数

---

## 4. 证据引用要求（每题必须引用）

| 要求 | 说明 |
|------|------|
| 每题至少引用 **1 个** notebook 证据 | 表格 / 图 / 指标皆可 |
| 所有结论紧扣你自己的实验结果 | 不能凭空泛化 |

原文原话：
> *"At least one table, figure, or metric from the notebook must be referenced in each theory answer."*

---

## 5. AI 使用限制（硬约束）

| 可以 | 不可以 |
|------|--------|
| ✅ code understanding | ❌ 直接用 ChatGPT 生成答案 |
| ✅ debugging | ❌ 替代 method design |
| ✅ grammar support | ❌ 替代 ablation logic |
| ✅ 语法润色 | ❌ 替代 qualitative analysis |
| - | ❌ 替代 reflection |

原文原话：
> *"High-scoring work must demonstrate your own experimental design, controlled comparisons, failure analysis, and image-level interpretation."*

如果你以任何有意义的方式使用了 AI 工具或外部代码，你必须：
- 完全理解每个 method、number、figure、written claim
- 验证并对所有内容负责

---

## 6. 提交格式要求（额外扣分风险）

| 项目 | 风险 |
|------|------|
| CSV 文件名格式错误 | **-4 分**（自动扣） |
| CSV 列顺序错误 | **-4 分**（自动扣） |
| CSV 列缺失（如没有 `customer_key` 或 `premium_risk`） | **-4 分**（自动扣） |

CSV 正确格式：
- 第 1 列：`applicant_id`
- 第 2 列：`customer_key`
- 第 3 列：`premium_risk`（只能是 Standard / High / Low）

---

## 7. 完整作业分值结构

| 部分 | 分值 | 占比 |
|------|------|------|
| Q1: Notebook-Based Coding Exercise | **60 分** | 60% |
| **Theory and Reflection PDF** | **30 分** | 30% |
| Coding Quality / Answer Sheet Quality / Submission Guidelines | **10 分** | 10% |
| **总计** | **100 分** | 100% |

---

## 8. 当前版本自查清单

| 检查项 | 当前状态 |
|--------|---------|
| 总页数 ≤ 4 页 | ✅ 3 页 |
| 总词数 ≤ 1200 词 | ✅ ~941 词 |
| 5 个主题全部回答 | ✅ 是 |
| 每题引用 ≥ 1 个 notebook 证据 | ✅ 是 |
| 不重复 notebook 章节顺序 | ✅ 是 |
| 全英文撰写 | ✅ 是 |
| AI 使用说明克制、真实、可核验 | ✅ 是 |
| CSV 文件名格式正确 | ✅ `test_result_1234560.csv` |
| CSV 列顺序正确 | ✅ applicant_id, customer_key, premium_risk |

---

## 9. 参考文件

- `DTS304TC_Assessment1_(word)_2026(1).pdf` — 原始评分说明 PDF（已放入 `docs/`）
- `机器学习个人课程作业_需求分析与实现方案.md` — 需求分析整理文档（已放入 `docs/`）
- `theory_and_reflection_1234560.pdf` — 本次提交的 PDF（已放入 `tex/`）
- `theory_and_reflection_1234560.tex` — 本次提交的 TeX 源文件（已放入 `tex/`）