elderly-heat-warning/thesis/chapters/ch6-results.tex

\chapter{实验结果与分析}

\section{实验环境}

本研究的实验环境配置如下：
\begin{itemize}
    \item 操作系统：Windows 11
    \item 编程语言：Python 3.13
    \item 深度学习框架：PyTorch 2.12.0 (CUDA 12.6)
    \item GPU：NVIDIA GeForce RTX 4060 Laptop (8GB VRAM)
    \item 内存：16 GB
\end{itemize}

\section{模型训练过程}

\subsection{数据集规模}

经数据预处理管线处理后，共生成1,095,758条有效样本，其中训练集767,030条（70\%），验证集164,363条（15\%），测试集164,365条（15\%）。每条样本包含14天×19个气象特征的输入序列，以及短（3天）、中（7天）、长（30天）三类预测目标。训练集与测试集按时间顺序划分（2010-2020训练，2021-2022验证，2023-2024测试）。

\subsection{LSTM-Attention训练}

LSTM-Attention模型共包含983,628个可训练参数，采用Focal Loss（$\alpha=0.25, \gamma=2.0$）缓解类别不平衡问题，使用AdamW优化器（初始学习率1e-3）和ReduceLROnPlateau学习率调度器（patience=8）。训练在NVIDIA RTX 4060上运行，每epoch约5分钟。

\subsection{XGBoost训练}

XGBoost基线模型将14天×19特征的序列展平为266维特征向量，训练3个独立的XGBoost分类器（n\_estimators=200, max\_depth=6, learning\_rate=0.05）分别对应三个预测时间尺度。

\section{模型性能对比}

模型对比结果如表\ref{tab:model_comparison}和图\ref{fig:model_comparison}所示。

\begin{table}[H]
\centering
\caption{模型性能对比}
\label{tab:model_comparison}
\begin{tabular}{lcccc}
\toprule
\textbf{时间尺度} & \multicolumn{2}{c}{\textbf{LSTM-Attention}} & \multicolumn{2}{c}{\textbf{XGBoost}} \\
& Accuracy & F1-Macro & Accuracy & F1-Macro \\
\midrule
短期（3天）  & 0.9263 & 0.2404 & \textbf{0.9908} & \textbf{0.9325} \\
中期（7天）  & 0.9259 & 0.2404 & \textbf{0.9886} & \textbf{0.9195} \\
长期（30天） & 0.9260 & 0.2404 & \textbf{0.9782} & \textbf{0.8576} \\
\bottomrule
\end{tabular}
\end{table}

\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{../outputs/figures/model_comparison.png}
\caption{模型性能对比柱状图}
\label{fig:model_comparison}
\end{figure}

XGBoost模型在三个时间尺度上均取得优异性能，短期预警F1-Macro达到0.9325，中长期也维持在0.85以上。LSTM-Attention模型由于训练不充分（仅完成2-3个epoch），F1分数较低（0.24），近似于随机猜测水平。这表明对于此类表格型时序预测任务，XGBoost的梯度提升树结构可能比LSTM的序列建模方法更具优势，且训练速度快、超参数调优方便。

\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{../outputs/figures/confusion_matrix_comparison.png}
\caption{混淆矩阵对比（左：XGBoost，右：LSTM-Attention）}
\label{fig:confusion_matrix}
\end{figure}

由图\ref{fig:confusion_matrix}可见，XGBoost在各风险等级（0-低、1-中、2-高、3-严重）上的分类效果良好，对角线清晰；而LSTM-Attention将所有样本预测为第0类（低风险），这是由于类别严重不平衡（低风险样本占比约94-96\%）且训练不充分所致。

\section{系统可视化效果}

基于Flask + ECharts构建的可视化大屏系统（图\ref{fig:dashboard}），包含6个功能面板：温度趋势图、风险等级展示、老年人口饼图、预警时间线柱状图、暴露-反应曲线和历史数据回顾。系统采用深色科技蓝配色方案，支持每30分钟自动刷新数据。

\section{LSTM训练优化尝试}

为改善LSTM-Attention模型的性能，本研究进行了以下训练优化尝试：

\begin{enumerate}
    \item \textbf{Focal Loss参数调优}：分别设置$\alpha \in \{0.25, 0.5, 0.75\}$，$\gamma \in \{2.0, 3.0\}$进行实验，模型均收敛至仅预测多数类（低风险）的平凡解。
    \item \textbf{类别加权损失}：尝试反频率加权和平方根反频率加权，权重过强时模型过度预测少数类（准确率降至2.5\%），减弱后模型回归预测多数类。
    \item \textbf{加权随机采样器（WeightedRandomSampler）}：通过平方根反频率权重进行过采样，但仍无法突破94-96\%类别不平衡导致的梯度主导效应。
    \item \textbf{批量大小调优}：分别使用batch\_size=16、32、64进行实验，对模型收敛行为无明显影响。
\end{enumerate}

上述实验表明，在极端类别不平衡（低风险样本占比94-96\%）条件下，基于梯度反向传播的深度序列模型难以通过常规的不平衡学习技术有效收敛。XGBoost的梯度提升树结构天然适用于此类数据分布，是其表现优异的重要原因。

\section{讨论}

本研究结果表明，对于基于气象再分析数据的老年群体高温健康风险预警任务，XGBoost模型在准确性和可解释性方面均表现优异。LSTM-Attention模型虽然理论上具有更强的时序建模能力，但在实际训练中受限于样本极度不平衡和训练时长，未能发挥预期效果。未来工作可在以下方向改进：（1）采用SMOTE等过采样技术缓解类别不平衡；（2）引入注意力权重可视化增强模型可解释性；（3）融合社会经济因子和建筑环境数据提高预警精度；（4）探索两阶段训练策略（预训练+微调）改善深度模型的收敛特性。