elderly-heat-warning/thesis/chapters/ch4-model.tex

\chapter{多时间尺度预警模型设计}

\section{模型总体架构}

本研究设计了基于LSTM-Attention的多时间尺度高温健康风险预警模型，整体架构包括四个主要模块：输入层（多维气象特征序列）、LSTM编码层（时序特征提取）、多头自注意力层（关键时间步加权）和输出层（多时间尺度风险预测）。

\section{LSTM编码层}

\subsection{时序特征提取}

LSTM编码层接收经过标准化的多维气象特征序列，通过两层堆叠的LSTM网络逐步提取时序中的高级特征表示。第一层LSTM以50个隐藏单元对输入序列进行初步编码，第二层LSTM以50个隐藏单元对第一层的输出进行更深层次的时序模式挖掘。

\subsection{Dropout正则化}

在每层LSTM之后加入Dropout层，丢弃概率设为0.3，以防止模型在训练集上过拟合。

\section{多头自注意力层}

\subsection{注意力计算}

在LSTM编码器的输出之上，应用多头自注意力机制（head=4），使模型能够自动学习输入序列中不同时间步对预测目标的重要性权重。通过注意力机制，模型可以重点关注高温连续天数、温度突变点等对健康风险影响较大的关键时段。

\subsection{残差连接与层归一化}

参照Transformer架构，在多头注意力子层后加入残差连接和层归一化，以加速训练收敛并提升模型稳定性。

\section{多任务输出层}

考虑到短期、中期和长期预警任务之间的关联性，输出层采用多任务学习（Multi-Task Learning）架构，共享LSTM编码层和注意力层的特征表示，通过三个独立的全连接头分别输出不同时间尺度的风险等级预测。

每个输出头包括两个全连接层：第一层将注意力池化后的特征映射到32维，第二层输出目标时间尺度的预测结果。

\section{损失函数与优化器}

\subsection{损失函数}

对于多分类风险等级预测任务，采用交叉熵损失函数（Cross-Entropy Loss）。三个任务的损失按相等权重加权求和，总损失定义为：

\[
\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{short}} + \mathcal{L}_{\text{medium}} + \mathcal{L}_{\text{long}}
\]

\subsection{优化器与学习率策略}

使用Adam优化器，初始学习率设为0.001。训练过程中采用ReduceLROnPlateau学习率衰减策略，当验证损失连续10个epoch未下降时，学习率减半。同时设置早停（Early Stopping）策略，验证损失连续25个epoch未下降时终止训练。

\section{基线模型：XGBoost}

为评估深度学习方法的有效性，选用XGBoost作为基线模型进行对比实验。XGBoost输入为展平后的特征向量（所有时间步特征拼接），输出与LSTM-Attention模型保持一致。

XGBoost的关键超参数包括：树的数量（n\_estimators=200）、最大深度（max\_depth=6）、学习率（learning\_rate=0.1）和子采样率（subsample=0.8），通过5折交叉验证在训练集上选择最优超参数。

\section{评估指标}

采用以下指标评估模型性能：
\begin{itemize}
    \item 准确率（Accuracy）：预测正确的样本占总样本的比例
    \item 精确率（Precision）：被预测为某风险等级的样本中真正属于该等级的比例
    \item 召回率（Recall）：某风险等级的样本中被正确预测的比例
    \item F1分数（F1-Score）：精确率与召回率的调和平均
    \item 宏平均（Macro Average）：各类别指标的算术平均，适用于类别不均衡场景
\end{itemize}