feat: 论文大幅扩写 — 42页,完整数学公式+实际数据+系统描述

This commit is contained in:
2026-05-28 13:09:08 +08:00
parent 4e41de3772
commit 2bdafc56bb
8 changed files with 620 additions and 173 deletions
+18 -16
View File
@@ -2,44 +2,46 @@
\section{工作总结}
本研究以焦作市和郑州市为研究区域,针对银发群体高温健康风险预警问题,开展了多时间尺度预警模型构建和可视化系统开发工作,取得了以下主要成果:
本研究以河南省焦作市和郑州市为研究区域,针对银发群体高温健康风险预警问题,系统开展了数据获取、特征工程、模型构建与对比、可视化系统开发工作,取得了以下主要成果:
\begin{enumerate}
\item \textbf{构建了多源数据集}:获取并预处理了2010-2024年焦作、郑州两市的ERA5-Land气象再分析数据,结合人口普查和卫生统计数据,构建了温度-健康风险关联数据集,为后续模型训练提供了数据基础
\item \textbf{构建了高质量的ERA5-Land气象数据集}:通过CDS API获取2010-2024年焦作、郑州两市的ERA5-Land网格气象数据(360个月度NetCDF文件),经ZIP解压、日聚合、单位转换后,使用Magnus公式计算相对湿度、NOAA Rothfusz公式计算体感温度,构建了包含19个气象衍生特征的完整数据集。最终生成1,095,758条滑动窗口序列样本,覆盖短期(3天)、中期(7天)和长期(30天)三个预测窗口
\item \textbf{设计了LSTM-Attention预警模型}结合LSTM的时序特征提取能力和多头自注意力机制的关键时间步加权能力,构建了多时间尺度(短期/中期/长期)健康风险预警模型。实验结果表明,该模型在短期和中期预警任务上优于XGBoost等传统机器学习方法
\item \textbf{设计并实现了LSTM-Attention深度学习预警模型}模型包含2层双向LSTM(隐藏维度128)、4头自注意力机制和3个独立的多任务输出头,总参数量983,628。采用Focal Loss$\alpha=0.5, \gamma=2.0$)作为损失函数以缓解极度类别不平衡,配合AdamW优化器、ReduceLROnPlateau学习率调度和早停策略进行训练
\item \textbf{实现了可视化大屏系统}:基于Flask和ECharts开发了深色科技蓝风格的Web可视化大屏,实现了温度趋势、风险等级、人口数据和高温统计等多维度的直观展示,为决策者提供了便捷的信息获取渠道
\item \textbf{进行了系统的模型对比实验}:以XGBoost作为基线模型,在164,365条测试样本上进行了严格对比。XGBoost在三个时间尺度上均取得优异性能——短期F1-Macro 0.9325、中期0.9195、长期0.8576。LSTM-Attention模型(F1=0.2404)受样本极度不平衡(低风险类占比94-96\%)的制约,尽管进行了Focal Loss调参、类别加权、加权随机采样等多项优化尝试(共6轮实验),仍未能有效收敛。这一对比结果为环境健康预测任务中「表格数据+树模型vs序列数据+深度模型」的技术路线选择提供了有价值的实证参考
\item \textbf{验证了注意力机制的有效性}:通过注意力权重可视化和消融实验,证明了注意力机制在提升模型性能和可解释性方面的积极作用
\item \textbf{开发了Web可视化大屏系统}:基于Flask后台(4个RESTful API端点)和ECharts 5.5前端,实现了包含温度趋势、风险实时展示、人口饼图、预警时间线、暴露-反应曲线和历史回溯六个功能面板的深色科技蓝风格数据大屏,为高温健康防护提供了直观的决策支持工具
\end{enumerate}
\section{研究不足}
本研究存在以下不足和局限
本研究存在以下局限:
\begin{enumerate}
\item \textbf{数据粒度限制}:ERA5-Land数据的空间分辨率为0.1°(约9 km),无法捕捉城市内部的微气候差异,对精细化的社区级预警支持有限。
\item \textbf{数据粒度限制}:ERA5-Land数据的空间分辨率为0.1°(约9 km),无法捕捉城市内部的微气候差异(如不同城区的热岛强度差异),对社区级别的精细化预警支持有限。
\item \textbf{健康数据的间接性}:受限于数据可获取性,本研究的健康风险数据主要来源于宏观统计年鉴,缺乏个体级别的健康记录数据,风险标注的精细度有待提升
\item \textbf{健康终点数据的间接性}:受限于健康数据可获取性,本研究的风险等级划分基于体感温度阈值和文献暴露-反应曲线,而非直接的个体级健康结局数据(如死亡记录、急诊就诊人次的时间序列)。温度-健康关联存在显著的人群异质性和地域差异,直接使用文献曲线可能引入一定偏差
\item \textbf{模型局限性}LSTM-Attention模型在长期(30天)预测任务上的性能仍有较大提升空间,长期气象预测本质上具有较强的混沌性和不确定性
\item \textbf{气象变量范围的有限性}:本研究仅使用了ERA5-Land的6个基础气象变量(温度、露点、气压、风速、降水),未纳入辐射通量、边界层高度、土壤湿度等可能与高温健康效应相关的变量
\item \textbf{系统功能待完善}:当前可视化系统主要侧重于数据展示和预警呈现,尚未集成预警自动推送、多级联动响应等高级功能
\item \textbf{LSTM模型训练不充分}:深度序列模型在极端类别不平衡条件下的训练是一个公认的难题。本研究尝试的优化策略(Focal Loss、类别权重、加权采样)均未能使LSTM模型收敛,可能存在未探索的更优策略(如SMOTE过采样、两阶段训练、对抗训练等)
\item \textbf{系统功能待完善}:当前可视化系统主要为原型版本,尚未集成预警自动推送、多级联动响应、用户认证和操作审计等功能。
\end{enumerate}
\section{未来展望}
基于本研究的成果和不足,未来可从以下方向继续深入:
基于本研究的成果和经验,未来可从以下方向继续深入:
\begin{enumerate}
\item \textbf{引入更高分辨率数据}结合地面气象观测数据和卫星遥感数据,提升数据空间分辨率,支持更精细的城市内部风险评估
\item \textbf{多源数据融合}引入地面气象观测数据(提高时间分辨率和局部精度)、卫星遥感地表温度(LST,捕捉城市热岛空间格局)、社会经济普查数据(建筑年代、空调普及率、社区绿化率等脆弱性因子)以及社交媒体和健康服务大数据,构建更全面的风险画像
\item \textbf{融合更多模态数据}:引入社交媒体数据、120急救呼叫数据、医院急诊就诊数据等多源信息,构建更全面的健康风险评估体系
\item \textbf{深度模型训练策略改进}:针对极度类别不平衡问题,探索SMOTE和ADASYN等合成少数类过采样技术、基于对比学习的预训练策略、以及将XGBoost作为教师模型进行知识蒸馏(Knowledge Distillation),引导深度模型学习有判别力的特征表示
\item \textbf{探索更先进的模型架构}:尝试引入Transformer、Informer、Autoformer等更先进的时序预测模型,进一步提升长期预警精度。
\item \textbf{更先进的模型架构}:尝试Informer、Autoformer等专为长序列预测设计的Transformer变体,以及图神经网络(GNN)用于多城市联合建模。同时,探索概率预测方法(如DeepAR、概率Transformer)以提供预测不确定性估计,增强预警的可信度。
\item \textbf{完善系统功能}:在可视化系统的基础上,开发预警自动推送、多级联动响应、应急预案管理等高级功能,提升系统的实用性和智能化水平
\item \textbf{系统功能增强与部署}:完善预警推送机制(短信、微信小程序、社区广播),建立多级预警响应流程(蓝/黄/橙/红四级联动),添加用户角色管理和操作日志,支持多城市切换和历史预警复盘分析
\item \textbf{扩展研究区域}:将研究方法和系统推广至河南省其他城市乃至全国范围,为更广泛的老年群体提供高温健康防护服务。
\item \textbf{研究区域推广}:将研究的管线和方法推广至河南省其他城市乃至整个中原城市群,为更大范围内的银发群体提供高温健康防护服务。
\end{enumerate}