feat: 完成模型训练/评估/Web大屏/LaTeX论文框架

- LSTM-Attention模型(983K参数) + XGBoost基线
- Flask API后端(4端点) + ECharts可视化大屏(6面板)
- LaTeX学位论文完整框架(7章+参考文献)
- ERA5下载脚本(CDS逐月并行下载)
- README项目文档

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
2026-05-26 21:01:42 +08:00
parent eeab4d1330
commit 07468266b4
19 changed files with 2730 additions and 69 deletions
+71
View File
@@ -0,0 +1,71 @@
\chapter{数据获取与预处理}
\section{研究区域概况}
本研究选取焦作市和郑州市作为研究区域。两市位于河南省中部偏北,属于暖温带大陆性季风气候,夏季炎热多雨,冬季寒冷干燥,年平均气温约14-15℃,7月平均气温可达27-28℃,极端高温超过40℃。
焦作市总面积4071平方公里,常住人口约352万,其中65岁及以上人口占比约12.8\%。郑州市作为河南省省会,总面积7446平方公里,常住人口约1274万,老龄化率约11.6\%。两市的城镇化率均超过65\%,城市热岛效应与人口老龄化叠加,使得高温健康防护问题尤为突出。
\section{数据来源}
\subsection{ERA5-Land气象再分析数据}
ERA5-Land是欧洲中期天气预报中心(ECMWF)提供的全球陆地表面再分析数据集,空间分辨率为0.1°×0.1°(约9 km),时间分辨率最高为1小时。本研究通过Copernicus Climate Data Store (CDS) API获取2010-2024年间焦作市和郑州市的网格点气象数据。
获取的气象变量包括:
\begin{itemize}
\item 2m温度(2m temperature
\item 2m露点温度(2m dewpoint temperature
\item 地表气压(surface pressure
\item 10m风速U分量和V分量
\item 总降水量(total precipitation
\item 地表太阳辐射(surface solar radiation downwards
\end{itemize}
\subsection{人口与健康数据}
人口数据来源于第七次全国人口普查公报(2020年),包括分年龄段人口结构、老龄化率等基础指标。健康统计数据来源于河南省卫生健康统计年鉴,包括各月死亡人数、门急诊就诊人次等。
\subsection{高温预警与极端天气历史记录}
收集焦作市和郑州市2010-2024年高温预警发布记录和极端天气事件记录,用于标注和验证模型预警的准确性。
\section{数据预处理}
\subsection{时间分辨率统一}
原始ERA5-Land数据为小时级别,需将其聚合为日尺度数据。对于温度变量,计算日最大值、最小值和平均值;对于降水量、太阳辐射等累积变量,计算日总量。
\subsection{缺失值处理}
由于CDS API下载过程中可能产生网络中断导致部分时段数据缺失,采用线性插值和前后日平均值填充相结合的方法处理缺失值。若连续缺失超过30天,则使用历史同期多年平均值进行填充。
\subsection{异常值检测}
对温度数据中的异常值进行检测和修正。温度超出历史同期均值±3倍标准差范围的被视为异常值,采用前后值线性插值修正。
\subsection{特征工程}
在基础气象变量的基础上,构建以下衍生特征:
\begin{itemize}
\item 热浪指数:日最高温度连续超过阈值(32℃/35℃)的天数
\item 昼夜温差:日最高温度与日最低温度之差
\item 连续高温天数:日最高温度超过35℃的连续天数
\item 湿热指数:结合温度和湿度计算的体感温度
\item 季节编码:月份的正弦/余弦编码
\item 滞后特征:前1天、前3天、前7天的温度值
\end{itemize}
\section{数据集构建}
\subsection{样本构造}
采用滑动窗口方法构造监督学习样本。以历史N天的气象特征序列为输入,以未来T天的健康风险等级为目标变量。分别构建短期(输入7天,输出1-3天)、中期(输入30天,输出7天)和长期(输入90天,输出30天)三个时间尺度的数据集。
\subsection{训练集与测试集划分}
采用时间序列划分方法,使用2010-2019年数据作为训练集,2020-2022年数据作为验证集,2023-2024年数据作为测试集,以模拟真实预测场景。
\subsection{数据归一化}
对所有数值型特征采用Z-score标准化(均值为0,标准差为1),标准化参数基于训练集计算并应用于验证集和测试集。