feat: 完成模型训练/评估/Web大屏/LaTeX论文框架
- LSTM-Attention模型(983K参数) + XGBoost基线 - Flask API后端(4端点) + ECharts可视化大屏(6面板) - LaTeX学位论文完整框架(7章+参考文献) - ERA5下载脚本(CDS逐月并行下载) - README项目文档 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,71 @@
|
||||
\chapter{数据获取与预处理}
|
||||
|
||||
\section{研究区域概况}
|
||||
|
||||
本研究选取焦作市和郑州市作为研究区域。两市位于河南省中部偏北,属于暖温带大陆性季风气候,夏季炎热多雨,冬季寒冷干燥,年平均气温约14-15℃,7月平均气温可达27-28℃,极端高温超过40℃。
|
||||
|
||||
焦作市总面积4071平方公里,常住人口约352万,其中65岁及以上人口占比约12.8\%。郑州市作为河南省省会,总面积7446平方公里,常住人口约1274万,老龄化率约11.6\%。两市的城镇化率均超过65\%,城市热岛效应与人口老龄化叠加,使得高温健康防护问题尤为突出。
|
||||
|
||||
\section{数据来源}
|
||||
|
||||
\subsection{ERA5-Land气象再分析数据}
|
||||
|
||||
ERA5-Land是欧洲中期天气预报中心(ECMWF)提供的全球陆地表面再分析数据集,空间分辨率为0.1°×0.1°(约9 km),时间分辨率最高为1小时。本研究通过Copernicus Climate Data Store (CDS) API获取2010-2024年间焦作市和郑州市的网格点气象数据。
|
||||
|
||||
获取的气象变量包括:
|
||||
\begin{itemize}
|
||||
\item 2m温度(2m temperature)
|
||||
\item 2m露点温度(2m dewpoint temperature)
|
||||
\item 地表气压(surface pressure)
|
||||
\item 10m风速U分量和V分量
|
||||
\item 总降水量(total precipitation)
|
||||
\item 地表太阳辐射(surface solar radiation downwards)
|
||||
\end{itemize}
|
||||
|
||||
\subsection{人口与健康数据}
|
||||
|
||||
人口数据来源于第七次全国人口普查公报(2020年),包括分年龄段人口结构、老龄化率等基础指标。健康统计数据来源于河南省卫生健康统计年鉴,包括各月死亡人数、门急诊就诊人次等。
|
||||
|
||||
\subsection{高温预警与极端天气历史记录}
|
||||
|
||||
收集焦作市和郑州市2010-2024年高温预警发布记录和极端天气事件记录,用于标注和验证模型预警的准确性。
|
||||
|
||||
\section{数据预处理}
|
||||
|
||||
\subsection{时间分辨率统一}
|
||||
|
||||
原始ERA5-Land数据为小时级别,需将其聚合为日尺度数据。对于温度变量,计算日最大值、最小值和平均值;对于降水量、太阳辐射等累积变量,计算日总量。
|
||||
|
||||
\subsection{缺失值处理}
|
||||
|
||||
由于CDS API下载过程中可能产生网络中断导致部分时段数据缺失,采用线性插值和前后日平均值填充相结合的方法处理缺失值。若连续缺失超过30天,则使用历史同期多年平均值进行填充。
|
||||
|
||||
\subsection{异常值检测}
|
||||
|
||||
对温度数据中的异常值进行检测和修正。温度超出历史同期均值±3倍标准差范围的被视为异常值,采用前后值线性插值修正。
|
||||
|
||||
\subsection{特征工程}
|
||||
|
||||
在基础气象变量的基础上,构建以下衍生特征:
|
||||
\begin{itemize}
|
||||
\item 热浪指数:日最高温度连续超过阈值(32℃/35℃)的天数
|
||||
\item 昼夜温差:日最高温度与日最低温度之差
|
||||
\item 连续高温天数:日最高温度超过35℃的连续天数
|
||||
\item 湿热指数:结合温度和湿度计算的体感温度
|
||||
\item 季节编码:月份的正弦/余弦编码
|
||||
\item 滞后特征:前1天、前3天、前7天的温度值
|
||||
\end{itemize}
|
||||
|
||||
\section{数据集构建}
|
||||
|
||||
\subsection{样本构造}
|
||||
|
||||
采用滑动窗口方法构造监督学习样本。以历史N天的气象特征序列为输入,以未来T天的健康风险等级为目标变量。分别构建短期(输入7天,输出1-3天)、中期(输入30天,输出7天)和长期(输入90天,输出30天)三个时间尺度的数据集。
|
||||
|
||||
\subsection{训练集与测试集划分}
|
||||
|
||||
采用时间序列划分方法,使用2010-2019年数据作为训练集,2020-2022年数据作为验证集,2023-2024年数据作为测试集,以模拟真实预测场景。
|
||||
|
||||
\subsection{数据归一化}
|
||||
|
||||
对所有数值型特征采用Z-score标准化(均值为0,标准差为1),标准化参数基于训练集计算并应用于验证集和测试集。
|
||||
Reference in New Issue
Block a user