Files
elderly-heat-warning/thesis/chapters/ch3-data.tex
T
Serendipity 07468266b4 feat: 完成模型训练/评估/Web大屏/LaTeX论文框架
- LSTM-Attention模型(983K参数) + XGBoost基线
- Flask API后端(4端点) + ECharts可视化大屏(6面板)
- LaTeX学位论文完整框架(7章+参考文献)
- ERA5下载脚本(CDS逐月并行下载)
- README项目文档

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-05-26 21:01:42 +08:00

72 lines
3.8 KiB
TeX
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
\chapter{数据获取与预处理}
\section{研究区域概况}
本研究选取焦作市和郑州市作为研究区域。两市位于河南省中部偏北,属于暖温带大陆性季风气候,夏季炎热多雨,冬季寒冷干燥,年平均气温约14-15℃,7月平均气温可达27-28℃,极端高温超过40℃。
焦作市总面积4071平方公里,常住人口约352万,其中65岁及以上人口占比约12.8\%。郑州市作为河南省省会,总面积7446平方公里,常住人口约1274万,老龄化率约11.6\%。两市的城镇化率均超过65\%,城市热岛效应与人口老龄化叠加,使得高温健康防护问题尤为突出。
\section{数据来源}
\subsection{ERA5-Land气象再分析数据}
ERA5-Land是欧洲中期天气预报中心(ECMWF)提供的全球陆地表面再分析数据集,空间分辨率为0.1°×0.1°(约9 km),时间分辨率最高为1小时。本研究通过Copernicus Climate Data Store (CDS) API获取2010-2024年间焦作市和郑州市的网格点气象数据。
获取的气象变量包括:
\begin{itemize}
\item 2m温度(2m temperature
\item 2m露点温度(2m dewpoint temperature
\item 地表气压(surface pressure
\item 10m风速U分量和V分量
\item 总降水量(total precipitation
\item 地表太阳辐射(surface solar radiation downwards
\end{itemize}
\subsection{人口与健康数据}
人口数据来源于第七次全国人口普查公报(2020年),包括分年龄段人口结构、老龄化率等基础指标。健康统计数据来源于河南省卫生健康统计年鉴,包括各月死亡人数、门急诊就诊人次等。
\subsection{高温预警与极端天气历史记录}
收集焦作市和郑州市2010-2024年高温预警发布记录和极端天气事件记录,用于标注和验证模型预警的准确性。
\section{数据预处理}
\subsection{时间分辨率统一}
原始ERA5-Land数据为小时级别,需将其聚合为日尺度数据。对于温度变量,计算日最大值、最小值和平均值;对于降水量、太阳辐射等累积变量,计算日总量。
\subsection{缺失值处理}
由于CDS API下载过程中可能产生网络中断导致部分时段数据缺失,采用线性插值和前后日平均值填充相结合的方法处理缺失值。若连续缺失超过30天,则使用历史同期多年平均值进行填充。
\subsection{异常值检测}
对温度数据中的异常值进行检测和修正。温度超出历史同期均值±3倍标准差范围的被视为异常值,采用前后值线性插值修正。
\subsection{特征工程}
在基础气象变量的基础上,构建以下衍生特征:
\begin{itemize}
\item 热浪指数:日最高温度连续超过阈值(32℃/35℃)的天数
\item 昼夜温差:日最高温度与日最低温度之差
\item 连续高温天数:日最高温度超过35℃的连续天数
\item 湿热指数:结合温度和湿度计算的体感温度
\item 季节编码:月份的正弦/余弦编码
\item 滞后特征:前1天、前3天、前7天的温度值
\end{itemize}
\section{数据集构建}
\subsection{样本构造}
采用滑动窗口方法构造监督学习样本。以历史N天的气象特征序列为输入,以未来T天的健康风险等级为目标变量。分别构建短期(输入7天,输出1-3天)、中期(输入30天,输出7天)和长期(输入90天,输出30天)三个时间尺度的数据集。
\subsection{训练集与测试集划分}
采用时间序列划分方法,使用2010-2019年数据作为训练集,2020-2022年数据作为验证集,2023-2024年数据作为测试集,以模拟真实预测场景。
\subsection{数据归一化}
对所有数值型特征采用Z-score标准化(均值为0,标准差为1),标准化参数基于训练集计算并应用于验证集和测试集。