\chapter{数据获取与预处理} \section{研究区域概况} 本研究选取焦作市和郑州市作为研究区域。两市位于河南省中部偏北,属于暖温带大陆性季风气候,夏季炎热多雨,冬季寒冷干燥,年平均气温约14-15℃,7月平均气温可达27-28℃,极端高温超过40℃。 焦作市总面积4071平方公里,常住人口约352万,其中65岁及以上人口占比约12.8\%。郑州市作为河南省省会,总面积7446平方公里,常住人口约1274万,老龄化率约11.6\%。两市的城镇化率均超过65\%,城市热岛效应与人口老龄化叠加,使得高温健康防护问题尤为突出。 \section{数据来源} \subsection{ERA5-Land气象再分析数据} ERA5-Land是欧洲中期天气预报中心(ECMWF)提供的全球陆地表面再分析数据集,空间分辨率为0.1°×0.1°(约9 km),时间分辨率最高为1小时。本研究通过Copernicus Climate Data Store (CDS) API获取2010-2024年间焦作市和郑州市的网格点气象数据。 获取的气象变量包括: \begin{itemize} \item 2m温度(2m temperature) \item 2m露点温度(2m dewpoint temperature) \item 地表气压(surface pressure) \item 10m风速U分量和V分量 \item 总降水量(total precipitation) \item 地表太阳辐射(surface solar radiation downwards) \end{itemize} \subsection{人口与健康数据} 人口数据来源于第七次全国人口普查公报(2020年),包括分年龄段人口结构、老龄化率等基础指标。健康统计数据来源于河南省卫生健康统计年鉴,包括各月死亡人数、门急诊就诊人次等。 \subsection{高温预警与极端天气历史记录} 收集焦作市和郑州市2010-2024年高温预警发布记录和极端天气事件记录,用于标注和验证模型预警的准确性。 \section{数据预处理} \subsection{时间分辨率统一} 原始ERA5-Land数据为小时级别,需将其聚合为日尺度数据。对于温度变量,计算日最大值、最小值和平均值;对于降水量、太阳辐射等累积变量,计算日总量。 \subsection{缺失值处理} 由于CDS API下载过程中可能产生网络中断导致部分时段数据缺失,采用线性插值和前后日平均值填充相结合的方法处理缺失值。若连续缺失超过30天,则使用历史同期多年平均值进行填充。 \subsection{异常值检测} 对温度数据中的异常值进行检测和修正。温度超出历史同期均值±3倍标准差范围的被视为异常值,采用前后值线性插值修正。 \subsection{特征工程} 在基础气象变量的基础上,构建以下衍生特征: \begin{itemize} \item 热浪指数:日最高温度连续超过阈值(32℃/35℃)的天数 \item 昼夜温差:日最高温度与日最低温度之差 \item 连续高温天数:日最高温度超过35℃的连续天数 \item 湿热指数:结合温度和湿度计算的体感温度 \item 季节编码:月份的正弦/余弦编码 \item 滞后特征:前1天、前3天、前7天的温度值 \end{itemize} \section{数据集构建} \subsection{样本构造} 采用滑动窗口方法构造监督学习样本。以历史N天的气象特征序列为输入,以未来T天的健康风险等级为目标变量。分别构建短期(输入7天,输出1-3天)、中期(输入30天,输出7天)和长期(输入90天,输出30天)三个时间尺度的数据集。 \subsection{训练集与测试集划分} 采用时间序列划分方法,使用2010-2019年数据作为训练集,2020-2022年数据作为验证集,2023-2024年数据作为测试集,以模拟真实预测场景。 \subsection{数据归一化} 对所有数值型特征采用Z-score标准化(均值为0,标准差为1),标准化参数基于训练集计算并应用于验证集和测试集。