feat: 论文扩充至52页 — 全部章节深度扩写+20篇参考文献+3附录+致谢
This commit is contained in:
@@ -2,66 +2,106 @@
|
||||
|
||||
\section{研究背景}
|
||||
|
||||
全球气候变化是21世纪人类面临的最重大公共卫生挑战之一。根据世界气象组织(WMO)2024年发布的报告,2023年全球平均气温较工业化前水平上升约1.45°C,创下有记录以来的最高值。政府间气候变化专门委员会(IPCC)第六次评估报告指出,全球平均气温每升高0.5°C,极端高温事件的频率和强度将呈非线性增长。在此背景下,高温热浪已从偶发性气象事件演变为常态化的公共卫生威胁。
|
||||
\subsection{全球气候变化与极端高温}
|
||||
|
||||
中国是全球受高温热浪影响最为显著的国家之一。中国气象局《2023年中国气候公报》数据显示,2023年全国平均高温日数(日最高气温≥35°C)为11.3天,较常年偏多4.1天,为1961年以来第二多。河南省作为中原腹地,夏季受副热带高压控制,高温天气持续时间长、强度大。2022年6月河南省出现持续性高温天气,多地最高气温突破40°C,郑州、焦作等城市连续高温日数超过10天。
|
||||
全球气候变化是21世纪人类面临的最严峻公共卫生挑战之一。政府间气候变化专门委员会(IPCC)第六次评估报告\cite{ipcc2023ar6}指出,2011-2020年全球地表平均温度较1850-1900年升高了1.09°C,其中陆地升温幅度(1.59°C)显著高于海洋(0.88°C)。在SSP2-4.5(中等排放)情景下,全球平均气温预计在2040年前达到1.5°C阈值;在SSP5-8.5(高排放)情景下,本世纪末升温可能达到3.3-5.7°C。
|
||||
|
||||
\section{银发群体的高温脆弱性}
|
||||
极端高温事件是全球变暖最直接的健康效应传导路径。IPCC AR6以中等信度指出,1950年以来全球大部分陆地区域的暖昼和暖夜频率增加、冷昼和冷夜频率减少,热浪事件的持续时间、强度和频率均呈上升趋势。世界气象组织(WMO)2024年报告确认2023年为有气象记录以来最热年份,全球平均气温较工业化前上升约1.45°C,海洋热含量、海平面上升、冰川消融等多项气候指标均创历史极值。
|
||||
|
||||
老年群体(65岁及以上)是高温热浪健康效应最敏感的亚群。其脆弱性根植于生理、社会和经济三个层面:
|
||||
中国是全球气候变化的敏感区和影响显著区。《中国气候变化蓝皮书(2024)》显示,1901-2023年中国地表年平均气温呈显著上升趋势,平均每10年升高0.16°C,高于同期全球平均水平。1951-2023年中国平均年降水量也呈增加趋势。2023年全国平均气温为10.71°C,较常年偏高0.82°C,为1961年以来第二高。
|
||||
|
||||
\textbf{生理层面:}老年人皮肤血流量减少、出汗率降低,体温调节功能显著退化;同时心血管疾病、糖尿病、慢性呼吸系统疾病等基础病的患病率随年龄递增,高温应激可诱发或加重这些疾病。研究表明,当体感温度(Heat Index)超过32°C时,65岁以上人群的全因死亡风险开始显著上升;当体感温度超过38°C时,心血管疾病死亡风险增加30\%-50\%。
|
||||
\subsection{中国的高温热浪态势}
|
||||
|
||||
\textbf{社会层面:}空巢老人比例持续上升,独居状态下高温防护意识和应对能力不足。第七次全国人口普查数据显示,中国65岁及以上人口已达1.91亿(占比13.5\%),其中独居老人超过3,000万。
|
||||
中国气象局《2023年中国气候公报》指出,2023年全国平均高温日数(日最高气温≥35°C)为11.3天,较常年(7.2天)偏多4.1天。2022年夏季,中国经历了1961年以来最强的高温热浪事件,中央气象台连续41天发布高温预警,其中高温红色预警连续发布了12天。长江流域多地最高气温突破44°C,约5亿人口受到影响。
|
||||
|
||||
\textbf{经济层面:}老年人收入水平普遍偏低,空调等降温设备的使用率受经济条件制约。农村地区老人面临的降温条件更为有限。
|
||||
河南省处于中国南北气候过渡带,夏季同时受副热带高压和大陆暖高压控制,高温天气频发。郑州、焦作等城市7月平均最高气温超过32°C,极端最高气温超过42°C。2022年6月,河南省出现持续性大范围高温天气,多地连续高温日数超过10天。
|
||||
|
||||
\subsection{银发群体的高温脆弱性}
|
||||
|
||||
老年群体(65岁及以上)是高温热浪健康效应最敏感的亚群。其脆弱性根植于三个层面:
|
||||
|
||||
\textbf{生理层面}——老年人皮肤血流量减少、出汗阈值升高、出汗率降低,体温调节功能显著退化。最大皮肤血流量从年轻时的8-10 L/min降至65岁后的4-6 L/min。同时,心血管疾病(中国65+人群患病率约55\%)、糖尿病(患病率约20\%)、慢性阻塞性肺疾病(患病率约14\%)等基础疾病的患病率随年龄递增。高温应激可引起血液浓缩、电解质紊乱和心血管负荷增加,诱发或加重这些基础疾病。多项流行病学研究(Gasparrini等, 2015; Chen等, 2018)一致表明,温度-死亡关联呈J型或V型曲线,65岁以上人群在高温端的相对风险(Relative Risk, RR)显著高于年轻群体。
|
||||
|
||||
\textbf{社会层面}——中国空巢老人比例持续上升。第七次全国人口普查(2020年)数据显示,中国65岁及以上人口为1.91亿,占总人口13.5\%,较2010年第六次普查(8.9\%)上升了4.6个百分点。其中独居老人超过3,000万,农村地区空巢老人比例更高。独居和空巢状态削弱了老人在高温期间的应对能力——缺乏照护者提醒补充水分、开启空调或就医。
|
||||
|
||||
\textbf{经济层面}——老年人收入水平普遍偏低,空调等降温设备的使用率受经济条件制约。中国健康与养老追踪调查(CHARLS)数据显示,农村地区65岁以上老年人空调拥有率不足50\%,即使在拥有空调的家庭中,电费负担也是限制使用的显著因素。
|
||||
|
||||
\section{研究区域选择}
|
||||
|
||||
本研究选取焦作市和郑州市作为研究区域,理由如下:
|
||||
|
||||
焦作市位于河南省西北部,总面积4,071 km$^2$,常住人口约352万(2023年),65岁及以上人口占比约12.8\%。焦作地处太行山南麓,地形以山地丘陵为主,夏季高温叠加地形效应使得城区热环境较为复杂。
|
||||
\textbf{焦作市}位于河南省西北部(35.24°N, 113.22°E),总面积4,071 km$^2$,2023年常住人口约352万,65岁及以上人口占比约12.8\%。焦作北依太行山,地形以山地丘陵为主(约占57\%),城区海拔80-120m,夏季高温叠加山区焚风效应使得城市热环境较为复杂。2021年城镇化率约64.7\%。
|
||||
|
||||
郑州市是河南省省会,总面积7,446 km$^2$,常住人口约1,274万(2023年),65岁及以上人口占比约11.6\%。郑州作为国家中心城市和重要的交通枢纽,城镇化率超过78\%,城市热岛效应显著。两市的城镇化率均超过65\%,城市热岛效应与人口老龄化叠加,使得高温健康防护问题尤为突出。
|
||||
\textbf{郑州市}是河南省省会(34.75°N, 113.62°E),总面积7,446 km$^2$,2023年常住人口约1,274万,65岁及以上人口占比约11.6\%。郑州作为国家中心城市和全国重要的铁路、航空、电力枢纽,2021年城镇化率约78.4\%,城市热岛效应(Urban Heat Island, UHI)显著——城区与郊区温差可达3-5°C。
|
||||
|
||||
两市同属暖温带大陆性季风气候,年平均气温14-15°C,7月平均气温27-28°C,极端最高气温超过42°C。两市地理邻近(相距约70 km),气象条件相似但城市规模和人口结构差异明显,形成了有价值的对比研究场景。
|
||||
两市地理邻近(直线距离约70 km),同属暖温带大陆性季风气候,年平均气温14-15°C,7月平均气温27-28°C,极端最高气温超过42°C。气象条件相似但城市规模和人口结构差异明显(郑州人口约为焦作的3.6倍,但老龄化率略低),形成了有价值的对比研究场景。
|
||||
|
||||
\section{国内外研究现状}
|
||||
|
||||
\subsection{高温-健康关联的流行病学研究}
|
||||
|
||||
温度与死亡率的暴露-反应关系是环境流行病学的经典议题。Gasparrini等(2015)在\textit{The Lancet}发表的多国多城市研究(涵盖13个国家384个城市)是里程碑式成果,发现温度-死亡关联通常呈J型或V型曲线,最适温度(Minimum Mortality Temperature, MMT)因地理位置而异,高温端的相对风险(Relative Risk, RR)显著升高。Chen等(2018)在\textit{The Lancet Planetary Health}发表了中国272个城市的研究,为中国人群提供了本土化的温度-死亡暴露-反应曲线,发现在中国北方城市高温效应更为显著。
|
||||
温度-死亡暴露-反应关系的定量研究是环境流行病学的核心议题。Curriero等(2002)基于美国11个城市数据首次系统报告了温度-死亡J型曲线。Gasparrini等\cite{gasparrini2015mortality}在\textit{The Lancet}发表的具有里程碑意义的多国多城市研究涵盖13个国家384个城市共计7,400万死亡记录,使用分布滞后非线性模型(DLNM)统一分析框架,发现最适温度(Minimum Mortality Temperature, MMT)因地理位置而异——北欧城市MMT约18°C,南欧约24°C,东亚约25°C——高温端(99百分位 vs MMT)的累积相对风险在1.2-1.8之间。
|
||||
|
||||
Chen等\cite{chen2018heat}在\textit{The Lancet Planetary Health}发表了迄今为止中国最大规模的温度-死亡多城市研究,覆盖272个城市2013-2015年间的1,800万死亡记录,发现中国人群总死亡风险的最适温度约为22.8°C,极端高温(99百分位 vs MMT)对应的相对风险为1.21(95\% CI: 1.15-1.28),且在中国北方城市高温效应更为显著。心血管死亡的RR为1.35(1.27-1.44),呼吸系统死亡的RR为1.26(1.10-1.44)。
|
||||
|
||||
\subsection{高温健康预警系统(HHWS)}
|
||||
|
||||
国际上,法国在2003年热浪导致约15,000人超额死亡后建立了国家高温健康预警计划(Plan Canicule),采用三色预警体系。美国NOAA开发了HeatRisk原型系统,综合考虑温度、湿度和人口脆弱性。世界卫生组织(WHO)和世界气象组织(WMO)联合发布了HHWS技术指南。
|
||||
高温健康预警系统(Heat Health Warning System, HHWS)起源于对极端高温事件的公共卫生响应。国际上代表性的HHWS包括:
|
||||
|
||||
国内方面,中国气象局建立了高温预警信号体系(黄色、橙色、红色三级),基于日最高气温阈值。上海、深圳等城市开展了高温健康预警试点,初步将健康终点数据纳入预警逻辑。但总体而言,国内HHWS仍以气象指标为主,缺乏对脆弱人群的精细化评估和多时间尺度的前瞻性预测能力。
|
||||
\begin{table}[H]
|
||||
\centering
|
||||
\caption{国际主要高温健康预警系统对比}
|
||||
\begin{tabular}{p{2cm}p{3.5cm}p{3.5cm}p{3.5cm}}
|
||||
\toprule
|
||||
\textbf{国家/地区} & \textbf{系统名称} & \textbf{预警指标} & \textbf{分级体系} \\
|
||||
\midrule
|
||||
法国 & Plan Canicule & 日最低+最高气温的生物气象指标 & 四级(绿/黄/橙/红) \\
|
||||
美国 & NOAA HeatRisk & 气温+湿度+持续天数+人口脆弱性 & 五级(0-4) \\
|
||||
英国 & Heat-Health Watch & 日最高气温阈值 & 五级(0-4) \\
|
||||
加拿大 & Heat Alert and Response System & 体感温度(Humidex) & 三级 \\
|
||||
日本 & 热中症警戒警报 & WBGT(湿球黑球温度) & 三级 \\
|
||||
中国 & 高温预警信号 & 日最高气温 & 三级(黄/橙/红) \\
|
||||
\bottomrule
|
||||
\end{tabular}
|
||||
\end{table}
|
||||
|
||||
\subsection{深度学习在环境健康预测中的应用}
|
||||
\subsection{机器学习在环境健康预测中的应用}
|
||||
|
||||
传统时间序列预测方法(ARIMA、指数平滑、VAR)受限于线性和平稳性假设,难以应对气象-健康关联中的非线性效应。随着深度学习发展,LSTM(Hochreiter \& Schmidhuber, 1997)等循环神经网络在气象时序预测中展现出优势。注意力机制(Vaswani等, 2017)进一步增强了模型对长距离时序依赖的捕捉能力。
|
||||
传统时序预测方法(ARIMA、SARIMA、指数平滑、VAR)受限于线性假设和平稳性要求,难以捕捉气象-健康关联中的非线性效应。近年来,深度学习在该领域取得了显著进展:
|
||||
|
||||
在环境健康领域,将深度学习应用于高温健康风险预测的研究尚处于起步阶段。现有工作多聚焦于单一时间尺度的预测,且较少针对银发群体进行特定建模。
|
||||
\textbf{循环神经网络方面}:LSTM\cite{hochreiter1997lstm}通过门控机制缓解了梯度消失问题,在气象时序预测中广泛使用。BiLSTM通过双向编码增强了上下文感知能力。Stacked LSTM(多层堆叠)进一步提升了特征抽取的层次性。
|
||||
|
||||
\textbf{注意力机制方面}:Vaswani等\cite{vaswani2017attention}提出的Transformer架构以自注意力替代循环结构,在NLP和CV领域取得了突破性进展。Informer(Zhou等, 2021)通过ProbSparse自注意力和自注意力蒸馏降低了长序列预测的计算复杂度。Autoformer(Wu等, 2021)引入自相关机制替代自注意力,专为季节-趋势分解设计。
|
||||
|
||||
\textbf{梯度提升方面}:XGBoost\cite{chen2016xgboost}通过二阶泰勒展开、正则化目标和并行计算在表格数据上取得了SOTA性能。LightGBM(Ke等, 2017)引入GOSS和EFB进一步提升了训练效率。CatBoost(Prokhorenkova等, 2018)对类别特征的原生支持降低了预处理成本。
|
||||
|
||||
\textbf{环境健康应用方面}:将深度学习方法应用于高温健康风险预测的研究仍处于起步阶段。现有工作多聚焦于单一时间尺度的传染病或空气污染预测,将多时间尺度高温预警与人群脆弱性(特别是银发群体)结合的综合性工作仍为空白。本研究正是针对这一空白,探索深度学习模型(LSTM-Attention)和梯度提升模型(XGBoost)在面向银发群体的多时间尺度高温健康风险预警中的适用性。
|
||||
|
||||
\section{研究目的与意义}
|
||||
|
||||
本研究旨在构建面向银发群体的多时间尺度(短期3天、中期7天、长期30天)高温健康风险预警模型,并通过Web可视化大屏实现预警信息的直观呈现。
|
||||
|
||||
研究意义包括:(1)\textbf{方法创新}——将双向LSTM与多头自注意力机制结合,同时引入Focal Loss解决样本极度不平衡问题,探索深度序列模型在环境健康预测中的适用性与局限性;(2)\textbf{实用价值}——XGBoost模型在三个时间尺度上均取得F1>0.85的优异性能,可直接支撑实际预警决策;(3)\textbf{可视化赋能}——Web大屏将复杂模型输出转化为面向政府管理者、社区工作者和公众的可理解信息,降低预警信息的使用门槛。
|
||||
研究的科学意义和实用价值包括:
|
||||
|
||||
\begin{enumerate}
|
||||
\item \textbf{方法探索}——系统比较深度学习(LSTM-Attention)与梯度提升(XGBoost)在极度类别不平衡条件下的性能差异,为环境健康预测领域的建模选择提供实证参考。
|
||||
\item \textbf{多时间尺度覆盖}——区别于已有研究多聚焦单一预测窗口,本研究同时覆盖短期(操作性预警)、中期(资源调配)和长期(季节性规划)三个决策时间尺度。
|
||||
\item \textbf{可视化赋能}——将复杂的模型输出转化为面向多层次用户(政府管理者、社区工作者、公众)的可理解信息,降低数据驱动决策的使用门槛。
|
||||
\item \textbf{区域针对性}——以中原地区两市为研究靶区,填补该区域面向银发群体的高温健康预警研究空白。
|
||||
\end{enumerate}
|
||||
|
||||
\section{研究内容与技术路线}
|
||||
|
||||
本研究的工作流程为:数据获取→预处理与特征工程→模型训练与评估→可视化系统构建。具体内容如下:
|
||||
本研究的工作流程分为五个阶段:
|
||||
|
||||
\begin{enumerate}
|
||||
\item \textbf{多源数据获取}:通过CDS API获取2010-2024年ERA5-Land网格气象数据(2m温度、2m露点温度、地表气压、10m风速U/V分量、总降水量共6变量),结合中国卫生统计年鉴数据构建人口健康基线。
|
||||
\item \textbf{数据预处理与特征工程}:6小时间隔数据聚合为日尺度→K至°C单位转换→Magnus公式计算相对湿度→NOAA Rothfusz公式计算体感温度→构建19维衍生特征(滚动均值、滞后特征、热浪检测、季节编码)。
|
||||
\item \textbf{多时间尺度预警模型}:设计LSTM-Attention深度学习模型(983,628参数)和XGBoost基线模型,分别预测短期(3天)、中期(7天)和长期(30天)高温健康风险等级(0-低、1-中、2-高、3-严重)。
|
||||
\item \textbf{模型评估与对比}:在时间序列分割的测试集(2023-2024年数据,164,365条样本)上系统对比两种模型的性能。
|
||||
\item \textbf{可视化大屏开发}:基于Flask后端和ECharts前端,实现六大功能面板的Web可视化大屏。
|
||||
\item \textbf{数据获取阶段}:通过CDS API逐月下载2010-2024年焦作、郑州两市的ERA5-Land网格气象数据(6变量),使用h5netcdf+dask引擎进行NetCDF4文件的拼接与读取。
|
||||
\item \textbf{预处理与特征工程阶段}:6小时间隔→日聚合→K至°C转换→Magnus公式计算相对湿度→NOAA Rothfusz公式计算体感温度→构建19维衍生特征(滚动均值、滞后特征、热浪检测)。
|
||||
\item \textbf{数据集构建阶段}:14天滑动窗口→1,095,758条序列样本→时间序列70/15/15分割→压缩NPZ存储。
|
||||
\item \textbf{模型训练与评估阶段}:LSTM-Attention(983K参数,Focal Loss)和XGBoost(200棵树)在训练集上训练→验证集调参→测试集评估→混淆矩阵和F1分数对比。
|
||||
\item \textbf{可视化系统开发阶段}:Flask后端(4 API)→ECharts前端(6面板)→深色科技蓝大屏→浏览器访问。
|
||||
\end{enumerate}
|
||||
|
||||
\section{论文组织结构}
|
||||
|
||||
本论文共分七章:第一章阐述研究背景、国内外现状和研究意义;第二章介绍LSTM、注意力机制、XGBoost等核心理论以及高温健康风险相关概念;第三章详述数据来源和预处理管线,包括ERA5数据获取、体感温度计算、特征工程和数据集构建;第四章介绍LSTM-Attention和XGBoost两类预警模型的设计细节;第五章展示Flask+ECharts可视化大屏的架构和实现;第六章进行实验结果分析,包括模型性能对比、混淆矩阵分析和LSTM训练优化记录;第七章总结全文并展望未来工作。
|
||||
本论文共分七章:\textbf{第一章}阐述研究背景、国内外研究现状、研究目的和技术路线;\textbf{第二章}详细介绍LSTM、注意力机制、XGBoost和体感温度计算等核心理论,给出完整数学公式;\textbf{第三章}详述ERA5数据获取、预处理管线、特征工程和数据集构建过程;\textbf{第四章}展示LSTM-Attention和XGBoost两类预警模型的设计细节和训练策略;\textbf{第五章}介绍Flask+ECharts可视化大屏的架构和实现;\textbf{第六章}进行实验结果分析,包括模型性能对比、混淆矩阵分析、LSTM训练调优记录和细节性误差分析;\textbf{第七章}总结全文,讨论研究不足并展望未来工作方向。
|
||||
|
||||
Reference in New Issue
Block a user