卫生人力资源作为医疗卫生体系的核心构成要素,是保障公共卫生服务可及性、提升医疗服务质量的关键支撑。卫生人力资源规划的科学性,核心在于对未来人力需求与供给的精准预判,而预测模型与方法的选择直接决定了规划结果的合理性与实践可操作性。目前,已有多种相对有效的卫生人力资源预测方法,例如卫生人力/人口比值法、灰色模型(grey model,GM)、时间序列模型等[1]。然而,仅运用单一模型进行预测研究,往往存在限制性和不足[2-5]。因此,选择合适的子模型建立组合预测模型,可规避单一模型缺陷、减小误差、提高预测精度[6]。目前,已有多项研究使用组合模型对卫生人力资源进行预测[7-10],但关于最优子模型组合形式、权重分配方案的选取标准尚未形成统一结论,何种组合方式能构建出精度最高、误差最小的预测模型,仍缺乏系统、深入的研究与论证,一定程度上限制了组合预测模型在卫生人力资源规划工作中的推广应用。
基于此,本研究结合历年安徽省医疗卫生机构人员数量的变化情况,探讨卫生人力资源最优组合预测模型的科学构建方法,明确最优子模型组合方式与权重分配策略,弥补当前卫生人力资源组合预测模型研究的不足,为我国卫生人力资源预测及科学规划提供参考策略。
1 资料与方法
1.1 资料来源
本研究所用的数据资料来源于1989—2023年的《安徽统计年鉴》,提取1988—2022年安徽省医疗卫生机构人员数量数据。
1.2 预测模型构建
选用5种在相关文献中已被验证适用于时间序列数据分析的单一预测模型[1-5],分别为Holt模型、差分自回归移动平均(auto regressive integrated moving average,ARIMA)模型、神经网络自回归(neural network auto regressive,NNAR)模型、GM(1,1)和随机森林模型。采用RStudio 4.4.1软件建模并构建出所有可能的组合模型。基于1988—2017年安徽省医疗卫生机构人员数据,预测2018—2022年人员数量。
1.2.1 Holt模型
Holt模型由美国统计学家Holt在简单指数平滑法的基础上提出。基于RStudio 4.4.1软件的forecast包holt函数构建模型,初始水平(L0)值通过序列前2期观测值的均值确定,初始趋势(b0)值由前2期观测值的线性回归斜率估算得出。模型的水平平滑系数(alpha)、趋势平滑系数(beta)采用函数内置自动寻优机制,以极大似然估计(maximum likelihood estimate,MLE)为优化准则,通过L-BFGS-B数值优化算法求解最优参数,结合观测值逐步更新水平值和趋势值,最后完成目标值预测[11]。
1.2.2 ARIMA模型
ARIMA由美国统计学家Box和英国统计学家Jenkins提出。通过RStudio 4.4.1软件的forecast包auto.arima函数自动确定模型最优阶数,函数依据校正赤池信息准则(Akaike information criterion with correction,AICc)进行最优模型筛选,最终确定自回归阶数(p)、差分次数(d)、移动平均阶数(q),并据此建立模型开展预测[12]。
1.2.3 NNAR模型
NNAR模型结合了时间序列分析中的自回归方法及机器学习中的神经网络模型。构建该模型时,先对原始数据进行差分和归一化处理,使时间序列平稳且适配神经网络训练。该模型属于无分布假设的机器学习模型,对数据正态性无严格要求,因此无需进行正态性检验。采用RStudio 4.4.1软件的forecast包实现自动参数寻优确定关键参数,输入层节点数(p)、季节性滞后项个数(P)、隐藏层节点数(k)、模型重复训练次数(repeats)、Box-Cox变换参数(lambda),最终使用训练完成的模型实现指标预测[13]。
1.2.4 GM(1,1)
GM(1,1)是灰色系统理论中最常用的预测模型,由邓聚龙教授于1982年提出。该模型在少量数据或不完全数据条件下表现出色,适用于小样本预测。其核心构成包括原始序列、累加生成序列、灰色微分方程、背景值和模型参数,建模过程简洁高效,主要涵盖数据预处理、累加生成、参数估计、模型检验和预测还原5个关键步骤[14-15]。
该模型构建完成后,还需使用后验差比值(C)和小误差概率(P)对模型的拟合效果进行检验,模型拟合效果判定标准:若C < 0.35且P ≥ 0.95,模型精度等级评为1级,拟合效果好;若0.35 ≤ C < 0.50或0.80 ≤ P < 0.95,模型精度等级评为2级,拟合效果合格;若0.50 ≤ C < 0.65或0.70 ≤ P < 0.80,模型精度等级评为3级,拟合效果勉强;若C ≥ 0.65或P < 0.70,模型精度等级评为4级,拟合效果不合格[3]。
1.2.5 随机森林模型
随机森林模型是由统计学家Breiman和Cutler在2001年提出的一种基于分类树的算法,其通过对大量分类树的汇总,可提高模型的预测精度,是取代传统机器学习方法的新模型[16]。采用RStudio 4.4.1软件的randomForest包构建随机森林模型前,先对数据进行差分和归一化处理,使时间序列平稳的同时便于后续训练机器学习模型。再通过自相关函数(autocorrelation function,ACF)与模型试算对比确定最优滞后阶数(lag),在此基础上构建滞后数据集并划分为训练集和测试集。然后设置随机森林参数,使用训练集训练模型,并通过测试集对决策树数量(ntree)和节点分裂变量数(mtry)进行参数调优。最后使用训练完成的模型对目标值进行预测,并采用绝对误差和相对误差对模型预测效果进行综合评价,其中相对误差数值越小越好,< 20%说明预测精度达到要求,< 10%说明预测精度达到较高要求[17]。
1.2.6 组合模型
使用变权重组合法构建组合模型,即先计算各子模型的预测值与实际值的误差平方和,再用该项指标的倒数计算子模型在组合模型中的权重,使得误差较小的模型获得较大的权重,提高组合模型的预测精度。具体步骤如下:①根据公式1计算误差平方和(sum of squared errors,SSE);②根据公式2计算权重
;③根据公式3计算组合模型预测值
,其中,
是第个k实际值,
是第i个子模型对于第个数据点的预测值,n是总的数据量。采用排列组合的方式获得5种子模型构建组合模型的所有可能情况,再运用上述的变权重组合法构建组合模型。
公式1
公式2
公式3
1.3 组合模型寻优
计算并比较各组合模型的均方误差(mean square error,MSE)、平均绝对误差(mean absolute error,MAE)、平均绝对百分比误差(mean absolute percentage error,MAPE),数值越低,预测精度越高,以筛选出最优组合模型[18]。
2 结果
2.1 子模型预测结果分析
2.1.1 Holt模型
根据holt函数内部寻优结果可知,当alpha=0.8619、beta=0.306时模型的预测效果最好,据此构建Holt模型对2018—2022年安徽省医疗卫生机构人员数量进行预测。结果显示,各年度预测值分别为423 115、438 835、454 555、470 276、485 996人,见表1。各年份预测值的相对误差分别为0.875%、3.470%、9.670%、9.510%、12.200%,5年内仅单一年份相对误差高于10%,预测精度良好,见表2。
-
表格1 各子模型的预测结果
Table1.Prediction results of each sub-model
-
表格2 各子模型预测结果的绝对误差及相对误差
Table2.Absolute and relative errors of prediction results from each sub-model
2.1.2 ARIMA模型
根据auto.arima函数基于AICc准则的寻优结果可知,当p=0、d=2、q=1时模型的预测效果最好,据此构建ARIMA模型对2018—2022年安徽省医疗卫生机构人员数量进行预测。结果显示,各年度预测值分别为423 894、440 258、456 622、472 985、489 349人,见表1。各年份预测值的相对误差分别为0.693%、3.160%、9.260%、8.980%、11.600%,5年内仅单一年份相对误差高于10%,预测精度良好,见表2。
2.1.3 NNAR模型
根据数据特征与自动寻优结果,确定NNAR模型最优参数:输入p=2、P=0、k=2、repeats=100、lambda=NULL。其中,k=2由模型自动寻优获得,为适配本研究数据特征的最优取值;repeats=100表示神经网络重复训练集成的次数,用于提升模型稳定性。使用上述参数构建模型对2018—2022年安徽省医疗卫生机构人员数量进行预测,结果显示,各年度预测值分别为421 262、439 485、457 808、472 385、487 667人,见表1。各年份预测值的相对误差分别为1.310%、3.330%、9.030%、9.100%、11.900%,5年内仅单一年份相对误差高于10%,预测精度良好,见表2。
2.1.4 GM(1,1)
以1988—2017年安徽省医疗卫生机构人员数量为原始序列构建GM(1,1),对2018—2022年该项指标进行预测。结果显示,各年度预测值分别为455 795、481 499、501 521、532 155、566 985人,见表1。该模型拟合效果的检验结果显示,P=1,C=0.43,表示模型拟合效果合格。各年份预测值的相对误差分别为6.780%、5.910%、0.339%、2.400%、2.460%,均小于10%,进一步验证了模型具有良好的预测精度,见表2。
2.1.5 随机森林模型
经自相关分析与多组滞后阶数对比试算,确定lag=2,据此创建滞后数据集并划分为训练集和测试集。根据测试集参数调优结果(ntree=100,mtry=2)构建随机森林模型,对2018—2022年安徽省医疗卫生机构人员数量进行预测。结果显示,各年度预测值分别为426 628、448 224、469 913、494 034、519 053人,见表1。各年份预测值的相对误差分别为0.052%、1.410%、6.620%、4.930%、6.200%,均小于10%,预测精度良好,见表2。
2.2 组合模型寻优及预测结果分析
基于最优子集思路,对5种子模型进行排列组合,得到共26种可能的组合模型。使用变权重组合法计算组合模型的权重系数,并预测2018—2022年安徽省医疗卫生机构人员数量,最后分析模型精度,见表3。结果显示,GM(1,1)与随机森林模型构建的组合模型(权重系数为0.61和0.39)的各年度预测值分别为444 443、468 538、489 209、517 306、548 315人。各年份预测值的相对误差分别为4.1%、3.1%、2.8%、0.5%、0.9%,全部小于10%,预测精度良好。在所有的组合预测模型中,GM(1,1)与随机森林模型构建的组合模型预测误差最小,其MSE、MAE和MAPE分别为146 101 146、10 587.465、2.267,该组合模型为最优组合预测模型,见表4。
-
表格3 组合模型的预测结果、绝对误差及相对误差
Table3.The prediction results, absolute error, and relative error of the combined model
注:A、B、C、D、E分别代表Holt模型、ARIIMA模型、NNAR模型、灰色GM(1,1)模型和随机森林模型,其中,A_B代表Holt模型和ARIIMA模型构建的组合模型,以此类推。
-
表格4 所有预测模型的3项误差指标
Table4.Three error indicators for all predictive models
注:A、B、C、D、E分别代表Holt模型、ARIIMA模型、NNAR模型、灰色GM(1,1)模型和随机森林模型,其中,A_B代表Holt模型和ARIIMA模型构建的组合模型,以此类推;MSE. 均方误差;MAE. 平均绝对误差;MAPE. 平均绝对百分比误差。
3 讨论
本研究基于安徽省医疗卫生机构人员数量数据,构建Holt模型、ARIMA模型、NNAR模型、GM(1,1)及随机森林模型5种单一预测模型,并通过排列组合方式构建26种组合预测模型,经多维度误差指标筛选,最终确定GM(1,1)与随机森林模型构建的组合模型为最优预测模型。该组合模型的MSE、MAE、MAPE均低于其他单一模型及组合模型,绝对误差与相对误差控制在较低水平,表明该模型的预测误差较低、预测精度良好。
各单一模型的预测结果显示,不同模型在不同时期的预测性能存在明显差异。采用GM(1,1)预测,2018—2019 年预测值的相对误差分别为6.780%、5.910%,明显高于同期随机森林模型(0.052%、1.410%),而2020—2022年预测值相对误差较小,提示GM(1,1)更适于捕捉序列后期平稳增长趋势,对前期波动的拟合效果相对有限;随机森林模型则在预测初期表现出更高的精度,对数据波动的适应性更强。不同模型在时序方面的性能差异,也进一步印证了组合预测的必要性。
相较于单一模型,组合预测能充分整合不同模型的信息优势:GM(1,1)适于捕捉序列整体增长趋势,对小样本、渐进变化数据具有良好适应性[17];随机森林模型能挖掘历史数据中的非线性关系与潜在规律,对波动特征具有较强捕捉能力[19]。二者组合有效弥补了单一模型在结构假设、数据适应性上的不足,使得短期及中期预测结果更稳健可靠[20]。
本研究仍存在一定局限。首先,子模型类型仍可进一步拓展,后续可纳入支持向量机、长短期记忆网络等模型以丰富模型库;其次,组合方式以简单组合为主,未引入自适应权重、集成学习等优化策略;再次,评价指标以传统误差指标为主,对预测稳定性与鲁棒性的探讨仍可深化;最后,组合模型可能存在过拟合风险,先排列组合所有可能模型,再根据测试集误差选最优,可能导致最终选出的模型在测试集上表现优异,但其泛化能力可能被高估。未来研究可进一步优化模型组合机制,构建更全面的评价体系,提升预测方法的适用性与泛化性能。
综上,在卫生人力资源时间序列预测中,“先选取一定数量具有不同预测特性的子模型,再通过排列组合生成所有潜在组合模型,最后依据科学的误差评价指标进行多维度筛选”的策略具有明显科学性与优越性。该方法不依赖主观赋权与经验判断,通过量化指标全面比较模型性能,可系统降低模型选择偏倚,高效定位精度最优的组合预测方案,为同类卫生资源预测提供了可复制的建模思路。在预测结果的实际意义方面,该组合模型能够较为精准地反映安徽省医疗卫生人员数量的变化规律,可为卫生人力资源规模预判提供较为可靠的数据支撑,为卫生行政部门制定卫生人才发展规划、全面深化卫生人才体制改革、持续推进卫生人才队伍建设提供可靠的决策依据。
数据获取:本研究中使用和(或)分析的数据可在《安徽统计年鉴》获取
伦理声明:不适用
作者贡献:研究设计:王逸凡、王斌;数据采集:王逸凡、韦昕宇、汪国英、沈铮先、尹青青;数据分析、论文撰写:王逸凡;论文审定:王斌、韦昕宇、汪国英、沈铮先、尹青青
数据获取:本研究中使用和(或)分析的数据可在《安徽统计年鉴》获取
利益冲突声明:无
致谢:不适用
1. 张瑜洁, 王健, 王辛, 等. 基于文献计量法的卫生人力预测模型研究现状分析[J]. 中国医院, 2022, 26(2): 43-46.ZhangYJ, WangJ, WangX, et al. Analysis of research status of health workforce prediction model based on bibliometric method[J]. Chinese Hospitals, 2022, 26(2): 43-46.
2. 李慧超, 谢学勤, 邓小虹. 北京市医疗机构卫生专业技术人员需求预测——基于人力人口比值法[J]. 中国卫生政策研究, 2013, 6(4): 56-59.LiHC, XieXQ, DengXH. Forecasting of health professionals in Beijing medical institutions: using a human population ratio method[J]. Chinese Journal of Health Policy, 2013, 6(4): 56-59.
3. 吕邦亮, 汤质如, 彭婧, 等. 基于灰色GM(1,1)模型的安徽省“十四五”期间医疗卫生资源配置预测研究[J]. 卫生软科学, 2024, 38(1): 52-57.LyuBL, TangZR, PengJ, et al. Prediction of medical and health resources allocation in Anhui Province during the 14th Five⁃Year Plan period based on grey GM(1,1) model[J]. Soft Science of Health, 2024, 38(1): 52-57.
4. 林志添, 张健明, 丁海峰. 基于ARIMA模型的我国长三角地区卫生人力资源需求预测分析[J]. 中国医疗管理科学, 2021, 11(3): 5-11. doi:10.3969/j.issn.2095-7432.2021.03.002LinZT, ZhangJM, DingHF. Predictive analysis of healthcare human resources demand in the Yangtze River Delta Region based on the ARIMA model[J]. Chinese Journal of Medical Management Sciences, 2021,11(3): 5-11. doi:10.3969/j.issn.2095-7432.2021.03.002
5. 石丛, 王健. 基于BP神经网络和时间序列的我国卫生人力资源研究[J]. 中国初级卫生保健, 2013, 27(11): 22-24.ShiC, WangJ. Study of health human resource in China based on the model of BP-ANN and Arima[J]. Chinese Primary Health Care, 2013, 27(11): 22-24.
6. 谢俏丽. 基于组合预测模型的湖北省卫生人力资源需求预测研究[D]. 武汉:华中科技大学, 2016.XieQL. Research on the demand forecast of health human resources in Hubei province based on combination forecasting model[D]. Wuhan: Huazhong University of Science and Technology, 2016.
7. 朱泉同, 高山. 基于组合预测模型的江苏省卫生人力资源需求预测探讨[J]. 中国卫生统计, 2020, 37(6): 862-865. doi:10.3969/j.issn.1002-3674.2020.06.016ZhuQT, GaoS. Discussion on the forecast of health human resource demand in Jiangsu province based on combination forecasting model[J]. Chinese Journal of Health Statistics, 2020, 37(6): 862-865. doi:10.3969/j.issn.1002-3674.2020.06.016
8. 侯雅楠, 王丹, 陈芸, 等. 山东省卫生人力资源组合预测模型构建及应用[J]. 卫生软科学, 2021, 35(4): 72-75, 79. doi:10.3969/j.issn.1003-2800.2021.04.017HouYN, WangD, ChenY, et al. Construction and application of combination forecasting model of health human resources in Shandong province[J]. Soft Science of Health, 2021, 35(4): 72-75, 79. doi:10.3969/j.issn.1003-2800.2021.04.017
9. 徐瑞璞, 钱国宏, 路杰, 等. 基于组合模型预测短期甘肃省医护人才需求[J]. 中国卫生统计, 2024, 41(2): 287-290. doi:10.11783/j.issn.1002-3674.2024.02.030XuRP, QianGH, LuJ, et al. Predicting short-term demand for medical and nursing talents in Gansu province based on a combined model[J]. Chinese Journal of Health Statistics, 2024, 41(2): 287-290. doi:10.11783/j.issn.1002-3674.2024.02.030
10. 黄锐. 基于最优加权组合模型的重庆市卫生人力资源需求预测研究[D]. 重庆: 重庆医科大学, 2022.HuangR. Research on the forecast of health human resource demand in Chongqing based on the optimal weighted combination model[D]. Chongqing: Chongqing Medical University, 2022.
11. 苗开超. 基于指数平滑模型的农产品价格预测研究[D]. 合肥: 合肥工业大学, 2009.MiaoKC. Research on agricultural product price forecasting based on exponential smoothing model[D]. Hefei: Hefei University of Technology, 2009.
12. 李志超, 刘升. 基于ARIMA模型、灰色模型和回归模型的预测比较[J]. 统计与决策, 2019, 35(23): 38-41.LiZC, LiuS. Prediction comparison based on ARIMA model, grey model, and regression model[J]. Statistics & Decision, 2019, 35(23): 38-41.
13. 张欣, 刘振球, 袁黄波, 等. 神经网络自回归模型在丙肝发病趋势和预测研究中的应用[J]. 中国卫生统计, 2020, 37(4): 524-526.ZhangX, LiuZQ, YuanHB, et al. Application of neural network autoregressive model in the study of hepatitis C incidence trend and prediction[J]. Chinese Journal of Health Statistics, 2020, 37(4): 524-526.
14. 陈嘉琳. 基于灰色GM(1,1)模型的广东省卫生总费用预测分析[J]. 中国医疗管理科学, 2021, 11(5): 5-11.ChenJL. Prediction of total expenditure on health in Guangdong province based on grey GM (1,1) model[J]. Chinese Journal of Medical Management Sciences, 2021, 11(5): 5-11.
15. 毕慧, 马丹华, 许桂丽, 等. 基于年龄-时期-队列模型的中国物质使用障碍疾病负担及预测研究[J]. 药物流行病学杂志, 2024, 33(7):760-769.BiH, MaDH, XuGL, et al. Study on the disease burden and prediction of substance use disorder in China based on age-period-cohort model[J]. Chinese Journal of Pharmacoepidemiology, 2024, 33(7):760-769.
16. 李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报, 2013, 50(4): 1190-1197. doi:10.7679/j.issn.2095-1353.2013.163LiXH. Using "random forest" for classification and regression[J]. Chinese Journal of Applied Entomology, 2013, 50(4): 1190-1197. doi:10.7679/j.issn.2095-1353.2013.163
17. 林小龙, 张杰, 林伟. 2022—2026年我国鼻咽癌发病率与死亡率的预测: 基于GM(1,1)和ARIMA模型[J]. 医学新知, 2025, 35(9): 1017-1023.LinXL, ZhangJ, LinW. Prediction of incidence and mortality rates of nasopharyngeal carcinoma in China from 2022 to 2026: based on GM(1,1) and ARIMA models[J]. Yixue Xinzhi Zazhi, 2025, 35(9): 1017-1023.
18. 吴国平, 袁有树, 王志伟. 河南省中医类医院卫生人力资源需求预测组合模型的构建[J]. 郑州大学学报(医学版), 2025, 60(6): 808-812.WuGP, YuanYS, WangZW. Construction of a combination model for predicting human resource demand in traditional Chinese medicine hospitals in Henan Province[J]. Journal of Zhengzhou University (Medical Sciences), 2025, 60(6): 808-812.
19. 刘吉莉, 王凤美, 刘阳, 等. 基于机器学习方法构建幽门螺杆菌感染的风险预测模型[J]. 药学前沿, 2025, 29(2): 265-276.LiuJL, WangFM, LiuY, et al. Construction of the risk prediction model of Helicobacter pylori infection based on machine learning method[J]. Frontiers in Pharmaceutical Sciences, 2025, 29(2): 265-276.
20. 刘鸿宇, 孙玉凤, 王健. 卫生人力资源需求预测研究进展、问题探讨及展望[J]. 中国卫生事业管理, 2016, 33(11): 828-830, 860.LiuHY, SunYF, WangJ. Progress, problems and trend of projection of HRH demand research[J]. Chinese Health Service Management, 2016, 33(11): 828-830, 860.