循证医学是一种结合最佳研究证据、临床经验和患者价值观来指导医疗决策的方法[1-2]。当前,循证医学已成为医学教育的重要组成部分 [3]。然而,现有教学模式仍存在一定的问题,尤其是高阶技能,如网状Meta分析,其理论理解与实际操作均具有较大难度[4];此外,部分医护人员的循证临床实践能力较弱,可能是由于教育阶段对循证医学的理解不深入以及缺乏实践训练[5-6]。因此,改进循证医学教育以提升医学生的循证实践能力,是当前循证医学教育的一个重要议题。
随着以大语言模型为代表的人工智能(artificial intelligence,AI)的快速发展,医学教育迎来了新的机遇[7-8]。AI可为循证医学的课堂教学提供新的突破,例如个性化学习路径推荐、文献阅读辅助及知识点自动生成等[9]。自2019年以来,本团队面向北京大学医学部的研究生开设了《证据整合及应用:网状Meta分析》课程,并计划采用融合AI的混合式教学模式。通过课前布置文献阅读,课中对AI辅助网状Meta分析研究的示范课程介绍并引导学生使用循证医学研究相关的AI工具,课后利用AI工具进行作业复现、答疑及布置趣味性AI小游戏,帮助学生掌握循证医学技能,从而更好地指导其实践。然而,目前关于AI融入循证课程教学的研究较少,且尚不清楚学生对AI的掌握程度、熟悉度以及接受和信任度。
为全面了解学生的学习情况,并进一步优化课程内容以提升教学效果,本研究在课程开始前对学生在AI辅助循证医学学习中的知识、态度及实践能力进行了调查分析。同时,考虑到博士生和硕士及以下学生在科研训练中的差异,本研究对比了博士生与硕士及以下学生在AI相关知识和学习态度等方面的不同,旨在为课程内容的调整提供依据,从而进一步提升课程的教学效果。
1 资料与方法
1.1 研究对象
选取2024—2025学年第一学期选修北京大学医学部研究生课程《证据整合及应用:网状Meta分析》的选课学生和旁听生作为研究对象,其中包括精神病与精神卫生学、护理学、医学生物化学与分子生物学、流行病与卫生统计学、儿科学、 公共卫生、皮肤病与性病学、应用心理学、医学影像技术学、临床检验诊断学、妇产科学、外科学、内科学等25个专业的学生。本研究已获得北京大学医学部伦理委员会审批(批号:IRB00001052-22130),所有研究对象对本研究内容均已知情同意。
1.2 问卷调查
本研究自行设计了包含33项问题的电子问卷,内容涵盖AI相关知识(10题)、对AI辅助学习的态度(10题)、AI辅助学习的实践情况(11题),以及对课程的期待和担忧(2题)。问卷通过“问卷星”平台在课程开始前发布,由任课教师与助教担任调查员,并在首次上课前完成数据收集。问卷设置为必须完成所有问题方可提交,避免漏项,并在开头及各题目中提供详细的填写说明。调查前对调查员进行了统一培训,学生在填写过程中若有疑问,调查员将及时解答并提供相应指导。
1.3 统计学分析
采用SPSS 27.0 软件进行数据处理分析,词云图由SPSSAU平台进行词频分析并作图。分类变量通过频数和百分比(n,%)进行描述,等级变量组间差异比较采用Mann-Whitney U检验。双侧P<0.05为差异有统计学意义。
2 结果
2.1 一般情况
本研究共纳入46名学生。其中男性12人(26.09%),女性34人(73.91%)。18~25岁年龄段37人(80.43%),其他年龄段9人(19.57%)。硕士生及以下34人(73.91%),博士生12人(26.09%)。流行病与卫生统计学专业5人(10.87%)、护理学专业4人(8.70%)、精神病与精神卫生学专业3人(6.52%)、皮肤病与性病学专业3人(6.52%)、公共卫生专业3人(6.52%)、医学生物化学与分子生物学专业3人(6.52%)、儿科学专业2人(4.35%)、肿瘤学专业2人(4.35%)、外科学专业2人(4.35%)、内科学专业2人(4.35%)、临床药学专业2人(4.35%)、应用心理学专业2人(4.35%),以及其他13个专业13人(28.26%)。
2.2 AI相关知识
选课学生对AI相关知识整体上具有一定的了解,大多数学生能够正确回答相关问题。在AI基础技术认知方面,大多数学生正确回答“大语言模型的核心技术基础”(78.26%),“模型的微调(fine-tuning)主要解决什么问题”(76.09%)。然而,仅有54.35%的学生正确回答“GPT系列模型属于哪种类型的人工智能”,其中博士生的正确回答比例高于硕士生及以下学生,差异具有统计学意义(P=0.026)。
AI生成内容偏差的原因方面,各问题的正确率有所不同:“大语言模型的主要风险”(73.91%)、“模型输出幻觉指的是什么”(69.57%)、“模型生成结果可能出现偏差的主要原因”(56.52%)。
提示词的认知方面,89.13%的学生理解“提示词(Prompt)的作用是什么”,并认识到“提示词工程与大语言模型的关系”。同时,82.61%的学生正确回答“如何提升大语言模型在循证医学文献分析中的准确性”。
AI在循证医学中的应用方面,超过80%的学生认为人工智能/大语言模型能够支持网状Meta分析的多个环节,包括“制定纳入排除标准、检索策略、检索文献、筛选文献、收集数据、评估偏倚风险、代码生成以及解释和分析”,具体如图1所示。
-
图1 “人工智能能够提供网状Meta分析的哪种支持?”回答结果
Figure1.Answer result of "What kinds of support can artificial intelligence provide for network Meta-analysis?"
2.3 对AI融合循证医学课程的态度
绝大多数学生对AI在本次课程的应用持积极态度,期待其在学习和研究中的广泛应用。对“人工智能/大语言模型能提高你的学习效率吗”“未来使用人工智能/大语言模型进行Meta分析有多大兴趣”“人工智能/大语言模型可以有效支持循证医学课程的学习吗”“人工智能/大语言模型辅助学习过程的信任程度如何”“人工智能/大语言模型会影响教师的教学效果吗”“愿意在未来课程中更多使用人工智能/大语言模型辅助学习吗”“人工智能/大语言模型在网状Meta分析中的应用将成为未来趋势吗”“掌握人工智能 /大语言模型相关技术是未来医学研究人员的必要能力吗”这8个问题中答复积极或非常积极的比例分别是89.13%、84.78%、84.78%、71.74%、82.61%、93.48%、82.61%和84.78%。
然而,在某些条目中,参与者的回应显示出较为明显的分歧。例如,“使用人工智能/大语言模型生成的分析结果有多大信心”中,尽管58.70%的学生表示有一定信心,仍有较大比例(36.96%)的学生持中立态度,且只有少数学生(2.17%)表示非常积极。同样,“担心使用人工智能/大语言模型会降低你的独立思考能力吗”中,消极或中立的比例达到71.74%,而积极的回复比例只有23.91%。此外,在学历层次的分层分析中,硕士及以下的学生和博士生在对AI融合循证医学课程的态度方面的差异均无统计学意义(均P>0.05),见表1。
-
表格1 学生对AI融合循证医学课程的学习态度情况(n,%)
Table1.The learning attitude of students towards the integration of AI and evidence-based medicine courses (n, %)
注:条目1. 您认为人工智能/大语言模型能提高你的学习效率吗;条目2. 您对未来使用人工智能/大语言模型进行Meta分析有多大兴趣;条目3. 您认为人工智能/大语言模型可以有效支持循证医学课程的学习吗;条目4. 您对使用人工智能/大语言模型辅助学习过程的信任程度如何;条目5. 您担心使用人工智能/大语言模型会降低你的独立思考能力吗;条目6. 您觉得人工智能/大语言模型会影响教师的教学效果吗;条目7. 您对使用人工智能/大语言模型生成的分析结果有多大信心;条目8. 您愿意在未来课程中更多使用人工智能/大语言模型辅助学习吗;条目9. 您认为人工智能/大语言模型在网状Meta分析中的应用将成为未来趋势吗;条目10. 您认为掌握人工智能/大语言模型相关技术是未来医学研究人员的必要能力吗。
2.4 对AI融合循证医学课程的实践
2.4.1 AI工具的一般使用情况
所有学生(100%)了解或使用过主流的大语言模型工具(如ChatGPT、Claude和文心一言),而其他选项(Rayyan、Elicit和Coze等工具)的了解或使用情况则较低(合计为15.22%)。在使用AI工具的学生中,“经常使用”和“偶尔使用”这两类合计占比80.44%,表明多数学生对这些工具的使用频率较高。主要使用场景为“语言翻译或写作辅助”(81.82%)和“信息查询”(79.55%)。此外,“教育或学习辅助”(54.55%)和“生成统计分析代码”(43.18%)也有一定的使用比例。相比之下,“医疗或研究支持”(36.36%)的使用频率较低。硕士生和博士生间的差异均无统计学意义(P>0.05),如图2所示。未使用大语言模型的学生主要原因是“缺乏工作或学习需求”。
-
图2 “你通常使用人工智能/大语言模型进行哪些任务?”回答结果
Figure2.Answer result of "What tasks do you usually use artificial intelligence/big language models for?"
2.4.2 AI工具在文献检索、筛选和论文撰写中的使用情况
关于学生对AI工具在文献检索和筛选中的使用情况,39.13%的学生表示完全不了解,43.48%略有了解,15.22%较为熟悉,2.17%非常熟悉。绝大多数学生(63.04%)在撰写报告或论文时,使用过AI工具,其中定期使用AI工具的学生则比例较低,只有10.87%的学生每周使用3至4天,仅有2.17%的人表示每日使用,而36.96%的同学则表示“未曾尝试过”。
2.4.3 AI生成内容的审查情况
调查结果显示,大多数学生认为AI生成的内容需要进行一定程度的审查,其中63.04%认为“需要详细审查”,26.09%认为“稍作审查”即可,仅有4.35%认为“完全不需要审查”。反映了学生对自动生成内容的信任度较低。
2.4.4 参与Meta分析研究的经历及未来预 期
在Meta分析研究的参与方面,约一半(52.17%)的学生表示从未参与过此类研究,41.30%的学生有过参与经历,多次参与或经常参与的比例为6.52%。然而,63.04%的学生表示将在未来的循证医学或Meta分析工作中经常使用 AI。
2.5 对AI辅助循证课程教学的期待和担忧
学生普遍期待AI能够提高学习效率、文献筛选能力和统计能力,但也对工具的准确性、可能的过度依赖、生成内容的准确性和隐私安全方面表示担忧,见图3。
-
图3 对AI辅助循证课程教学期待和担忧
Figure3.Expectations and concerns about AI assisted evidence-based course teaching
注:A. 对AI辅助循证课程教学期待;B. 对AI辅助循证课程教学担忧。
3 讨论
本校网状Meta分析课程目前采用基于Canvas平台的课堂教学与实操结合的混合教学形式,并已取得显著的教学效果[10]。然而,课程仍存在从理论学习到实践操作较难上手等问题。为进一步提升教学效果,计划对课程进行改革,将AI融入日常课堂教学中,构建AI融合的循证医学课程。
在课程改革前,了解学生对AI相关知识的储备、对AI辅助循证医学学习的态度和实践情况,有助于明确学生的需求和顾虑,从而有针对性地调整教学内容和方式,使课程更符合不同层次学生的实际情况,提升教学效果。本研究共调查了6名本科生、28名硕士生和12名博士生。由于本科生人数较少,在分析时将其与硕士生合并为“硕士及以下”类别。分析结果表明,课程前学生普遍具备一定的AI相关知识,并对课程抱有积极认真的态度。绝大多数研究生认同AI融入循证医学课堂的积极意义及其在医学实践中的必要性,但也存在对AI工具生成内容的信任度较低以及隐私安全问题的担忧。
在AI相关知识方面,本研究发现大多数学生对AI有一定了解,并具备相关基础知识储备。在大多数问题上,硕士生及以下和博士生的认知未显示明显的统计学差异,这与另一项研究的结论一致,该研究认为专业知识(专业背景和学历)对于AI素养能力的影响不太明显[11]。然而,这一发现与Hornberger等[12]研究结果有所不同,后者指出STEM(科学、技术、工程和数学)背景的大学生在AI素养方面优于社会科学背景的学生。出现这种矛盾可能与研究对象的选择有关,本研究的对象主要是医学生,日常生活中对于AI的需求和使用场景具有一定的相似性。因此,本研究表明,将AI引入课程的改革基于实际需求,同时良好的教学设计均衡性可以确保不同学位阶段的学生都能适应。在学习态度方面,有研究表明学生的态度与AI素养能力之间存在正相关关系,尤其是表现出积极态度的学生呈现更高的AI 素养水平[11]。本研究中,大多数学生对AI融合教学持积极态度,接受度较高,为课程改革提供了坚实的基础。然而,学生对AI生成结果的信心不足,同时担心AI可能会削弱其独立思考能力。这一现象反映了高等教育中需平衡技术辅助与培养批判性思维能力之间的关系。未来课程设计可以通过引入更多讨论环节和反思性作业,帮助学生减轻这种顾虑。同样地,在学习态度上,硕士与博士间的差异没有统计学意义。在实践方面,Wang等[13]论证了AI 素养与日常生活中使用AI技术的程度、种类和频率之间呈正相关。在本研究中,所有学生均表示了解或使用过ChatGPT等主流AI工具,其主要应用场景集中在信息查询(79.55%)和语言翻译或写作辅助(81.82%)。然而,在循证医学相关的复杂应用中,使用比例较低,这表明学生在实践环节中仍有较大提升空 间。
未来课程教学应进一步强调AI在文献检索与筛选、Meta分析代码生成与适配、文献质量评估等领域的应用[14-17]。同时,应充分利用AI在文本、图像、音频和视频生成中的优势,探索多元化的教学方式,例如个性化教学、智能交互式教学和角色扮演情境教学[18]。此外,对于学生普遍关注的隐私保护、内容真实性及对AI依赖性的问题,应引导学生合理、合规且谨慎地使用AI工具,以辅助学习。
本研究存在一定局限性。由于选课人数较少,样本量仅包含46名学生,部分分析结果的稳定性可能不足。未来研究应通过更大样本量进一步探讨不同年份、不同专业学生的特点及需求。此外,本研究仅分析了课程前的情况,未涉及课程结束后的效果及课程前后的差异。本团队计划在课程结束后继续收集教学效果数据,并通过前后对比评估改进后的教学效果,为其他课程教学模式的改革提供参考。同时,未来研究应探索AI工具在医学教育中的长期应用效果,评估学生掌握AI工具后对科研及临床工作的实际影响。
综上所述,本研究调查了网状Meta分析课程选课学生课程前的AI相关知识、学习态度及实践能力,选课学生具有一定相关知识的储备,对AI辅助循证医学课程持积极态度,但信任度和实践能力有待提升,调查结果为本课程的教学内容和模式改革提供了重要指导。
伦理声明:本研究已获得北京大学医学部伦理委员会审核批准(批号:IRB00001052-22130)
作者贡献:研究设计:孙凤;研究指导:詹思延、吴涛、刘俊昌、曹望楠、武珊珊、孙玉梅;数据采集:祖哈尔·依沙、陈晓薇;数据分析和撰写文章:祖哈尔·依沙;修改文章:陈晓薇、武珊珊
数据获取:本研究中使用和(或)分析的数据可联系通信作者获取
利益冲突声明:无
致谢:不适用
1. 陈耀龙, 孙雅佳, 罗旭飞, 等. 循证医学的核心方法与主要模型[J]. 协和医学杂志, 2023, 14(1): 1-8. [Chen YL, Sun YJ, Luo XF, et al. The core methods and key models in evidence-based medicine[J]. Medical Journal of Peking Union Medical College Hospital, 2023, 14(1): 1-8] DOI: 10.12290/xhyxzz.2022- 0686.
2. 范美玉. 高质量循证医学证据获取与应用研究[J]. 协和医学杂志, 2023, 14(1): 39-43. [Fan MY. Research on high quality evidence acquisition and application of evidence-based medicine[J]. Medical Journal of Peking Union Medical College Hospital, 2023, 14(1): 39-43] DOI: 10.12290/xhyxzz.2022-0202.
3. 章萌, 刘凤琪, 武珊珊, 等. 北京大学医学部循证医学课程选课研究生课前学情调查[J]. 医学新知, 2024, 34(7): 825-832. [Zhang M, Liu FQ, Wu SS, et al. Analysis of pre-course learning situation of postgraduates in the selection of evidence-based medicine course at Peking University Health Science Center[J]. Yixue Xinzhi Zazhi, 2024, 34(7): 825-832] DOI: 10.12173/j.issn.1004-5511.202311121.
4. Mills EJ, Thorlund K, Ioannidis JPA. Demystifying trial networks and network Meta-analysis[J]. BMJ, 2013, 346: f2914. DOI: 10.1136/bmj.f2914.
5. Murphy KA, Guisard Y, Curtin M, et al. Evidence-based practice: what do undergraduate health students think it means?[J]. Focus on Health Professional Education: A Multi-Professional Journal, 2019, 20(3): 12-29. DOI: 10.11157/fohpe.v20i3.319.
6. Saunders H, Gallagher-Ford L, Kvist T, et al. Practicing healthcare professionals' evidence-based practice competencies: an overview of systematic reviews[J]. Worldviews Evid Based Nurs, 2019, 16(3): 176-185. DOI: 10.1111/wvn.12363.
7. Lucas HC, Upperman JS, Robinson JR. A systematic review of large language models and their implications in medical education[J]. Med Educ, 2024, 58(11): 1276-1285. DOI: 10.1111/medu.15402.
8. 李戈, 吴涛, 章萌, 等. 大语言模型在循证实践和医学教育中的应用现状及对循证医学教学的启示[J]. 数字医学与健康, 2024, 2(2): 102-107. [Li G, Wu T, Zhang M, et al. Application and reflections of large language models in evidence-based practice and medical education[J]. Digital Medicine And Health, 2024, 2(2): 102-107.] DOI: 10.3760/cma.j.cn101909-20231109-00062.
9. Ng FYC, Thirunavukarasu AJ, Cheng H, et al. Artificial intelligence education: an evidence-based medicine approach for consumers, translators, and developers[J]. Cell Rep Med, 2023, 4(10): 101230. DOI: 10.1016/j.xcrm.2023.101230.
10. 刘佐相, 刘凤琪, 刘英丽, 等. 基于Canvas平台的混合式教学模式在研究生循证医学课程教学中的应用效果[J]. 中华医学教育杂志, 2022, 42(1): 46-49. [Liu ZX, Liu FQ, Liu YL, et al. The effectiveness of blended teaching method based on canvas platform in the training of evidence-based medicine for postgraduates[J]. Chinese Journal of Medical Education, 2022, 42(1): 46-49.] DOI: 10.3760/cma.j.cn115259-20210426-00556.
11. 周琼, 徐亚苹, 蔡迎春. 高校学生人工智能素养能力现状及影响因素多维分析[J]. 图书情报知识, 2024, 41(3): 38-48. [Zhou Q, Xu YP, Cai YC. An examination of AI literacy among university students: current status and multifaceted influencing factors[J]. Documentation, Information & Knowledge, 2024, 41(3): 38-48.] DOI: 10.13366/j.dik.2024.03.038.
12. Hornberger M, Bewersdorff A, Nerdel C. What do university students know about artificial intelligence? Development and validation of an AI literacy test[J]. Computers and Education: Artificial Intelligence, 2023, 5: 100165. DOI: 10.1016/j.caeai.2023.100165.
13. Wang B, Rau P.L.P., Yuan T. Measuring user competence in using artificial intelligence: validity and reliability of artificial intelligence literacy scale[J]. Behaviour & Information Technology, 2023, 42(9): 1324-1337. DOI: 10.1080/0144929X.2022.2072768.
14. Valizadeh A, Moassefi M, Nakhostin-Ansari A, et al. Abstract screening using the automated tool Rayyan: results of effectiveness in three diagnostic test accuracy systematic reviews[J]. BMC Med Res Methodol, 2022, 22(1): 160. DOI: 10.1186/s12874-022-01631-8.
15. Oami T, Okada Y, Nakada TA. Performance of a large language model in screening citations[J]. JAMA Netw Open, 2024, 7(7): e2420496. DOI: 10.1001/jamanetworkopen.2024.20496.
16. Lai H, Ge L, Sun M, et al. Assessing the risk of bias in randomized clinical trials with large language models[J]. JAMA Netw Open, 2024, 7(5): e2412687. DOI: 10.1001/jamanetworkopen.2024.12687.
17. 罗旭飞, 吕晗, 史乾灵, 等. 大语言模型在循证医学领域的应用[J]. 中国循证医学杂志, 2024, 24(4): 373-377. [Luo XF, Lyu H, Shi QL, et al. The application of large language models in the field of evidence-based medicine[J]. Chinese Journal of Evidence-Based Medicine, 2024, 24(4): 373-377] DOI: 10.7507/1672-2531.202312067.
18. 顾雯洁, 丁杰. 生成式人工智能赋能信息科技课堂教学的应用策略[J]. 中国信息技术教育, 2024, (17): 95-99. [Gu WJ, Ding J. Application strategies of generative artificial intelligence in information technology classroom teaching[J]. China Information Technology Education, 2024, (17): 95-99.] DOI: 10.3969/j.issn.1674-2117.2024.17.048.