欢迎访问中南医学期刊社系列期刊网站!

面向真实世界的知识挖掘与知识图谱补全研究(一):真实世界数据与知识图谱概述

发表时间:2023年04月25日阅读量:1839次下载量:802次下载手机版

作者: 李绪辉 1 阎思宇 1 陈沐坤 2 朱海锋 2 谭杰骏 2 高旷 2 王永博 1 黄桥 1 任相颖 1 靳英辉 1 王行环 1

作者单位: 1. 武汉大学中南医院循证与转化医学中心(武汉 430071) 2. 武汉大学计算机学院(武汉 430072)

关键词: 真实世界数据 知识图谱 电子病历数据

DOI: 10.12173/j.issn.1004-5511.202301018

基金项目: 基金项目: 国家自然科学基金面上项目(82174230)

引用格式:李绪辉, 阎思宇, 陈沐坤, 朱海锋, 谭杰骏, 高旷, 王永博, 黄桥, 任相颖, 靳英辉, 王行环. 面向真实世界的知识挖掘与知识图谱补全研究(一):真实世界数据与知识图谱概述[J]. 医学新知, 2023, 33(2): 130-135. DOI: 10.12173/j.issn.1004-5511.202301018.

Li XH, Yan SY, Chen MK, Zhu HF, Tan JJ, Gao K, Wang YB, Huang Q, Ren XY, Jin YH, Wang XH. Research on real-world knowledge mining and knowledge graph completion (I): overview of real-world data and knowledge map[J]. Yixue Xinzhi Zazhi, 2023, 33(2): 130-135. DOI: 10.12173/j.issn.1004-5511.202301018. [Article in Chinese]

摘要|Abstract

来源于真实的医疗环境的真实世界数据能够真实反映患者的健康情况和临床诊疗过程,是重要的知识和证据来源。知识图谱作为一种语义网络,可用于组织、呈现和推理医学知识。真实世界数据与知识图谱结合应用能够更好地对医疗知识进行补充、展示和利用。目前,利用真实世界数据构建医学知识图谱,或使用真实世界数据对医学知识图谱进行补全是两者结合应用的主要方式。在开展真实世界数据与医学知识图谱结合应用研究时,需注意多学科团队协作、患者隐私保护及数据治理标准化等问题。

全文|Full-text

真实世界数据(real-world data,RWD)来源于日常所收集的各种与患者健康状况和(或)诊疗及保健有关的医疗数据,包括医院信息系统数据、医保支付数据、疾病登记数据,以及移动设备的个体健康监测数据等[1]。其中,电子病历数据(electronic medical record, EMR)等医院信息系统数据基于临床诊疗实践过程的记录,涵盖临床结局和暴露变量范围较广,在真实世界研究中应用日趋广泛。知识图谱利用人工智能等技术将真实世界中的海量信息转化为符合计算机处理模式的结构化数据,形式化地展示真实世界中各类事物及其联系,近年来,知识图谱在医学中的应用也逐渐增多。知识图谱作为一种知识库,可以用于RWD来源的知识的存储、推理、展示。本课题在前期临床实践指南构建的知识图谱的基础上,进一步研究电子病历等RWD与知识图谱结合应用。本文就RWD与知识图谱的基本内容与相关应用进行探讨,为RWD与知识图谱结合应用研究提供参考。

1 真实世界数据

随机对照试验通常被认为是评价临床干预措施的金标准,但其严格的纳入排除标准、对患者较高的依从性要求等问题导致随机对照试验证据的外推性受限。RWD强调来自于真实的临床医疗环境,反映患者的健康状况和诊疗过程,是一种重要的临床知识和证据来源[2-3],其主要用途包括:①为新药或医疗器械等产品提供有效性或安全性证据,以推动其获批上市;②为已上市的新药或医疗器械等产品的说明书变更提供证据;③为新药或医疗器械等产品上市后再评价或监测提供证据;④为总结名老中医经验方和制剂研发等提供证据;⑤用于疾病负担分析或卫生经济学评价[4]。

医院信息系统数据、医保支付数据、疾病登记数据、公共卫生监测数据以及来自移动设备的个体健康监测数据等均可以产生RWD[5]。医院信息系统数据通常以结构化或非结构化形式分散存储于医疗卫生机构的EMR、实验室信息系统、医学影像系统等不同信息系统中,其中EMR在真实世界研究中应用较广[5]。医保支付数据包括由政府主导的基本医疗保险体系下的居民医保支付数据库和由商业保险机构建立的商业保险数据库,涉及患者的基本信息、临床诊疗服务、医疗索赔等数据[5]。疾病登记数据是利用观察性研究的方法有组织地收集临床和其他来源的医疗数据,以评价特定疾病、特定健康状况,或特定暴露人群的临床结局[5]。公共卫生监测数据包括国家或组织机构收集的死亡登记数据、出生登记数据、药品安全性监测数据等[5]。个体健康监测数据是通过智能手机、可穿戴设备等移动设备实时采集的个人健康数据,可用于患者自我健康管理、医疗保险公司评估参保人健康状况、医疗机构对慢病患者的监测等[5]。

2 知识图谱

随着人工智能的迅速发展,知识图谱成为知识表示领域的一个研究热点,其可对客观的概念、实体及二者间的关系进行结构化展现,能有效地组织、管理和理解互联网信息[6]。知识图谱本质上是作为一种语义网络,以 “实体,关系,实体”或“实体,属性,属性值”的三元组形式存储信息,即以节点的形式创建并存储信息,并利用节点间连线的形式表示信息之间的关系[7]。

医学知识图谱是知识图谱目前应用较广的领域之一,是医学人工智能研究的热点[8]。医学知识图谱的构建涉及知识抽取、知识融合、知识推理等过程。其中,知识抽取是通过机器学习等自动化技术或人工提取电子病历、临床实践指南等知识来源中的实体、关系及属性等知识要素,并以这些知识要素为基础构建三元组,从而形成一系列结构化、高质量的知识表达[9]。知识融合是使用算法对不同来源的异构数据根据同一标准框架进行整合、加工、消歧、更新等,形成高质量的知识库[9]。知识推理是在已有医学知识库的基础上对医学实体、实体的属性、实体间的关系进行推理,进一步挖掘隐含知识,从而拓展和丰富医学知识库,帮助指导疾病诊断与治疗[9]。

3 真实世界数据与知识图谱的构建

RWD来源于日常临床实践,能够更加真实地反映患者的实际情况和诊疗效果。知识图谱可以对客观的概念、实体及其之间的关系进行结构化展现,能有效地组织、呈现和推理诊疗知识。RWD与知识图谱的结合应用能够更好地展示和利用医疗知识。

3.1 基于真实世界数据构建知识图谱

基于电子病历等RWD构建医疗知识图谱是目前较为常见的应用方式,包括基于EMR[10]、公共医疗网站数据[11]、城市卫生信息系统的医疗服务数据[12]构建的医学知识图谱。该过程包括电子病历等医学数据采集、医学知识抽取、知识融合、图谱构建等主要内容,同时涉及数据源与数据采集、数据处理与更新、数据存储等大数据处理流程[13]。医学数据采集依据数据来源不同而不同,医院信息系统数据、医保支付数据、疾病登记数据等来源的数据可直接从医院信息管理系统、医保管理系统等系统中直接导出,来源于互联网的数据则需使用爬虫等技术批量获取。

由于EMR包含大量非结构化的文本数据,需要使用自然语言处理技术(natural language processing,NLP)将非结构化数据转化为结构化数据,然后从EMR中进行实体、关系和属性等知识抽取。常用的知识抽取方法包括双向长短期记忆网络-条件随机场(bidirectional long short-term memory-conditional random field, BiLSTM-CRF)、卷积神经网络、支持向量机(support vector machine,SVM)等。Abhyuday等研究显示,应用BiLSTM-CRF在电子病历中进行实体抽取,效果优于其他机器学习算法[14]。

由于RWD来源复杂,抽取的知识存在知识重复、多词同义、模糊表达等问题,需要对抽取的知识使用同一术语标准进行知识融合,包括实体对齐、实体链接和关系推演。常用的知识融合方法包括CRF、马尔可夫逻辑网络(Markov logic network,MLN)、隐含狄利克雷分布(latent dirichlet allocation,LDA)、SVM、图卷积网络等方法。车超等的研究开发了融合属性信息的双向对齐图卷积网络模型,在实体对齐的过程中融入属性信息,在对齐预测阶段进行实体双向对齐从而提高对齐的准确率,结果显示该方法进行实体对齐的整体性能优于目前主流的基于图嵌入的方法[15]。

3.2 结合专业知识和真实世界数据构建知识图谱

现有的面向大数据的医学知识图谱构建技术,虽然能够快速地建立相关病种的知识图谱,但该方法生成的医学知识图谱的冗余度较大,部分知识间关联不够明确,且基于RWD分析发现的关联在临床实践中并不一定真实成立,因此单纯基于RWD建立的医学知识图谱的准确性和可靠性存在一定问题,知识质量难以保证,目前还难以完全适用于准确度要求高的临床诊疗中[16]。基于临床实践指南、专业知识库、书籍等专业知识构建相关病种的医学知识图谱,可保证构建的知识图谱的质量。例如,尹梓名等基于非小细胞肺癌临床实践指南,通过设计本体层和实体层将指南知识结构化,构建了该疾病的知识图谱,并验证了其可行性[16]。Yu等基于名老中医组方、中药等数据库知识构建了传统中医的知识图谱,实现了传统中医知识可视化、提取、推荐等功能[17]。

虽然基于专业知识构建医学知识图谱能够保证图谱的准确性和可靠性,但受限于专业知识无法完全覆盖临床实践中的所有真实情景,结合专业知识和RWD则可以弥补两者单独构建知识图谱的缺陷,保证图谱的准确性、可靠性和全面性。Huang等的研究从维基百科、临床实践指南、科研文献和电子病历中提取整合了抑郁症相关知识,基于这些知识构建了抑郁症知识图谱[18]。Fang等从春雨医生、百度百科等公共医学网站和电子病历中提取整合了垂体腺瘤相关诊疗知识,构建了垂体腺瘤知识图谱[19]。Chai利用从医院相关知识库中抽取的甲状腺疾病相关实体及实体关系和甲状腺疾病患者的电子病历,构建了甲状腺疾病知识图谱,并测试了该图谱辅助诊断的效果[20]。

此外,也可使用RWD对基于专业知识构建完成的知识图谱进行补全。使用SimHash等算法对电子病历等RWD进行去冗余和清洗,然后采用LSTM-CRF等机器学习算法提取RWD中的实体及其关系,形成RWD异构网络。基于协同学习,依据实体、属性等节点的向量表示将RWD异构网络与基于专业知识构建的知识图谱在同一规范框架下进行异构数据的对齐操作,从而实现RWD对知识图谱的补全(图1)。

  • 图1 真实世界数据补全知识图谱的技术路径
    Figure1.The technical path for real-world data to complete knowledge map

4 真实世界数据与知识图谱构建应用中的注意事项

4.1 多学科团队组建

RWD涉及到医学、大数据分析,知识图谱构建涉及到医学、计算机和信息学相关内容,对专业知识和技术要求较高。因此,在开展RWD与知识图谱结合应用研究时需组建含有医学、大数据分析、计算机和信息学等不同专业的多学科团队。同时,从研究设计到研究开展的各个阶段,各个专业的专家均应相互合作使构建的医学知识图谱具有良好的可靠性、全面性和可推广性。

4.2 患者隐私保护

RWD通常包含患者的人口身份、通讯、医保、基因等涉及人格尊严、人身和财产的个人信息,部分数据涉私涉密程度高、存储量大、类型众多。使用RWD开展研究时,接触、使用RWD的研究者范围较广,导致患者隐私泄露的风险较大。不同来源的RWD的隐私保护重点也不同,例如EMR在临床采集时通常采用泛知情同意方式,除患者明确拒绝外,否则其相关数据可被留存并用于研究,因此,在使用时需对数据进行编码去标识化等处理后才能提供给研究者使用[21]。研究者在使用RWD时应当规范数据采集、存储、处理和维护管理,通过建立操作设置审批流程、角色权限控制、最小授权访问控制、数据脱敏、制定隐私保护预防和风险应对措施等方式加强患者隐私保护。

4.3 数据治理标准化

在大多数情况下,RWD存在记录不准确、数据不完整等问题,同时在缺乏统一标准的情况下,不同医疗机构、数据系统等来源的RWD数据类型多样,既有文本、图片等非结构化和半结构化数据,也有结构化数据,这些问题会极大地影响数据的后续处理和应用。这些数据在进行知识挖掘前需要使用合适统一的标准进行数据治理,以达到适用于构建或补全医学知识图谱的数据要求。数据治理包括数据清洗、数据转化、数据传输和存储、数据质量控制等若干环节。其中,数据清洗涉及原始数据的重复或冗余数据去除、异常值处理和变量值逻辑核查。数据转化包括医学术语与编码转化、衍生变量计算等,按照分析数据库中对应标准对清洗后的数据统一转化为适用于研究目的的RWD。

值得注意的是,在基于RWD构建医学知识图谱或基于专业知识构建医学知识图谱并用RWD补全时使用术语标准或本体有利于RWD的治理和医学知识图谱的构建。由于临床医生病例书写习惯差异、不同数据系统或机构之间数据标准不一致等原因,RWD中诊断、实验室检查、手术名称、药物名称等内容会出现一词多义、多词同义等术语不一致问题,使用术语标准将意义一样的医疗词汇归一化为同一个词并构建医疗词库,便于利用人工智能方法快速识别处理多词同义、实体对齐、实体消歧。常见的术语标准有医学主题词表(Medical Subject Headings,MeSH)、中文医学主题词表(Chinese Medical Subject Headings,CMeSH)、医学术语系统命名-临床术语(Systematized Nomenclature of Medicine Clinical Tenns,SNOMED CT)、国际疾病分类与编码(International Classification of Diseases,ICD)、一体化医学语言系统(Unified Medical Language System,UMLS)等。本体作为一种词汇术语体系和知识组织方式,使用人和计算机均可以理解的术语及关系来描述某个领域内的实体及实体之间相互关系[22-23]。应用本体作为底层标准框架可以指导、促进电子病历等RWD的标准化治理和医学知识的结构化存储与检索,同时可以为医学知识图谱的规范化和标准化构建、更新、补全和融合奠定基础。

综上所述,RWD来源广泛,能够真实全面地反映患者的实际情况和诊疗效果,而知识图谱可以结构化地组织、呈现和推理诊疗知识,利用RWD和其他来源知识构建医学知识图谱能够更好地利用医疗知识,在医学智能问答、语义搜索、决策支持方面具有广阔的应用前景。

参考文献|References

1.Sherman RE, Anderson SA, Dal Pan GJ, et al. Real-world evidence - what is it and what can it tell us?[J]. N Engl J Med 2016, 375(23):2293-2297. DOI: 10.1056/NEJMsb1609216.

2.彭晓霞, 舒啸尘, 谭婧, 等. 基于真实世界数据评价治疗结局的观察性研究设计技术规范[J]. 中国循证医学杂志, 2019, 19(7): 779-786. [Peng XX, Shu XC, Tan J, et, al. Technical guidance for designing observational studies to assess therapeutic outcomes using real-world data[J]. Chinese Journal of Evidence-Based Medicine, 2019, 19(7): 779-786.] DOI: 107507/1672-2531.201904164.

3.施秀青, 阎思宇, 黄桥, 等. 真实世界研究:弥合临床实践指南与临床决策之间的距离[J]. 协和医学杂志,  2022, 13(6): 1-18. [Shi XQ, Yan SY, Huang Q, et,al. Real world research: helping clinical practice guidelines span the distance between itself and clinical decision making[J]. Medical Journal of Peking Union Medical College Hospital, 2020, 13(6): 1-18.] DOI: 10.12290/xhyxzz.2022-0217.

4.国家药品监督管理局.关于发布真实世界证据支持药物研发与审评的指导原则(试行) [EB/OL]. (2020-01-07) [2022-12-05]. https://www.nmpa.gov.cn/xxgk/ggtg/qtggtg/20200107151901190.html.

5.国家药品监督管理局药品审评中.用于产生真实世界证据的真实世界数据指导原则(试行)[EB/OL].(2021-04-15) [2022-12-05]. https://www.cde.org.cn/main/news/viewInfoCommon/2a1c437ed54e7b838a7e86f4ac21c539.

6.李绪辉, 黄桥, 王永博, 等. 临床实践指南实施性促进研究之一:实施性现状与促进策略[J]. 医学新知, 2021, 31(6): 410-418. [Li XH, Huang Q, Wang YB, et, al. Research on promotion of implementation of clinical prac-tice guidelines (Ⅰ): the status of implementation and promotion strategies[J]. New Medicine, 2021, 31(6): 410-418.] DOI: 10.12173/j.issn.1004-5511.202111064.

7.徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报,  2016, 45(4): 589-606. [Xu ZL, Sheng YP. He LR, et, al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.] DOI: 10.3969/j.issn.1001-0548.2016.04.012.

8.谭玲, 鄂海红, 匡泽民, 等. 医学知识图谱构建关键技术及研究进展[J]. 大数据,  2021, 7(4): 80-104. [ Tan L, E HH, Kuang ZM, et, al. Key technologies and research progress of medical knowledge graph construction[J]. Big Data Research, 2021, 7(4): 80-104.] DOI: 10.11959/issn.2096-0271.2021040.

9.侯梦薇, 卫荣, 陆亮, 等. 知识图谱研究综述及其在医疗领域的应用[J]. 计算机研究与发展, 2018, 55(12): 2587-2599. [Hou MW, Wei R, Lu L, et, al. Research review of knowledge graph and its application in medical domain[J]. Journal of Computer Research and Development, 2018, 55(12): 2585-2599.] DOI: 10.7544/issn1000-1239.2018.20180623.

10.黄梦醒, 李梦龙, 韩惠蕊. 基于电子病历的实体识别和知识图谱构建的研究[J]. 2019, 36(12): 3735-3739. [Huang MX, Li ML, Han HR. Research on entity recognition and knowledge graph construction based on elec-tronic medical records[J]. 2019, 36(12): 3735-3739.] DOI: 10.19734/j.issn.1001-3695.2018.07.0414.

11.刘燕 , 傅智杰 , 李姣 , 等 . 医学百科知识图谱构建[J]. 中华医学图书情报杂志 , 2018, 27(6): 28-34. [Liu Y, Fu ZJ, Li J, et, al. Generation of medical encyclopedia knowledge graph[J]. Chinese Journal of Medical Li-brary and Information Science, 2018, 27(6): 28-34.] DOI: 10.3969/j.issn.1671-3982.2018.06.005.

12.Shi L, Li S, Yang X, et al. Semantic Health knowledge graph: semantic integration of heterogeneous medical knowledge and services[J]. Biomed Res Int 2017, 2017:2858423. DOI: 10.1155/2017/2858423. Epub 2017 Feb 12.

13.孙 郑 煜 , 鄂 海 红 , 宋 美 娜 , 等 . 基 于 大 数 据 技 术的 医 学 知 识 图 谱 构 建 方 法 [J]. 软 件 , 2020, 41(1): 13-17. [Sun ZY, E HH, Song MN, et, al. The method of medical knowledge graphs con-struction based on big data technology[J]. Computer Engineering & Software, 2020, 41(1): 13-17.] DOI: 10.3969/j.issn.1003-6970.2020. 01.003.

14.Jagannatha AN, Yu H. Structured prediction models for RNN based sequence labeling in clinical text[J]. Proc Conf Empir Methods Nat Lang Process 2016, 2016: 856-865. DOI: 10.18653/v1/d16-1082.

15.车超 , 刘迪 . 基于双向对齐与属性信息的跨语言实体对齐 [J]. 计算机工程 , 2022, 48(3): 74-80. [Che C, Liu D. Cross-language entity alignment based on bidirectional alignment and attribute information[J]. Com-puter Engineering, 2022, 48(3): 74-80.] DOI: 10.19678/j.issn.1000-3428.0060540.

16.尹梓名 , 杜方芮 , 赵紫彤 , 等 . 基于临床指南的知识 图 谱 构 建 技 术 研 究 [J]. 软 件 , 2020, 41(9): 178-184, 197. [Yin ZM, Du FR, Zhao ZD, et, al. Research on knowledge graph construction technology based on clinical guidelines[J]. Computer Engineering & Software, 2020, 41(9): 178-184, 197. ] DOI: 10.3969/j.issn.1003-6970.2020.09.047.

17.Yu T, Li J, Yu Q, et al. Knowledge graph for TCM health preservation: Design, construction, and appli-cations[J]. Artif Intell Med, 2017, 77: 48-52. DOI: 10.1016/j.artmed.2017.04.001.

18.Huang Z, Yang J, van Harmelen F, et al. Constructing knowledge graphs of depression[C]. Health In-formation Science: 6th International Conference, 2017, Proceedings 6. Springer International Publish-ing, 2017: 149-161.

19.Fang A, Lou P, Hu J, et al. Head and tail entity fusion model in medical knowledge graph construction: case study for pituitary adenoma[J]. JMIR Med Inform 2021, 9(7): e28218. DOI: 10.2196/28218.

20.Chai X: Diagnosis method of thyroid disease combining knowledge graph and deep learning[J]. IEEE Access, 2020, 8:149787-149795. DOI: 10.1109/ACCESS.2020.3016676.

21.陈潮 , 杨铭 , 李雪 , 等 . 真实世界研究受试者隐私保护现状及最新进展 [J]. 医学与哲学 , 2021, 42(21): 1-5,10. [Chen C, Yang M, Li X, et, al. The present situation and latest progress of subject privacy protection in real world study[J]. Medicine & Philosophy, 2021, 42(21): 1-5,10.] DOI: 10.12014/j.issn.1002-0772.2021.21.01.

22.何勇群 , 余红 , 杨啸林 , 等 . 本体 : 生物医学大数据 与 精 准 医 学 研 究 的 基 础 [J]. 生 物 信 息 学 , 2018, 16(1): 7-14. [He YQ, Yu H, Yang XL, et, al. Ontology: foundation of biomedical big data and pre-cision medicine research[J]. China Journal of Bioinformatics, 2018, 16(1): 7-14.] DOI: 10.3969/j.issn.1672-5565.201710006.

23.范媛媛 , 李忠民 . 中文医学知识图谱研究及应用进展 [J]. 计 算 机 科 学 与 探 索 , 2022: 16(10): 2219-2233. [Fan YY, Li ZM. Research and application progress of chinese medical knowledge graph[J]. Journal of Frontiers of Computer Science & Technology, 2022: 16(10): 2219-2233.] DOI: 10.3778/j.issn.1673-9418.2112118.

《医学新知》由国家新闻出版总署批准,中国农工民主党湖北省委主管,武汉大学中南医院和中国农工民主党湖北省委医药卫生工作委员会主办的综合性医学学术期刊,国内外公开发行。

官方公众号

扫一扫,关注我们