第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 智慧医疗促进分级诊疗—一DUCG的初步实践 Medical intelligent system to promote graded clinical diagnoses and treat- ments:application of dynamic uncertain causality graph 张勤2 (1.清华大学核能与新能源技术研究院,北京100084,2.清华大学计算机系,北京100084) 我原来是搞核电的。核电站最重要的就是安 abilistic safety assessment,,PSA)。我们进行了上百 全,其中包含复杂工业系统的智能故障诊断问 项的故障诊断,到目前为止,正确率是100%,但 题。这个问题是1988年我在美国UCLA大学做 是还没有大规模应用。后来,我们想到核电站是 访问学者的时候,我的导师给我提出来的。那时 大型复杂系统,其实人也是大型复杂系统,既然 美国三哩岛核事故刚刚发生不久。该事故提出了 DUCG理论可以用于解决复杂的核电站的故障诊 一个问题:在有虚假信号、损失非常巨大、时间也 断问题,为什么不可以用于给人看病呢?因此近 非常紧迫、信号又动态急剧地变化的工况下,人 些年来我们用DUCG理论来解决看病问题。 不可能正确地判断出故障到底在哪里,就需要计 中国的看病难、看病贵是非常现实的问题, 算机进行辅助诊断。 主要原因在于优质的医生和医疗资源不够。 有虚假信号存在的情况下,如何做出正确的 据国家卫健委2018年统计数据,我国的医疗 判断?接受这个任务后,我开始查阅各种人工智 机构有100万个,其中95%的医疗机构是基层, 能的理论,主要有两种:一种是通过大数据机器 也就是县级以下的。我们的三甲医院只占0.14%。 学习,另一种是传统的基于规则的专家系统。最 最近WHO发布了一个数据,每年由于误诊 后得出的结论是二者都不适合解决这个问题。核 而死亡的人数大约是260万,没有死但耽误了病 电站是高可靠系统,出一次事故就会造成巨大损 情的就更多了。每个病人都希望能够向高水平医 失,而且每次出的都是新事故,不具备重复性,甚 生求医,以免被误诊漏诊。在这种情况下,各国 至连一个可重复利用的数据都没有,所以没有可 政府都面临着医改问题,我国也像其他的国家一 学习的数据,如何进行人工智能的故障学习?所 样,多年以前就开始实施“分级诊疗”医疗体制改 以第一个模型一大数据机器学习模型就被否 革,总结成四句话就是“基层首诊,双向转诊,急 定了。第二个模型一基于规则的专家系统。 慢分治,上下联动”。这里关键的就是“基层首 可是在故障的情况下,尤其是核电站,很多知识 诊”,基层如果不能准确诊断,那么分级诊疗就失 都是不确定的,规则的数量也非常巨大,往往不 去了基础,就不可能实现。 知道从何入手,写了后面的规则,忘了前面的规 我们国家提出的目标是“90%大病不出县”。 则,重叠、冲突、循环等在所难免,也不直观。即 主要的问题在于区县、乡镇、村和社区这些基层 知识的管理很困难;另外,它的不确定性传播是 机构,高水平医生是很难留住的。 非常复杂的,没有一个严谨的理论体系,更不可 国家派医学临床专家到西藏、青海、新疆、内 能辨识出虚假信号这样的复杂工况,以及负反馈 蒙这些边远地区巡诊,但专家的时间是有限的, 这样的复杂的工况。怎么办?我就只好自己创立 当专家赴外地巡诊,有些专程来大医院就医的患 了一套理论体系,用于解决当时所提出来的这个 者就挂不上号了;远程医疗也会占用专家有限的 问题,经过一年的时间,问题终于被解决。 时间。培养一名专家的时间是非常长的,8年的 这个理论发展到现在已经30多年,我称之为 医学院学习,再加上20年的临床实践不断的积 动态不确定因果图(dynamic uncertain causality 累,才有可能成为知名的专家。而且专家个人的 graph,DUCG)。这个理论首先应用于我们的核电 能力是有限的,他们分身乏术。 站、化工系统、航天系统的状态监测、故障预报、 所以基层缺少好医生,这个问题始终解决不 诊断、发展预测、决策支持和概率安全评价(prob- 了。于是我们国家又推出另外一项重大的计划
智慧医疗促进分级诊疗——DUCG 的初步实践 Medical intelligent system to promote graded clinical diagnoses and treatments: application of dynamic uncertain causality graph 张勤1,2 (1. 清华大学 核能与新能源技术研究院,北京 100084; 2. 清华大学 计算机系,北京 100084) 我原来是搞核电的。核电站最重要的就是安 全,其中包含复杂工业系统的智能故障诊断问 题。这个问题是 1988 年我在美国 UCLA 大学做 访问学者的时候,我的导师给我提出来的。那时 美国三哩岛核事故刚刚发生不久。该事故提出了 一个问题:在有虚假信号、损失非常巨大、时间也 非常紧迫、信号又动态急剧地变化的工况下,人 不可能正确地判断出故障到底在哪里,就需要计 算机进行辅助诊断。 有虚假信号存在的情况下,如何做出正确的 判断?接受这个任务后,我开始查阅各种人工智 能的理论,主要有两种:一种是通过大数据机器 学习,另一种是传统的基于规则的专家系统。最 后得出的结论是二者都不适合解决这个问题。核 电站是高可靠系统,出一次事故就会造成巨大损 失,而且每次出的都是新事故,不具备重复性,甚 至连一个可重复利用的数据都没有,所以没有可 学习的数据,如何进行人工智能的故障学习?所 以第一个模型−大数据机器学习模型就被否 定了。第二个模型−基于规则的专家系统。 可是在故障的情况下,尤其是核电站,很多知识 都是不确定的,规则的数量也非常巨大,往往不 知道从何入手,写了后面的规则,忘了前面的规 则,重叠、冲突、循环等在所难免,也不直观。即 知识的管理很困难;另外,它的不确定性传播是 非常复杂的,没有一个严谨的理论体系,更不可 能辨识出虚假信号这样的复杂工况,以及负反馈 这样的复杂的工况。怎么办?我就只好自己创立 了一套理论体系,用于解决当时所提出来的这个 问题,经过一年的时间,问题终于被解决。 这个理论发展到现在已经 30 多年,我称之为 动态不确定因果图 (dynamic uncertain causality graph,DUCG)。这个理论首先应用于我们的核电 站、化工系统、航天系统的状态监测、故障预报、 诊断、发展预测、决策支持和概率安全评价 (probabilistic safety assessment,PSA)。我们进行了上百 项的故障诊断,到目前为止,正确率是 100%,但 是还没有大规模应用。后来,我们想到核电站是 大型复杂系统,其实人也是大型复杂系统,既然 DUCG 理论可以用于解决复杂的核电站的故障诊 断问题,为什么不可以用于给人看病呢?因此近 些年来我们用 DUCG理论来解决看病问题。 中国的看病难、看病贵是非常现实的问题, 主要原因在于优质的医生和医疗资源不够。 据国家卫健委 2018 年统计数据,我国的医疗 机构有 100 万个,其中 95% 的医疗机构是基层, 也就是县级以下的。我们的三甲医院只占 0.14%。 最近 WHO 发布了一个数据,每年由于误诊 而死亡的人数大约是 260 万,没有死但耽误了病 情的就更多了。每个病人都希望能够向高水平医 生求医,以免被误诊漏诊。在这种情况下,各国 政府都面临着医改问题,我国也像其他的国家一 样,多年以前就开始实施“分级诊疗”医疗体制改 革,总结成四句话就是“基层首诊,双向转诊,急 慢分治,上下联动”。这里关键的就是“基层首 诊”,基层如果不能准确诊断,那么分级诊疗就失 去了基础,就不可能实现。 我们国家提出的目标是“90% 大病不出县”。 主要的问题在于区县、乡镇、村和社区这些基层 机构,高水平医生是很难留住的。 国家派医学临床专家到西藏、青海、新疆、内 蒙这些边远地区巡诊,但专家的时间是有限的, 当专家赴外地巡诊,有些专程来大医院就医的患 者就挂不上号了;远程医疗也会占用专家有限的 时间。培养一名专家的时间是非常长的,8 年的 医学院学习,再加上 20 年的临床实践不断的积 累,才有可能成为知名的专家。而且专家个人的 能力是有限的,他们分身乏术。 所以基层缺少好医生,这个问题始终解决不 了。于是我们国家又推出另外一项重大的计划, 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 张勤:智慧医疗促进分级诊疗一一DUCG的初步实践 ·1029· 就是全科医生培养。全科医生培养有两种系统, 吸困难、呕血、鼻塞、鼻出血、咳嗽咳痰、发热伴 一个是“5+3”,即5年的本科全科学习,再加上 皮疹、腹痛、便血等。 3年的全科医生规范化培训,国家补贴,希望8年 临床学告诉我们,在基层做临床看病大概有 学习完成之后能够注册为全科医生,然后到基层 30多个主诉,把它分得细一点,可能会有四十多 去服务至少5年,后来减为2年(3年的规范化培 个主诉。我们已经完成了36个主诉,基本覆盖全 训也算作是服务)。但全科学习难度大,每年的招 科。经过第三方验证,正确率95%以上,其中少 生名额招不满、质量不佳。毕业之后愿意注册为 见病正确率也在80%以上,现已在山东胶州和重 全科医生的就更少,到乡下去,到穷困的地方去, 庆忠县上线应用。 到缺医少药的地方去的人就更少,所以这个问题 我们是怎样做出来的呢? 其实是无解的。于是我们就想到用人工智能技术 首先我们有一个知识库编辑平台,放在云上, 来解决这个问题。 任何能上网的地方都能使用这个平台。与我们合 我认为人工智能系统解决临床诊断问题应 作的专家主要集中在北京,包括协和医院、北大 当具备四个要素。第一,必须要在任何场景都能 医院、宣武医院、朝阳医院、北京医院、安贞医 够应用,不能只在三甲医院的训练集上是正确 院、阜外医院等,我们跟这些医院的主任级别的 的,然后一到基层去就错误百出。第二,必须要 专家进行深度的合作,来建造我们的知识库。 准确,它的水平要比基层医生高得多,最好是 我们的第三方验证主要有10家医院:四川遂 90%以上。第三,既然是辅助诊断,就必须要有 宁市中心医院、内蒙呼和浩特市人民医院、解放 可解释性。一个没有可解释性的系统将无人敢 军306医院、清华长庚医院、还有6家重庆的三甲 用。包括核电站故障诊断系统,如果不能解释为 医院。下面通过实例来介绍DUCG系统。 什么诊断出的是这个结果,那么操作人员就不容 通过HIS系统点选DUCG”进入DUCG智能 易相信系统的诊断结果。而看病是人命关天的 临床辅助诊断系统,把病人姓名、年龄自动转入 事,要让医生签字来承担医疗责任,他必须要了 DUCG系统,还有病案号,以便查询。但不涉及 解人工智能系统给出的诊断结论是怎么得出来 隐私。页面左边有一个“主诉类”,选择并打开“主 的。因为现在还不是以人工智能代替医生看病, 诉类”,选择要看的病一关节痛(这是个真实的 而只能是辅助诊断。人工智能系统尚不能承担 病人),点击进入“关节痛”后,选择到底是哪些风 看病的法律责任。第四,智能看病不是所有的数 险因素、症状和体征?点选之后,相应变量的颜 据都已经收集好了,然后让智能系统来判断到底 色就会改变。每一个变量都有解释和说明。不确 是什么病,而是要引导基层医生一步一步地去收 定的证据怎么办?选择不确定的隶属度,颜色变 集应当收集的证据,不该做的检查不要做,该做 成紫色。 的检查不要漏掉,在准确收集证据的基础上看 我们的算法可以进行精确的推理,在有不确 病,这样才能节省成本,并且准确地诊断出疾 定证据的情况下,我们的算法本身是精确的。为 病。但是每位病人都有个体差异,每个人的临床 节省时间,我们直接把真实的病例证据调出来, 检查路径都应当是不同的。所以人工智能系统 但去掉了所有的化验和其他的检查结果,只保留 应当能够根据每位病人的情况动态地生成一个 风险因素,如:年龄、性别、家族史、症状、体征 “个体优化”的临床检查和诊断路径。只有满足 等,是社区医生通过简单的问话、观察和测量血 这4个要求的人工智能系统,才是一个好的临床 压、心跳或者摸一摸他的骨关节大小就可以得到 辅助诊断系统。 的信息。我们只把这些信息中的一部分,也就是 现在我们已经完成知识库建造和第三方测试 建库专家认为必要的信息先输入进来,大多数是 验证的知识库覆盖36个主诉症状。DUCG的知 绿色的,表示阴性或正常,只有少部分是其他颜 识库都是以主诉为切入点。例如腹痛,病人并不 色(异常的)。有了这些必选项后,就可以避免漏 知道自己该挂哪个科室,很多科室都有可能,因 诊误诊。 为腹痛病的范围很广,患者只知腹痛,这就是他 回答完必选问题之后就可以进行诊断了。点 的主诉。我们以每一个主诉为切入点,把所有相 一下“诊断”按钮,不到一秒钟,结论就出来了:这 关科室的专家组织起来建造DUCG知识库,来看 个病人患系统性红斑狼疮的概率大概41%,当然 腹痛的病。这样的知识库我们建造并且完成了其 还有其他的病,比如说类风湿关节炎等,参考概 内部测试,又完成了第三方测试,包括关节痛、呼 率只有3.5%,其他疾病的概率就更低了
就是全科医生培养。全科医生培养有两种系统, 一个是“5+3”,即 5 年的本科全科学习,再加上 3 年的全科医生规范化培训,国家补贴,希望 8 年 学习完成之后能够注册为全科医生,然后到基层 去服务至少 5 年,后来减为 2 年 (3 年的规范化培 训也算作是服务)。但全科学习难度大,每年的招 生名额招不满、质量不佳。毕业之后愿意注册为 全科医生的就更少,到乡下去,到穷困的地方去, 到缺医少药的地方去的人就更少,所以这个问题 其实是无解的。于是我们就想到用人工智能技术 来解决这个问题。 我认为人工智能系统解决临床诊断问题应 当具备四个要素。第一,必须要在任何场景都能 够应用,不能只在三甲医院的训练集上是正确 的,然后一到基层去就错误百出。第二,必须要 准确,它的水平要比基层医生高得多,最好是 90% 以上。第三,既然是辅助诊断,就必须要有 可解释性。一个没有可解释性的系统将无人敢 用。包括核电站故障诊断系统,如果不能解释为 什么诊断出的是这个结果,那么操作人员就不容 易相信系统的诊断结果。而看病是人命关天的 事,要让医生签字来承担医疗责任,他必须要了 解人工智能系统给出的诊断结论是怎么得出来 的。因为现在还不是以人工智能代替医生看病, 而只能是辅助诊断。人工智能系统尚不能承担 看病的法律责任。第四,智能看病不是所有的数 据都已经收集好了,然后让智能系统来判断到底 是什么病,而是要引导基层医生一步一步地去收 集应当收集的证据,不该做的检查不要做,该做 的检查不要漏掉,在准确收集证据的基础上看 病,这样才能节省成本,并且准确地诊断出疾 病。但是每位病人都有个体差异,每个人的临床 检查路径都应当是不同的。所以人工智能系统 应当能够根据每位病人的情况动态地生成一个 “个体优化”的临床检查和诊断路径。只有满足 这 4 个要求的人工智能系统,才是一个好的临床 辅助诊断系统。 现在我们已经完成知识库建造和第三方测试 验证的知识库覆盖 36 个主诉症状。DUCG 的知 识库都是以主诉为切入点。例如腹痛,病人并不 知道自己该挂哪个科室,很多科室都有可能,因 为腹痛病的范围很广,患者只知腹痛,这就是他 的主诉。我们以每一个主诉为切入点,把所有相 关科室的专家组织起来建造 DUCG 知识库,来看 腹痛的病。这样的知识库我们建造并且完成了其 内部测试,又完成了第三方测试,包括关节痛、呼 吸困难、呕血、鼻塞、鼻出血、咳嗽咳痰、发热伴 皮疹、腹痛、便血等。 临床学告诉我们,在基层做临床看病大概有 30 多个主诉,把它分得细一点,可能会有四十多 个主诉。我们已经完成了 36 个主诉,基本覆盖全 科。经过第三方验证,正确率 95% 以上,其中少 见病正确率也在 80% 以上,现已在山东胶州和重 庆忠县上线应用。 我们是怎样做出来的呢? 首先我们有一个知识库编辑平台,放在云上, 任何能上网的地方都能使用这个平台。与我们合 作的专家主要集中在北京,包括协和医院、北大 医院、宣武医院、朝阳医院、北京医院、安贞医 院、阜外医院等,我们跟这些医院的主任级别的 专家进行深度的合作,来建造我们的知识库。 我们的第三方验证主要有 10 家医院:四川遂 宁市中心医院、内蒙呼和浩特市人民医院、解放 军 306 医院、清华长庚医院、还有 6 家重庆的三甲 医院。下面通过实例来介绍 DUCG系统。 通过 HIS 系统点选“DUCG”进入 DUCG 智能 临床辅助诊断系统,把病人姓名、年龄自动转入 DUCG 系统,还有病案号,以便查询。但不涉及 隐私。页面左边有一个“主诉类”,选择并打开“主 诉类”,选择要看的病−关节痛 (这是个真实的 病人),点击进入“关节痛”后,选择到底是哪些风 险因素、症状和体征?点选之后,相应变量的颜 色就会改变。每一个变量都有解释和说明。不确 定的证据怎么办?选择不确定的隶属度,颜色变 成紫色。 我们的算法可以进行精确的推理,在有不确 定证据的情况下,我们的算法本身是精确的。为 节省时间,我们直接把真实的病例证据调出来, 但去掉了所有的化验和其他的检查结果,只保留 风险因素,如:年龄、性别、家族史、症状、体征 等,是社区医生通过简单的问话、观察和测量血 压、心跳或者摸一摸他的骨关节大小就可以得到 的信息。我们只把这些信息中的一部分,也就是 建库专家认为必要的信息先输入进来,大多数是 绿色的,表示阴性或正常,只有少部分是其他颜 色 (异常的)。有了这些必选项后,就可以避免漏 诊误诊。 回答完必选问题之后就可以进行诊断了。点 一下“诊断”按钮,不到一秒钟,结论就出来了:这 个病人患系统性红斑狼疮的概率大概 41%,当然 还有其他的病,比如说类风湿关节炎等,参考概 率只有 3.5%,其他疾病的概率就更低了。 第 5 期 张勤:智慧医疗促进分级诊疗——DUCG 的初步实践 ·1029·
·1030· 智能系统学报 第15卷 也就是说,仅仅根据村医可知的必选信息,已 径,减少检查项,节省费用和时间。 经基本上判断出这位病人患系统性红斑狼疮。为 诊断结果出来后,如何治疗?点击“方案”后, 什么是这个病?要有可解释性。点击“图解”可打 推荐的治疗方案就展现出来(由中华医学会每两 开图形解释。从中可以看到患者是一位女性、青 年更新一次系统性红斑狼疮指南中的治疗方案), 年,青年女性的发病率是要增高的。下游的绿色 让医生从中选择他认为可以采纳的治疗方案。 节点是预期异常,但实际上还没有异常,其他颜 有了处方,还需要写病历。点击“生成病历”, 色都是已经异常,可由系统性红斑狼疮来解释。 就生成了符合卫健委要求的一个规范化的自然语 为什么不是别的病?排第二的类风湿关节炎 言病历,这个自然语言病历是从DUCG的结构化 的图解有3个孤立症状无法解释,导致它的概率 病历生成的。所以系统中实际上保存了两份病 是比较低的,它只能解释4个异常症状,另外3个 历。如果临床医生认为病历写得不合适,还可以 解释不了。其他概率更低的疾病的解释类似。 进行修改,处方自动加进去,再将病历加密存储, 现在我们看到“检测完备度”只有45%, 跟随病人一辈子。实际上,任何连网的地方,只 这是因为我们还没做任何化验拍片或者病理检 要输入身份证号和密码,就可以调取他过去所有 查,只是在诊室里问诊,所以可信度还不够高,信 的病历。 息还不够多,系统性红斑狼疮的概率也只有 英文版DUCG现在也已经初步做了,还可以 41%,于是要做进一步检查。该做什么检查呢? 做中医知识库。湖南中医药大学已经建造了两个 为指导基层医生做检查,点选“推荐检测”按钮。 知识库,即病机十九条和“六经辩证”。 现在“推荐检测”结果出来了,排第一位的是 下面简单介绍知识库是如何建造的。我们针 一个“问诊”:关节痛是自限性的还是非自限性 对每个主诉症状,例如腹痛,构建十几到上百个 的?这个病人是“非自限性”的。再次诊断,结果 疾病的模块,模块中的每条红线打开都是个矩 有所改变,系统性红斑狼疮概率升到45%,类风 阵,都有参数,每个变量都有描述。然后通过计 湿关节炎概率下降到1%,其他疾病也有所调整, 算机自动合成为一张比较复杂的DUCG图,也就 但变化不大。 是我们用于诊断的知识库。 再次点选“推荐检测”,可以看到推荐的第 上线应用之前,我们对每个知识库都要进行 个选项是“自身免疫性抗体”检测,共有5个指标, 第三方验证。验证的方法是将第三方医院的病历 虽然抗体的检测有很多,但对这个患者只需要做 库中符合该知识库主诉的病历全部找出来,再按 这5个指标的检测。点选之后,检查单已经发给 照库中疾病分类,每类随机抽取10份质量可靠的 化验科了。现在我们进到化验科的界面,作为检 病历进行验证,即将病历中的病情信息输入 查医生,对“自身免疫性抗体”的这5个检查项目 DUCG系统,DUCG不要求的不输入。然后看 进行检查。经过化验之后,将结果点选进去,其 DUCG的诊断结论与病历记载的诊断结论是否一 中有1个是正常的,3个是异常的,还有一个未 致,一致的记为正确,否则记为错误。结果所有 知,医院没做这项检查。勾选保存,这个检查结 知识库的诊断正确率都在95%以上,其中少见病 果就传到门诊医生那里。 的正确率80%以上。 加入“自身免疫性抗体”的检测结果后,进行 这种分类验证的方法是李兰娟院士提出来 新的诊断结果是系统性红斑狼疮的概率为80%, 的,更加科学严谨。因为每个库中少数常见疾病 为什么是这个结果?在“图解”中我们看到了一个 的病历数占了病历总数的绝大部分,例如90%以 六边形的“金标准”,即双链DNA抗体阳性,是系 上。如果不分类验证,90%以上会是常见病,如 统性红斑狼疮的“金标准”,所以确定80%得了这 果这些常见病能正确诊断,正确率就是90%以 个病。其他疾病的可能性很小,不到1%,可以基 上,即使对少见病的诊断都是错的。这样的智能 本确诊了。 系统是不能实际使用的,因为基层医生对常见病 我们将原始的病历调出(四川遂宁真实病 通常能够正确诊断,但对少见病诊断错误率很 人)医院给病人做了24项指标的检查,最后得到 高。如果不能正确诊断少见病,对基层医生就没 的诊断结果与DUCG系统得出的诊断结果比对, 有帮助。另外,DUCG所做的不限于某种疾病的 结论完全一样,而DUCG仅通过5项指标检查就 筛查,而是对库中疾病进行鉴别诊断,不仅告诉 得出与病人做24项指标检查完全一样的诊断结 你是不是某种疾病,而且告诉你如果不是某种疾 果。可见DUCG可显著缩短门诊的临床检查路 病,那么是什么疾病。这样才能有效实现“基层首
也就是说,仅仅根据村医可知的必选信息,已 经基本上判断出这位病人患系统性红斑狼疮。为 什么是这个病?要有可解释性。点击“图解”可打 开图形解释。从中可以看到患者是一位女性、青 年,青年女性的发病率是要增高的。下游的绿色 节点是预期异常,但实际上还没有异常,其他颜 色都是已经异常,可由系统性红斑狼疮来解释。 为什么不是别的病?排第二的类风湿关节炎 的图解有 3 个孤立症状无法解释,导致它的概率 是比较低的,它只能解释 4 个异常症状,另外 3 个 解释不了。其他概率更低的疾病的解释类似。 现在我们看到 “ 检测完备度 ” 只 有 45% , 这是因为我们还没做任何化验拍片或者病理检 查,只是在诊室里问诊,所以可信度还不够高,信 息还不够多,系统性红斑狼疮的概率也只 有 41%,于是要做进一步检查。该做什么检查呢? 为指导基层医生做检查,点选“推荐检测”按钮。 现在“推荐检测”结果出来了,排第一位的是 一个“问诊”:关节痛是自限性的还是非自限性 的?这个病人是“非自限性”的。再次诊断,结果 有所改变,系统性红斑狼疮概率升到 45%,类风 湿关节炎概率下降到 1%,其他疾病也有所调整, 但变化不大。 再次点选“推荐检测”,可以看到推荐的第一 个选项是“自身免疫性抗体”检测,共有 5 个指标, 虽然抗体的检测有很多,但对这个患者只需要做 这 5 个指标的检测。点选之后,检查单已经发给 化验科了。现在我们进到化验科的界面,作为检 查医生,对“自身免疫性抗体”的这 5 个检查项目 进行检查。经过化验之后,将结果点选进去,其 中有 1 个是正常的,3 个是异常的,还有一个未 知,医院没做这项检查。勾选保存,这个检查结 果就传到门诊医生那里。 加入“自身免疫性抗体”的检测结果后,进行 新的诊断结果是系统性红斑狼疮的概率为 80%, 为什么是这个结果?在“图解”中我们看到了一个 六边形的“金标准”,即双链 DNA 抗体阳性,是系 统性红斑狼疮的“金标准”,所以确定 80% 得了这 个病。其他疾病的可能性很小,不到 1%,可以基 本确诊了。 我们将原始的病历调出 (四川遂宁真实病 人) 医院给病人做了 24 项指标的检查,最后得到 的诊断结果与 DUCG 系统得出的诊断结果比对, 结论完全一样,而 DUCG 仅通过 5 项指标检查就 得出与病人做 24 项指标检查完全一样的诊断结 果。可见 DUCG 可显著缩短门诊的临床检查路 径,减少检查项,节省费用和时间。 诊断结果出来后,如何治疗?点击“方案”后, 推荐的治疗方案就展现出来 (由中华医学会每两 年更新一次系统性红斑狼疮指南中的治疗方案), 让医生从中选择他认为可以采纳的治疗方案。 有了处方,还需要写病历。点击“生成病历”, 就生成了符合卫健委要求的一个规范化的自然语 言病历,这个自然语言病历是从 DUCG 的结构化 病历生成的。所以系统中实际上保存了两份病 历。如果临床医生认为病历写得不合适,还可以 进行修改,处方自动加进去,再将病历加密存储, 跟随病人一辈子。实际上,任何连网的地方,只 要输入身份证号和密码,就可以调取他过去所有 的病历。 英文版 DUCG 现在也已经初步做了,还可以 做中医知识库。湖南中医药大学已经建造了两个 知识库,即病机十九条和“六经辩证”。 下面简单介绍知识库是如何建造的。我们针 对每个主诉症状,例如腹痛,构建十几到上百个 疾病的模块,模块中的每条红线打开都是个矩 阵,都有参数,每个变量都有描述。然后通过计 算机自动合成为一张比较复杂的 DUCG 图,也就 是我们用于诊断的知识库。 上线应用之前,我们对每个知识库都要进行 第三方验证。验证的方法是将第三方医院的病历 库中符合该知识库主诉的病历全部找出来,再按 照库中疾病分类,每类随机抽取 10 份质量可靠的 病历进行验证,即将病历中的病情信息输 入 DUCG 系统,DUCG 不要求的不输入。然后看 DUCG 的诊断结论与病历记载的诊断结论是否一 致,一致的记为正确,否则记为错误。结果所有 知识库的诊断正确率都在 95% 以上,其中少见病 的正确率 80% 以上。 这种分类验证的方法是李兰娟院士提出来 的,更加科学严谨。因为每个库中少数常见疾病 的病历数占了病历总数的绝大部分,例如 90% 以 上。如果不分类验证,90% 以上会是常见病,如 果这些常见病能正确诊断,正确率就是 90% 以 上,即使对少见病的诊断都是错的。这样的智能 系统是不能实际使用的,因为基层医生对常见病 通常能够正确诊断,但对少见病诊断错误率很 高。如果不能正确诊断少见病,对基层医生就没 有帮助。另外,DUCG 所做的不限于某种疾病的 筛查,而是对库中疾病进行鉴别诊断,不仅告诉 你是不是某种疾病,而且告诉你如果不是某种疾 病,那么是什么疾病。这样才能有效实现“基层首 ·1030· 智 能 系 统 学 报 第 15 卷
第5期 张勤:智慧医疗促进分级诊疗一一DUCG的初步实践 ·1031· 诊”,病人才愿意接受“基层首诊”,而非现在这 队,包含主诉症状的各种跨科室疾病的知识。病 样:到大医院首诊,到基层拿药,与“分级诊疗”的 历数据只是用于第三方验证,而不是构建知识 医改方案完全相反。 库。此外,现在知识库被误解为各种教科书、病 DUCG在科学方法论上是对现代临床诊断学 历、论文、指南、规范等文献的集成,其实那只是 的颠覆。因为现代临床诊断是指医生凭自己的经 可检索的数据库,而非知识库。知识库应当与推 验,从各种检查结果来推断到底是何种疾病,这 理算法相融合,无论其表达方式是什么。也就是 要靠经验的积累,所以一定要20多年才能成为一 说,知识库是可以活用的知识,而不是静态的碎 个专家。而DUCG只需要从因到果构建知识库, 片化的知识。习近平总书记在党的十九大报告中 然后能够反向计算,由果到因诊断出疾病,乃至 提出“推动互联网、大数据、人工智能和实体经济 于可以动态地生成病人个体优化的临床检查路 深度融合”。大数据和人工智能是并列关系,不是 径。DUCG的个体优化临床检查路径考虑了疾病 等同关系。大数据机器学习是对数据的拟合(黑 的危险度、检测的代价和检测效。这样就使得临 箱):DUCG是对知识的图形表达(白箱),其维护 床诊断学从一门经验科学变成了一门精确计算的 和升级是通过专家验证新知识后在知识库编辑器 严谨的科学,我们的每一个公式都是经得起证实 中修改模块再合成而得,两者有本质区别。基于 或证伪的,是透明的,它的物理意义都是清晰可 知识的DUCG更加稳定可靠并具有可解释性。 辨的。 张钹院士认为“AI奇迹难再现,深度学习潜力近 目前我们的系统通过第三方验证后,已经在 天花板”;谭铁牛院士在2018年院士大会上指出, 山东胶州和重庆忠县的县、乡镇和村(社区)三级 目前大数据机器学习人工智能存在六大瓶颈: 医疗机构实际应用,并与当地的HI$系统双向对 1)数据瓶颈:2)泛化瓶颈;3)能耗瓶颈;4)语义鸿 接,不干扰当地诊病的正常流程。目前胶州已积 沟瓶颈:5)可解释性瓶颈;6)可靠性瓶颈。而 累9000多个病例,异议率3.3%,其中只有6例是 DUCG无这些瓶颈。当然大数据也有优势,如医 DUCG的问题,即我们的主诉知识库中没有包含 学的图像识别,声音识别。医学影像识别和声音 两个应该包含的疾病。例如腹痛中没有包含妇科 识别结果可作为DUCG的输入,彼此是合作关 的盆腔炎。现在将盆腔炎加入腹痛后,诊断就正 系,相得益彰。 确了。也就是说,DUCG在基层实际使用的正确 作者简介: 率近乎100%。忠县开展的晚些,也积累了6000 张勤,教授,博士生导师。全国政 多个病例,异议率更低。 协常委,国际核能院院士,国家核电重 目前有一种误解,似乎人工智能就是大数据 大专项战略咨询专家组组长,中国人 机器学习。但这是不对的,DUCG就不用大数 工智能学会会士、不确定性人工智能 专委会主任,中国知识产权研究会副 据,而是大知识。我们建库不用一个病历数据, 理事长兼学术顾问委员会主任。 只跟专家合作。当然,专家后面通常是一个团 中文引用格式:张勤.智慧医疗促进分级诊疗一一DUCG的初步实践J智能系统学报,2020,15(5):1028-1032 英文引用格式:ZHANG Qin.Medical intelligent system to promote graded clinical diagnoses and treatments::application of dy- namic uncertain causality graph[J].CAAI transactions on intelligent systems,2020,15(5):1028-1032
诊”,病人才愿意接受“基层首诊”,而非现在这 样:到大医院首诊,到基层拿药,与“分级诊疗”的 医改方案完全相反。 DUCG 在科学方法论上是对现代临床诊断学 的颠覆。因为现代临床诊断是指医生凭自己的经 验,从各种检查结果来推断到底是何种疾病,这 要靠经验的积累,所以一定要 20 多年才能成为一 个专家。而 DUCG 只需要从因到果构建知识库, 然后能够反向计算,由果到因诊断出疾病,乃至 于可以动态地生成病人个体优化的临床检查路 径。DUCG 的个体优化临床检查路径考虑了疾病 的危险度、检测的代价和检测效。这样就使得临 床诊断学从一门经验科学变成了一门精确计算的 严谨的科学,我们的每一个公式都是经得起证实 或证伪的,是透明的,它的物理意义都是清晰可 辨的。 目前我们的系统通过第三方验证后,已经在 山东胶州和重庆忠县的县、乡镇和村(社区)三级 医疗机构实际应用,并与当地的 HIS 系统双向对 接,不干扰当地诊病的正常流程。目前胶州已积 累 9 000 多个病例,异议率 3.3%,其中只有 6 例是 DUCG 的问题,即我们的主诉知识库中没有包含 两个应该包含的疾病。例如腹痛中没有包含妇科 的盆腔炎。现在将盆腔炎加入腹痛后,诊断就正 确了。也就是说,DUCG 在基层实际使用的正确 率近乎 100%。忠县开展的晚些,也积累了 6 000 多个病例,异议率更低。 目前有一种误解,似乎人工智能就是大数据 机器学习。但这是不对的,DUCG 就不用大数 据,而是大知识。我们建库不用一个病历数据, 只跟专家合作。当然,专家后面通常是一个团 队,包含主诉症状的各种跨科室疾病的知识。病 历数据只是用于第三方验证,而不是构建知识 库。此外,现在知识库被误解为各种教科书、病 历、论文、指南、规范等文献的集成,其实那只是 可检索的数据库,而非知识库。知识库应当与推 理算法相融合,无论其表达方式是什么。也就是 说,知识库是可以活用的知识,而不是静态的碎 片化的知识。习近平总书记在党的十九大报告中 提出“推动互联网、大数据、人工智能和实体经济 深度融合”。大数据和人工智能是并列关系,不是 等同关系。大数据机器学习是对数据的拟合 (黑 箱);DUCG 是对知识的图形表达 (白箱),其维护 和升级是通过专家验证新知识后在知识库编辑器 中修改模块再合成而得,两者有本质区别。基于 知识的 DUCG 更加稳定可靠并具有可解释性。 张钹院士认为“AI 奇迹难再现,深度学习潜力近 天花板”;谭铁牛院士在 2018 年院士大会上指出, 目前大数据机器学习人工智能存在六大瓶颈: 1) 数据瓶颈;2) 泛化瓶颈;3) 能耗瓶颈;4) 语义鸿 沟瓶颈; 5) 可解释性瓶颈; 6) 可靠性瓶颈。而 DUCG 无这些瓶颈。当然大数据也有优势,如医 学的图像识别,声音识别。医学影像识别和声音 识别结果可作为 DUCG 的输入,彼此是合作关 系,相得益彰。 作者简介: 张勤,教授,博士生导师。全国政 协常委,国际核能院院士,国家核电重 大专项战略咨询专家组组长,中国人 工智能学会会士、不确定性人工智能 专委会主任,中国知识产权研究会副 理事长兼学术顾问委员会主任。 中文引用格式:张勤. 智慧医疗促进分级诊疗——DUCG 的初步实践 [J]. 智能系统学报, 2020, 15(5): 1028–1032. 英文引用格式:ZHANG Qin. Medical intelligent system to promote graded clinical diagnoses and treatments: application of dynamic uncertain causality graph[J]. CAAI transactions on intelligent systems, 2020, 15(5): 1028–1032. 第 5 期 张勤:智慧医疗促进分级诊疗——DUCG 的初步实践 ·1031·