发布于:2017-05-19
原创

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

错过当微博网红、玩不利索微信、没跟风成立医生集团,也就罢了,而如果在医疗诊疗行为中,继续作壁上观,那么不论 AI 未来进化成什么样子,这个未来里,已经没有你了。

各种仪器检测设备袭来时,有人忧心忡忡:设备越先进,医生越不会看病了!

各病种临床路径袭来时,还是有人忧心忡忡:路径越完善,医生越不会看病了!

这次人工智能袭来时,又有多少人忧心忡忡:人工智能越强大,医生越会被取代了!

正式开始讨论前,有必要先界定清楚讨论对象。

人工智能(Artificial Intelligence,AI)其实分三类:

弱人工智能(Artificial Narrow Intelligence ,ANI)(简称绝不是「弱智」):擅长于某一方面的人工智能,比如大名鼎鼎的阿尔法围棋(AlphaGo);

强人工智能(Artificial General Intelligence ,AGI):在各方面相当于人类;

超人工智能(Artificial Super Intelligence ,ASI):各方面都比人类强。

后面两类没举例,是因为还不存在,不过相关幻想,已从《星球大战》延续到《西部世界》,直接拉高了我们对 AI 的期待与恐惧。

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

《西部世界》第一季最终集剧照

而回归现实,目前被热炒、被关注、被讨论、被质疑的 AI,其实都还属于「弱人工智能」范畴。

具体到医学领域,弱人工智能目前在诊断硬件、数据采集、辅助诊断、监测反馈、教学培训、精准医疗等方面,都已有所尝试了。

国外又领先多远了?

例子一:

2 月 2 日,Nature 报道了 AI 利用深度学习的图片识别技术,在皮肤癌领域的进展。

这是一场比赛。

比赛双方,一边是利用「卷积神经网络(Convolutional Neural Network ,CNN)」算法,由 18 个医生在线助理存储库和斯坦福大学医药中心,提供了 129,450 张涵盖 2,023 种皮肤疾病临床图片,完成深度学习的 AI;一边则是 21 名资深皮肤科医生。

比赛分为两场。第一场,比试区分角质细胞癌和良性脂溢性角化病;第二场,比试区分恶性黑色素瘤和良性痣。

至于结果,AI 正确识别良性病变和恶性病变的综合灵敏度达到 91%,与 21 名医生水平相当,甚至更优。

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

AI 眼中的皮肤病(图片来源:Nature 官网)

这一比赛的意义在于,到 2021 年时,全世界几乎每人一台智能手机,而如果将这项智能诊断技术安装在手机上,那么每个人就都能对自己的皮肤异物进行拍照,扫描和分析,第一时间知道自己的患病风险了。

而且,现在已有一家以色列公司 Emerald Medical Applications 开发了一款类似的手机应用,并在 FDA 注册。

例子二:

同样利用 CNN 算法的,还有 JAMA 于去年 11 月 29 日报道的 AI 在糖尿病视网膜病变上的进展:

Google 公司领导,美国和印度多家研究机构参与,由 54 名美国的眼科专家和高级住院医师,将 128,175 张视网膜照片进行分类和分级,让 AI 学会自动检测糖尿病视网膜病变和视网膜黄斑水肿,历时 8 个月,最终在灵敏度与特异性方面,最低值为 87%。

例子三四五:

而 Nature 今年 1 月刚设立的子刊,Nature Biomedical Engineering,更是在 AI 方面连发三篇报道:

来自我国中山大学的 AI 识别先天性白内障研究,已进入临床试验阶段,同样利用 CNN 算法,利用 410 张各种程度的先天性白内障图片和 476 张正常图片训练,即使是识别质量不高的网络图片,诊断准确率也达到了 92.45%;

利用多层感知机(Multilayer Perceptron, MLP)算法,和受激拉曼散射显微镜(Stimulated Raman scattering, SRS)生成高度模拟传统的 HE 染色病理切片的新图像。通过过万张图片训练,实现 AI 在脑瘤术中的快速诊断,在病变样本中,区分胶质瘤和非胶质瘤的准确率达 90%;

伦敦帝国理工学院则尝试了 AI 在治疗方面的应用,对神经假体进行精确控制,利用支持向量机(support vector machine, SVM)这一算法,将此前 85% 的精确度提升到 97%。

当然,还有不那么成功的例子:

老牌人工智能产品 IBM Watson 就与世界顶尖的 MD 安德森癌症中心,在去年底暂停了从 2013 年起合作的「消灭癌症」这一计划。

不过,究其原因,大多数人倾向于认为,是 MD 安德森癌症中心自身在战略判断、定位、投入和管理等方方面面都出现问题,导致 Watson 郁闷背锅。

国内玩到哪一步了?

其实就在上个月,北京友谊医院就牵出自己一手喂大的 AI 孩子:一个甲状腺结节超声图像诊断 AI,跟北京协和医院、北京大学第三医院、北京肿瘤医院、解放军总医院等 7 家三甲医院组团来战的影像医生战了一场。

「其实,我们很早就在微信群里看到过『AI 要代替医生』这种说法了。」北京友谊医院超声科副主任胡向东说。

这种代替威胁论的重灾区,尤其集中在图像分析领域,涉及超声科、放射科、病理科等科室。因为对 AI 而言,影像数据相对结构化,相比疾病的诊断和治疗,更容易些,技术也更成熟些。

「你可以说,AI 对医生造成了一定的威胁,但也可以说,AI 能对医生提供很大帮助。」胡向东辩证了一把。

她所在的超声科,其实很早之前就考虑过,想借助 AI 提高诊断率,也跟某家公司接触过,但没走下去。

两年前,因为医院放射科在跟北京市计算中心合作肺结节的 AI,而后者还有过结肠癌病理的 AI 基础,双方一拍即合,超声科就这样跟北京市计算中心开始了甲状腺结节超声图像诊断 AI  的合作。

「我们科的人,基本都参与进来了,大家态度还是很认真的,」胡向东说,大家并不是图新鲜玩一把的心态,「科里大多数人都参与了采图,最后选图的人也有三四个。」

对医院而言,养 AI  这个孩子的第一步,就是喂它图,也就是胡向东说的采图、选图。

超声图像本来存储在医院的工作站上,医生要先选择那些图像采集清晰的、病理结果明确的,拷出来,这个挑选过程,找到一份合适的病例,大概就需要四五分钟。

然后还需要医生手动把图像上的结节框选出来,这个框图选图的过程,也需要一两分钟。超声科就如此操作,喂了过千病例的超声图像和病理结果。而且,喂图的食材还要保证均衡和质量。

由于需要做穿刺的都是有恶性可疑点的结节,所以良性病例就需要医生额外补充给 AI  进行学习。而良性病例,需要同时满足穿刺结果为良、基因检测为阴性、随访时间超过半年 3 个条件。

至于恶性病例,则以穿刺或术后病理检测确诊为恶性做标准。以此,保证 AI  学习的每张片子,都是经过「金标准」检验的。

但是,食精脍细条件下,仔细养大的 AI ,其实还面临要丰富「食材」的挑战。

首先,这与超声本身的特质有关。超声不同于 CT 的客观成图,而是一种医生主观参与较多的检查方式,「面对同一个结节,可能我采集下来的图像,和你采集下来的图像,想表达的点是不太一样的。」胡向东解释,这首先就是一个可能影响到结果的因素。

此外,超声仪器品牌众多,不同公司、不同款型、甚至不是同一个的仪器,成像特征都是有差异的。在图像质量合格的前提下, AI  如何消化掉这些来源不同的「食材」,也是一个挑战。

「未来,AI 也许不需要人工框选结节,可以直接识别图像;也许,AI 甚至不需要人工采集图像,可以从头到尾全包。」胡向东说,目前只是起步阶段,未来发展空间还很大。

而在 AI  学习了数百张图后,科室进行内测,诊断准确率接近于 5 年经验主治医师的诊断水平。

这时,超声科主任钱林学提议,干脆搞个公开比赛,拉北京各家医院都来体验一下。于是,这就有了前面提到的人机对抗,而这也是国内首届人机读片竞赛。

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

比赛现场,左边两台计算机就是 AI,
相比于普通计算机,只是主机略大;
右边是北京友谊医院超声科主任钱林学

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

AI  在读片比赛进程中的状态

北京 7 家顶级医院医生组团和 AI 比赛读片,结果…

比赛现场(以上 3 张照片由北京友谊医院供图)

比赛一共 100 道题,根据图像做出「良性」或「恶性」的选择判断。题目大多包含恶性可疑点,有一定难度。分上下半场,每半场限时 20 分钟。共 84 名医生现场参赛,他们除了按医院组成了 7 个团体,还有个人参赛的。同时,线上还有近万名医生观赛,如果愿意,也可线上比赛。

在第一部分答题过程中,准确率排名前 25 名的医生,平均耗时 1,000 秒左右,而 AI  耗时 191.669 秒,正确率为 68%,而初级医师正确率 60.8%,中级医师为 62.4%,高级医师 66%。在第二部分答题中, AI  准确率达 76%,仅有 5 名医生得分超过了它。

最终,在团体赛比赛结果里, AI  以 73.0% 的综合正确率获胜,用时 514 秒,领先第二名航天中心医院 0.3%。

而在个人成绩里, AI  名列第 6,冠军属于解放军总医院超声科的张明博医生,她已有 8 年的读片经验,综合正确率为 76%,平均用时 909 秒。

对 AI  取得的这个结果,北京友谊医院超声科的医生们,还是比较满意的:最终 AI 的成绩是,敏感性为 83.3%,特异性为 57.5%。

其实,胡向东自己也参加了这个比赛,「我答得不好,」她笑着说,「感觉在现场比较容易受影响,比如第一部分结束后,会给出医生答错最高的五道题,我一看:啊?这一题不对吗?唉!这一题也没对!下半场的时候,我就想,还能按照这个思维来答吗?就受影响了。」

不过她也说,有的医生表现得就很好,上半场过后,反而下半场更适应了,总体成绩更好了。

其实,这就是人类的诊断率可能存在的波动,不如 AI 更稳定。

AI 对医生到底是不是威胁?

于是,问题又回到了 AI 是否威胁到了医生的上面。

「目前这个程度的 AI,已经让初中级医生感到很挫败了,」胡向东说,「搞完这个比赛,科里的同事有时都会说,是不是自己给自己挖了个坑,教会徒弟饿死师父,我们就快失业了?」

不过,胡向东和钱林学主任对此其实也是乐观的,「即使 AI 真有一天有能力代替医生了,也不见得就不好,医生可以去做属于人类的更高级的事情,而且这种事情还有很多。」

目前,他们还是更关注于 AI  的进一步优化,完善它的诊断技能,推向临床,服务于更多疑难病例和需要进一步学习的医院与医生。

他们的合作方,北京市计算中心的季红经理也认为:目前开发 AI ,目的还是希望辅助医师,比如提高部分医师的诊断能力,还不能取代医师的决策。毕竟在实际临床工作中,对疾病的诊断,需要更广阔的知识背景。

事实上,医疗界对 AI 是否能代替医生,态度总是更悲观一些。大家从技术角度出发,认为不论是耗时还是准确率,AI 都完胜,将取代大量医生,甚至,给出了取代 50% 这一比例。

而人工智能界对此倒是更乐观一些,他们更愿意从宏观角度出发:现在的 AI 再强,也是弱人工智能范畴的,医生的直觉、整体认知、法律和人文方面的统筹,是 AI 力所不及的。

而写下《众病之王:癌症传》的悉达多·穆克吉(Siddhartha Mukherjee)博士,近日也在《纽约客》上撰长文讨论 AI,他相信,未来医生和 AI 是和谐共处的。

其实目前,国内医疗领域对 AI 的试水已是起此彼伏:

海归细胞病理学专家孙小蓉博士团队研制了 AI 宫颈癌诊断机器人「Landing」;

浙江大学医学院附属邵逸夫医院在院内开发试用临床辅助决策系统(ICSS);

广州市妇女儿童医疗中心自主开发了儿科发热相关疾病智能诊疗助手「咪姆熊」项目;

……

科学技术的进步,就像优胜劣汰、新陈代谢的进化一样,势不可挡,而不理会身处其中的人,是否情愿。

而反观这几年的医学进步史,我们会发现一个有趣的现象:

当各种仪器检测设备袭来时,有人忧心忡忡:设备越先进,医生越不会看病了!

当各病种临床路径袭来时,还是有人忧心忡忡:路径越完善,医生越不会看病了!

这次,当人工智能袭来时,又有多少人忧心忡忡:人工智能越强大,医生越会被取代了!

错过当微博网红、玩不利索微信、没跟风成立医生集团,也就罢了,而如果在医疗诊疗行为中,继续作壁上观,那么不论 AI 未来进化成什么样子,这个未来里,已经没有你了。

推荐阅读

合作咨询