技术实力该如何评估比较?
拆解来看,目光多半要聚焦在测试比赛、论文发布、行业案例到项目招投标 PK,但在算法水平看起来越来越趋同的今天,小数点之后的识别率比拼,反而不在于技术本身。
这一点,依图科技一直看在眼里。「99% 识别率的算法和 99.99% 的算法,区别在于可解锁的应用场景。」依图科技创始人朱珑曾撰文提到。
以计算机视觉入手拓展到自然语言处理的技术路线之外,依图选择着重突破两大行业方向——安防和医疗健康。
两年前,依图科技成立了独立子公司挺进医疗行业。
很显然,整个就医环节仍有很多待解的痛点,这给了市场足够多的想象空间。新技术门口总是挤满一波轰然而上的变革者,一边是对变化的渴望,另一边是难跨越的行业门槛,从在线医疗、移动医疗到数字健康,创新者的窘境反复上演。
再一次迭代,医疗又成为 AI 行业的「兴奋剂」。根据公开数据统计,近两年时间至少已经有超百家 AI 医疗公司,而热门应用医学影像吸引其中半数企业,原因就在于放射学科掌握 80% 以上的医疗大数据,是疾病诊断的入口。
但还是那些老问题,一切最难点还要回到解决临床科室面临多学科数据的挑战上。「而未来 AI 真正重要的应用场景也在临床科室。」依图医疗总裁倪浩说。
不难理解,医疗 AI 直面临床实践,所有的 AI 产品最终都要接受临床的考验。
在大家都还在谈算法的时候,这家 AI 公司要到医疗行业深处,研究行业和数据标准的问题。
算法是基础,不能忽视,但「翻译问题」的能力很重要——
如何理解医生的临床痛点,把医生的需求翻译成计算机领域的需求?
如何在算法的基础上搭建具体产品?
如何根据临床医生的反馈不断调整算法?
「很多因素都会影响产品的最终表现,尤其是在医疗领域,一定要以临床实践的结果来衡量一款 AI 产品是否优秀,是否能够帮助到医生,是否能够帮助到患者,是否能够帮助到医疗机构,而不只是看其中某一个方面的具体数字指标。」
为了避免训练用的数据集、标注人员和方法的差异带来的波动,依图医疗选择不再特别强调敏感性、特异性等标准,而是瞄向医生对 AI 产品生成的结构化报告的采纳率。
这既是一个最直观的效果对比,也更贴近医疗行业规则——只有医生认可你的报告,才有价值。根据倪浩的说法,从依图肺癌影像智能诊断系统部署到近百家三甲医院的临床实践应用中看,结构化报告的直接采纳率是 92%。
6 月中旬,依图和四川大学华西医院推出首个基于多维临床数据智能治理的医疗大数据 AI 应用——肺癌临床科研智能病种库,以及全球首个肺癌多学科智能诊断系统。
在中国卫生信息与健康医疗大数据学会会长金小桃看来,「这是 AI 医疗从科研走向临床的标志」,而对依图医疗而言,这是撬动行业的支点。
当我们提问依图是一家典型的 AI 技术公司吗?
倪浩坚定说:「依图医疗其实不是一家 AI 公司,而是医疗公司。我们目前在做的也不只是单纯的某一点的技术研发,而是希望将人工智能技术与临床实践深度融合,将临床专家的诊疗经验融入 AI 产品,打造具备临床价值的『MDT 医生』,这是一个很难很难的过程,也需要相当长的一段时间。」
以下为机器之能对依图医疗总裁倪浩的专访,做了不改变原意的编辑:
当时我们在医疗领域的专业程度相比今天是天差地远,只想到要专注于做产品,但没有想到产品之外的一些事情。
2016年,也就是公司创办四年后,依图成立了医疗子公司,这个决定背后有哪些思考和目标?
有点机缘巧合。我大学是先学医后学计算机,从阿里出来之后就打算创业,只不过当时想去做 C 端的移动医疗。
2016 年是一个比较好的年份,那时候深度学习在安防领域不管技术还是商业模式都被验证了。从个人兴趣和医疗领域问题的严峻程度来看,我认为医疗方向存在的不是「痒点」而是明确的「痛点」,所以我们当时就在想要去做医疗的人工智能。
当时这个领域里也没什么玩家,大家对这个领域都还处于比较懵懂的状态,所以做市场的第一个进入者挺好的,尤其是针对这些明确的痛点,人工智能技术也能够发挥比较大的价值空间。
我们刚开始想做的那件事和现在的方向,几乎没有变化,我们一开始想的是拿顶级医院优质数据跟顶级医生合作,做高质量的算法模型,再把模型带到基层医院去,给到基层医生,赋能基层,就这个思路,我觉得到今天也没变。
我们看到很多创业公司专注在 AI 医疗,或是一个计算机视觉公司把技术应用到包括医疗在内的领域,但单独成立一个子公司的不算特别多,对吗?
对,现在有几类玩家。BAT 这一类,主要是在做投资收购或是成立部门做。其实在创业公司里做医疗方向的,基本上确实没有像我们这样花这么大力气去做的。
一开始你们就成立子公司,这个决定挺有意思。
这是因为当时认识到安防跟医疗是完全不同的两个领域,它们之间的领域知识是有一些可借鉴性,也都算是比较专业的 to B 的领域,但行业差异巨大。我们当时的考虑是,从公司的专业度来看,需要由一家独立公司去运作。
所以依图不是要做一个典型意义上的 AI 技术公司?
我们认为,依图医疗其实不是一家 AI 公司,而是医疗公司。依图医疗在做的也不仅仅是做一系列的 AI 产品,更是要基于 AI 产品矩阵,提升医疗体系的运行效率及诊疗规范性,同时把顶级诊疗机构的诊疗能力赋能到基层,提升基层医疗机构的诊疗能力,缓解当前中国最为急需解决的优质医疗资源短缺及分布不均的问题,让更多基层百姓享受到技术进步带来的诊疗体验提升。
我们目前在做的也不只是单纯的某一点的技术研发,比如影像判读,或者自然语言处理,而是希望将人工智能技术与临床实践深度融合,将临床专家的诊疗经验融入 AI 产品,打造具备临床价值的「MDT 医生」,这是一个很难很难的过程,也需要相当长的一段时间。
明确成立医疗公司之后,你做出最重要的决定是什么?为什么那样做?
一个非常重大的决定是将这家公司开在杭州。由于过往工作的关系,我当时对杭州这个城市的认知比较深入,比较而言,杭州是一个创新氛围比较强的城市。
拿医院举例,杭州有两家医院在全国排到前 20 名,不过优质医院资源整体上还是不如上海等准一线城市,但是他们对新技术、新事物的开放程度,可能是不少外地大医院的专家们所不及的。这是我们这类创新创业公司非常需要的土壤和环境,到现在看,也仍然是很重要的决定,这使我们不少工作能以一个比较快的速度推进下去。
刚开始开展医疗业务时,有哪些挑战、如何解决的?
刚开始其实我们把困难分成两种,一种叫想象中的困难,第二种叫事实中碰到的困难。
想象中的困难是当时我们也会想医院为什么要跟我们合作?你又要拿数据,还要他花时间在这件事情上,然后我还什么都给不了他,比如知识产权。但在实际接触中,想象的困难倒不是困难,这跟当时的决定把公司开在杭州很有关系。
比如,我们起步的时候就敲定了和浙江省人民医院放射科主任龚向阳教授的合作,他确实看到了他所在医院、下级医院的痛点,他觉得这个方向的创新性很好,所以抱着很开放的心态跟我们合作了。所以,想象中的困难一开始没有成为真正的难题。
没有想象过的困难,但在现实中碰到的困难的地方是,当时我们在医疗领域的专业程度相比今天是天差地远,只想到要专注于做产品,但没有想到产品之外的一些事情,比如产品上市前还有 CFDA 报批流程。
AI 类医疗产品的报批上市,进度情况是怎样的?以前药品最慢,医疗器械会好一点,这种政策方面的门槛会对依图等公司产生多大的挑战?
报批速度有提升。不过,AI 医疗类产品中,中国还没有发出一张证来,就是还没有任何一个公司拿到证,但是国家的支持力度蛮大。美国 FDA 已经批了两款产品,虽然是小产品,就是不是像肺癌那么大的一个产品,但已经报批了,所以我认为国内也会加速。
AI 产品落地临床首先必须要懂临床路径,符合临床使用场景;其次,产品要能够和医生的工作流密切结合;然后有很好的人机交互方式。
你们的第一个客户是谁?是订单层面的合作还是开发了自己的解决方案或产品销售出去?
那个时候什么都没有,团队也只有我跟郑永升两个人。我们去医院待了挺长时间,看医生怎么读片子,还拍了一些现场观摩视频,然后再去反复研究这些视频,针对专业流程去琢磨用技术怎么去解决其中的问题。也就是,从临床中去看实际痛点,然后再来设计产品,而不是先有产品的。
我们快速学了很多这个领域的专业知识,我制定的目标就是跟客户交流的时候,不让他们觉得我们外行,你要会行话,你得能跟上他们的认知。另一方面,我们比较强的技术功底以及信守承诺的做事方式,也打下了之后快速拓展业务的基础。
现场观摩或者说去弄懂行业规则的过程持续了多长时间?
我们 7 月份成立,9 月开始动手开发放射影像产品。其实我们中间也做过一些调整,我们做事情要想的比较清楚一点,不需要百分百清楚,但是得弄懂六七成,然后开始就要积极试错。
这个项目的完成是公司产品化的一个重要节点吗?
其实现在还不能说完成,只说阶段性的成果已经达到了商业化程度。一个非常重要的时间节点在 2017 年的 2 月。
我们在 2016 年 9 月底 10 月初开始开发产品,到 12 月份一些种子医院开始试用,然后到第二年也就是 2017 年 2 月,效果就出来了,但这只是第一阶段做病灶的检出,也就是计算机来找病灶这件事情。那时候央视听说我们做的这件事,而且是发现科室使用效果比较好以后决定去采访,这是当时一个标志性的事件,我们把这段时间叫第一代肺癌诊断。后面我们的第二代又引入了随访,历史影像对比等功能,到第三代就开始引入良恶性判断。
从拿订单到真正可以向行业提供可实施的解决方案,中间有哪些门槛需要迈过去?
想要让 AI 产品落地临床,并不仅仅只是技术过关这么简单,依图的算法一直都是世界级的,在全球最权威的人脸识别算法测试 FRVT 中已经连续 2 年夺冠。
AI 产品落地临床首先必须要懂得临床路径,符合临床使用场景;其次,产品要能够和医生的工作流密切结合;然后有很好的人机交互方式,敏感性、特异性等基础指标必须过关,能够解决医疗机构遇到的某些问题。
在业务方向上,依图医疗是选择了不同的疾病方向一个一个去突破吗?
我们明确在肿瘤、心脑血管和儿科这三个方向。我们选择事情的逻辑就是:
第一要有可做的事情,这个阶段太早期了,做的事情要看性价比,也就是做这件事情之后是不是能让更多人受益,对公司来说也意味着市场越大,第二是对临床医生有真正的价值。
这两点非常关键。所以我们做肿瘤的原因很简单,就是因为现在像肺癌、乳腺癌、结直肠癌等疾病国家都在鼓励早期筛查,早筛查意味着它进入到体检体系里了,这个量就会比门诊大很多。心脑血管一直是在国家医保范围内,基本上是医保负担里面最沉重的一块。儿科的痛点很明显,儿科医生缺口又非常大,加上我自己也刚有了小孩,有非常切身的体会。
具体的典型痛点是什么?
其实产品思路都是从一线医生日常工作中来的,针对他们做设计。因为说白了,主任不会去看简单的常规性片子。印象比较深刻的细节是,一个试用我们产品的医生说,以前他一瓶眼药水几天就用完了,因为老是对着电脑看片子,眼睛干涩,一天看片子要持续到晚上 8 点左右。
我们这套系统用起来之后,他说他的眼药水能用挺长时间,并且基本上在下午 4 点钟能看完了。这是他们对于变化的直观感受,这种来自医生的反馈对我和我们团队的正输入,也就是激励作用还是蛮大的,可能比多了十家医院用我们产品更打动人。
医疗行业对 AI 技术的认识是什么?这些年有哪些明显变化吗?
这个过程确实是渐进的,反正一个新事情出来的时候,一般可能只有 10% 的人会投入进去,可能 80% 的人观望,还有 10% 的人是非常激烈地反对。今天这个比例已经变得非常明显了,就是现在我觉得至少有 50% 的人是很支持它,也许那 10% 反对的人还没变,但是支持的人已经变得非常多了。不管是放射科的大佬还是全国医疗行业各个领域的意见领袖,他们现在在各个公开场合几乎都不谈别的,只谈 AI。
但也不得不说,现在有个现象是,一些比较急功近利的 AI 创业公司,为了让宣传数字好看把敏感性设置得很高,造成假阳性增多,反而成为医生工作的负担。
为了保证病灶不漏掉,比如说原来这个片子只有 2 个病灶,为了不漏掉,他找出 22 个,其中 20 个是假阳性,这会让医生的负担加重,也就是说,医生要把这 20 个都看一遍,把那些假病灶去掉,只留下 2 个,这就是一种负担。
对我们来说,我们还是希望让医生真正从技术创新的产品中受益,所以我们专门做了一些降低假阳性的模型,我们在肺癌筛查里面有十几个模型,这是其中之一。这可以让医生不用做更多工作,直接采纳我们的结果。所以,我们讲的数字是超过 90% 的片子不再需要医生改动,也就是可采纳片子结果的比例,我们认为,这是对医生临床工作比较直接的帮助。
这个比例具体是多少?
这个数字一直有提升,现在是在 92% 左右。
老谈算法就是外行,内行都得看数据,这里面一个核心问题是,算法跟数据都很重要,但数据今天可能是更能建立壁垒的事情。
以肺结节检测为例,医院不同部门想要的结果应该是不同的,作为公司来说,对实现产品有什么具体要求?
你说的很对,我们以前的产品是做给放射科的医生用,然后他们的工作其实是只写我看见了什么,不做判断。到呼吸内科时,或是到肿瘤科的时候,他最关注的不是我看见了什么,而是这是个什么东西?这在医学上我们叫鉴别诊断。
在临床科室,他们就开始关注鉴别诊断,比如这东西良性还是恶性的,它长的位置,侵犯的程度是什么,这时候医生看片的目的是为了评估比如说能不能手术,然后体积多大,适不适合使用放疗,或者是什么方案。
所以我们的产品做了第一代、第二代时,主要都是为放射科医生做的,第一代做到找出来,第二代可以让他们去对比。到第三代,我们就发现放射科做不下去了,因为他不关注再下一步的事情,然后我们开始对产品迭代方向进行讨论,就是产品做到这里就结束还是怎么样。
后来,我们对电子病历有比较强的处理能力,发现临床科室的医生对影像的关注点跟放射科非常不一样。但临床科室的医生又要基于多个学科的数据做判断,需要影像的、电子病历的、检验的数据,甚至还有基因数据。我们就开始把面向放射科的产品变成一个面向临床科室的产品。
我们这个月发布的第二个产品就是叫肺癌综合诊断。综合诊断就是面向临床科室的医生,用多学科数据去做出综合诊断。
用这套方案生成一个医生可以直接采纳的影像诊断结果的过程,是怎么样的?
这里面有两个关键,一个是算法,一个是数据。我以前调侃过,老谈算法就是外行,内行都得看数据,这里面一个核心问题是,算法跟数据都很重要,但数据今天可能是更能建立壁垒的事情。
这个过程大致就是,我们先从医院里拿一批脱敏的片子过来,然后让医生去帮我们做标注。但不同的任务标注的东西也不一样,比如说找病灶,有的任务是标注它的状态,比如说它实性结节?还是毛玻璃?还是亚实性的?
有的标注是它有什么征象?比如说毛刺征、分叶征、空泡征这样的东西,还有的是良恶性,但是良恶性医生很难标注,我们一般是用病理的数据作为金标准,就是它有很多不同的模型来标注数据。
我们在影像方向性的算法是 CNN 为基础,用算法先去确定出一个模型,这个模型有诊断能力,但这时候它的准确度是不够的。你得再拿一批标得更精细的测试数据过来,根据测试集去评估算法的表现,找到它的薄弱点。比如它在有毛玻璃的病灶表现不够好,就在训练模型里面去加大毛玻璃这种病灶的比例,这是一个算法优化的过程。
这里面涉及到神经网络的一些参数的调整,一直在迭代,一直迭代到一个你比较满意的模型。所谓的「比较满意」,以我们现在的标准是比医生的平均水平再高出五个百分点,我们觉得是可以先拿到医院去测试,去试用。
试用完成了之后,医生又会给出很多反馈回来。我们在医院的系统自带有让医生非常方便给出反馈交互的按钮,把他的反馈再拿回来,再去优化算法模型,基本上是这么一个过程。但是这里面标注是非常复杂的,标注的复杂程度怎么讲?
比如说,一个比较好的肺结节模型的经验数据至少是 30 万以上的数据集,30 万以上的数据集才会有一个好的表现的结果。但问题是你让人去标 30 万个片子是很可怕的一件事情。
这套标注方式效率很高。
对,所以我们的标注体系叫人机协同,多级标注决策,也就是我们在标 5000 个数据的同时会训练出一个模型,这个模型来帮助医生提升标注效率。这样一来,医生还可以基于机器的标注结果进行修正,对他来说,标注的工作量会减少很多。
我们对标注过程做了很多优化,标注团队负责人是一个心理学博士,他会研究比如说医生标注一致性差异的根源是怎样的,从心理学角度去研究它的差异,他们很有希望发出一份非常牛的论文。
我觉得数据处理能力是一个非常核心的竞争力。在标注之前还有一个叫做问题定义的过程,非常考验产品和技术人员功底,就是怎么把一个医学问题翻译成一个计算机问题,这个是标注团队最核心的价值。
我们也走过弯路,之前做这部分的人主要是计算机背景出身,我们发现其实做不好,后来把人变成了医生加计算机的人一起去做,而且你得找这里面有跨界思维的人。我认为,这类人是人工智能领域最稀缺的人才,稀缺程度甚至超过算法工程师。
刚刚说了两个问题,一个是数据标注,总结起来就是数据问题,还有一个是前期算法构建问题,所以它们是计算机视觉技术应用到医疗行业的两个痛点、也是与自动驾驶、安防这些领域具有不同挑战的地方,对吗?
对,它的门槛在于标注不是普通人能做的。安防的人脸标注基本上谁都能做,但到医学这个领域,你必须得找被训练过七八年的专业人士才能做,所以这个门槛就大大提高了。
医疗行业这些特有属性会要求咱们在模型设计上有什么讲究吗?或者依图有什么跟其他公司不太一样的地方?
其实算法的核心竞争力依图一直积累得比较强,但在医疗领域很大的一个不同点在于:拿安防领域举例,一个人脸找出来了,大家就会说识别很好很准确;在医疗领域你找出来了,然后你也准确判断了良恶性,但医生不买账,为什么?
无论医生还是患者,他们还需要一个解释,用医学的方式解释为什么是这个结果,但深度学习本身就是不可解释。所以,后来我们做了非常多的事情去解决这个问题。我觉得想变革一个行业,你得先搞懂这个行业的核心诉求,你得先让核心人群比如医生认可,然后在他们熟悉使用、习以为常之后,这件事情(可解释性)可能才会变得不重要。
我们的肺癌筛查产品里面有十几个模型,其中好几个模型是为了可解释性做的,比如说,它是良性还是恶性?并且会从医学权威指南角度来说,它有没有毛刺、倍增时间多少等?为什么会认为是良性还是恶性?
我们做一个模型专门去看,把可解释性做出来。从这个角度上,可以把可解释性作为它设计的一部分,这也是我认为我们跟其他厂商拉开比较大差距的部分。
所以越过这个门槛,在开拓市场这个层面也会比较好做一点。
对,反正 PK 我们从来没输过。当然现在我也不觉得有什么太重量级的对手。
因为人口基数大,医疗数据应该是非常丰富的,但电子病历普及很晚也很慢,各个医院之间也不统一,这对医疗 AI 的创新是难题吗?依图怎么解决?
有,一直存在。我们这次产品发布会上邀请到了金小桃(现任中国卫生信息与健康医疗大数据学会会长、北京大学健康医疗大数据国家研究院院长),他以前是国家卫计委副主任,他一直在主导打破信息孤岛这件事情。
我们只关注数据里面的那些特征,并不关注数据本身。对我们从业者来说,我觉得这也是要点之一,你需要做一个有效的数据平台,因为一个产品做出来很可能有地域性的特征。
比如说,我们做的骨龄检测评估小孩子生长发育的情况,地域性特征就非常明显,东北人跟广东人的发育速度完全不一样。如果你只覆盖到某一个地方的数据,产品肯定是不行的。所以你一定要有足够的泛化性,你就要有多大的数据量。但是现在这个状态下只能靠自己做。这同样是壁垒之一。
但问题是依图去做,相当于这些数据其实也是依图来推动的,然后 B 公司 C 公司也这么做,数据也还是各家拥有并掌控在自己手上,最后还是要形成另一种层面上的信息孤岛。
对,这件事肯定是一个重复建设的过程。但是这个事情其实也只能依赖于国家,因为我以前在互联网金融行业也看过,就像他们一样,每家做互联网金融的公司都面临共同的问题,就是有一帮欺诈的人来骗贷款,这家骗完了去骗那家。这是他们的常用的手段,这些公司也觉得我们能不能共建一个征信库?但实际上是很难做出来的,大家这种竞合关系是非常微妙的。
所以其实你也很难看到,哪个行业真正把数据共享打通,大家都能用。再换个角度说,如果数据共享都打通了,可能这个行业的壁垒也就不那么高了。
医院采购的影像设备是不同品牌或型号,这意味着数据源会有差异,这种情况会对模型精度造成影响吗?需要根据特定设备类型调节模型吗?如何控制数据质量?
在 CT 领域,CT 本身的影像差异性不是那么大。基本上,进口、国产设备都可以用我们的产品。但是在 MR 领域,差异性相对比较明显。所以,这跟我们涉足的领域有关系。
做 MR 领域,需要对产品设计有不同要求,你的成本会更高,然后数据又被分散了,需要根据特定的设备类型去做一些调解。
我们布局是从顶级的医院,然后延展到基本上所有的医院,最后到达 C 端。
如果从痛点上讲,医疗领域可以做的事情非常多。目前,我们看到依图合作的医院非常多,共建了医学影像中心,也有看到肺癌筛查、骨龄判断等产品,那么从整个产品解决方案的体系框架上我们的打法是什么?
说起来就稍微有点复杂。我们有三条产品线,第一条产品线是以为顶级医院设计为核心的,比如跟华西依图联合研发的肺癌临床科研智能病种库,核心问题是解决医疗数据可以被挖掘、被洞察的问题,它的主要客户群体是顶级专家和顶级医院。我们为什么做这个东西?因为把这些医疗数据结构化、标准化是一个基础。
现在发现,我们应该把这个东西做成一个产品,然后给医生拿去做医学科研,我们本来也是基于这些数据库去开发新产品。从业务上面来讲,这次华西医院采用了我们的单病种数据库的平台,它基本上也会跟我们一起去合作开发产品。
第二类产品是打通大医院到基层医院,我们开发可以服务于基层医院的功能或产品,比如肺癌诊断、乳腺癌诊断、骨龄生长发育等。
第三类产品线是决策支持类,它有一部分是可以转化到 C 端,推动 C 端跟 B 端的打通,主打做一些临床路径优化。我们不会直接将一个诊断结论给患者,肯定还是给医生,因为我们定位是医生的支持,但可以做到利用人工智能让患者更好地跟医生沟通。
所以我们布局是从顶级的医院,然后延展到基本上所有的医院,最后到达 C 端。
你们把数据库的产品当作一个打通医疗服务的入口,对吗?看中这类产品在医疗行业的可延展性。
是这样。
其中的技术门槛都有哪些?
最大的技术门槛包含几部分。在建数据库时,它用到的技术是多个领域的,至少是自然语言处理再加上图像领域,但图像领域说起来简单,它也包含了放射影像、超声影像或者病理等数据,还有第三类像血液检验或是尿检等结构化比较好的数据,以及第四类基因之类的数据。所以,对技术公司的基础能力非常有考验,这也是为什么到现在只有我们做出这个病种库。
以前没有自然语言的技术,但是因为医疗开始做自然语言这件事情是在 2016 年,自然语言这里面的技术难度比影像要高很多,自然语言是人类的抽象语言,而影像是非常客观的数据。
比如说每个医生的描述都不一样,每个医生的说法都不一样,但是他们可能在讲的是完全一样的事情,你得对这堆文字信息全部都提取出来,变成一个结构化的信息。大家的说法不一样,你要把它一致化,比如有的医生说肝硬化,有的医生会说肝硬变,我们在日常交流时会意识到这是同一种疾病。
但在机器化的过程中,我们只有把它们变成同一件事之后,数据库才能形成,而且还要让各个学科的数据融合起来,比如要把患者病史、家族史,和他的血液检查指标、病情发展过程等,这又涉及到多个学科数据融合的问题。这里面有很多看不见的技术挑战。
刚才也提到依图会去提高自然语言处理方面的能力,具体做了哪些努力?
在早期,深度学习算法对影像和语音技术的提升非常高。比如,应用在语音识别和影像人脸识别或者是图像分类,百分比提升非常可观。但在自然语言领域,一直没有非常大的突破。
我们基本上没有什么可参考的,自己在做一些原创性的基础科学研究。这里面门槛很高,比如,业内有一些做科研数据库的公司,他们都是用人工的方式,或者用一些规则匹配的方式,但效果非常差,大概不到 30% 的数据能被自动提取出来,还有一大堆都要靠人手工做。
我们现在能做到几乎是 99% 以上。这里面有一个非常强的技术创新,当然我们也考虑了领域相关性。在医疗行业,电子病历有它自有特征,我们现在做的事情还不能分发到所有行业,只在医疗行业非常适用。
这个部分的投入是怎么样的?
我们自己的说法叫有多少人都没用,就是取决于你最强的那个人有多强,人数不是很多,但这是一组最强的团队在做。
最强的团队怎么强大?
取决于一个人的眼界,最强的那个人的眼界有多宽,要解决医疗的行业问题,他不能只从算法的角度去想办法,他得理解医疗领域的数据特点,还有医疗领域其他可利用的设施,比如医学术语库等。这个人得有一个解决问题的综合思维,因为这不是一个重算算法的事情。
依图建立了很大的医生团队,为什么这么做?他们在公司做哪些工作,对依图的产品或其他哪些方面起到什么作用?
是的。我们的医生力量主要分成两部分,第一部分是三十多人的全职医生团队,他们基本都当过医生,有些是直接从医院挖过来的,有的是以前在医院后来去药厂研究部之类的。他们在依图最重要的工作是做医学问题的定义,推动医学向计算机转化的这个过程。
第二部分就是我们的兼职医学标注团队,现在应该是四五千人,他们主要是为我们标注数据。还有第三部分,就是我们合作医院的顶级专家,作为我们的外脑,会一起讨论方向性的事情。
最终,依图是要做全病种辅助诊断还是什么?如何理解依图的医疗业务定位?现在有公司尝试做全病种综合型诊疗产品,这其中的挑战主要是哪些?因为每个科室诊断流程、方法等区别很大。
对,这个还比较困难。各个疾病都有独特的地方,非常难。对医生自身也都是挑战,消化科的医生,看不了呼吸科的病。换到计算机的世界,目前也还是做不到。在计算机的世界里,算法是非常类似的,但数据不一样,主要是数据的问题。
当然,从数据理解上是从头开始,但肯定是建立了一个我们研发的框架,然后这个算法体系里面有非常多的基础设施工具,能让你把成本缩减到原来的三分之一、四分之一。比如我们现在扩展一个新病种,在病种控制里扩展一个新的病种,两周时间就够了,可能我们第一个病种做了快两年,然后第二个病种两周时间就够了。
在决策支持这个领域也是一样,不会那么快,因为这个领域医学理解的问题更多,我们原来开发一个肺癌诊断,就要好几个月的时间,做到能够市场化的阶段,也要一年多。现在我们第二个产品做骨龄的时候,基本上三个月的时间,所以是在不断加速的。
整体上来说,短期内我们是想做临床路径的优化者,长期是要做智能医院的建设者,这是我们一个大目标。
具体到病种的维度来看,我们绝对做不完所有病种,一般一个大病种类型都有一千多甚至几万种细分到亚型,不可能做得完。我们的逻辑还是肿瘤、心血管和儿科三个大方向,这是我们三到五年内都会非常聚焦的。
另外,我们也不会沿着临床一直做到底,我们是在临床主要路径上去做优化,之后促进整个临床效率的提升,但它不会只局限于为医院服务,也会为患者做一些服务,让患者跟医疗设施、医疗体系能够更好地连接。
这类服务怎么理解?是下一步要自己做的,还是借助对外的一些合作。
你要为患者服务,你得搞清楚医疗过程,所以我们要先把临床路径这件事情做好,再回过头去看怎么为患者服务。你吃透了行业逻辑就可以为他服务了,所以现在我们在第三条线上做一些尝试,就是为了最终要做的这件事情,C 端跟医院连接就是其中一部分,当然这种目的都是为了更好地服务患者。
以前患者不在其中,现在患者也参与在其中,拿个手机可以进行人机交互。他来问问题,然后你去给他回答、给他一些风险提示等,现在我们开始在这个阶段的探索。
这是独立的 APP 吗?还是什么?
是个微信小程序。
是一个你们自己做的,还是也要放进别家平台上?
我们自己做的,会跟医院端打通,也会植入在一些入口级的平台,比如挂号软件,或者是医院自己的公众号。我们现在还在小范围测试的阶段,在一些医院里面在试用。
它是一个轻问诊的工具。
它不会给一个非常明确的结论,结论性的东西现在国家也不让给,然后我们主要是尽量全面地收集用户的病情,之后会提示患者可能有什么样的风险,你得进一步观察什么指标。然后下一步,我们打算把它做成一个知识性的东西。
有没有可能我咨询完了,去医院见医生的时候不用再重复沟通?
说得很对,因为医生十分钟看病大概七分钟问病情,所以交互完了之后,在医生的电脑上他直接能看到你跟程序交互的内容。
包括分诊应该也可以做到?
分诊是最容易的事情,我们现在做的事情是叫预检,就是说一般常见疾病去看医生,可能有 80% 需要做检查。
比如儿科,医生开一堆化验单,患者要去验血等等然后等拿到化验结果再回来找医生,这个系统现在会直接给患者开个验血单,你不用去见两次医生。这就是我说的临床路径上的部分优化,医院还是非常欢迎的,只是有一些伦理问题我们要去解决,比如说国家规定只有医生才能开检查单。
不过这也会有一些办法,比如说我们把所有要验血的判断需求放到一个系统里,医生可以在电脑上确认操作,对医生、患者来说,就诊效率都会提升很多。
早一步发现疾病问题一直是新技术融合到医疗领域想要完成的目标,但关于辅助诊断、预测等医疗问题,其实一直都缺乏标准,依图怎么看现在的行业状况?在这方面,你们怎么理解以及有什么举措吗?
这是一个问题,所以我们说内行人都谈标准,标准是很重要的一个事情。我们现在在用技术的方式,把早期筛查的标准确定下来。但是人工智能是能够帮助标准可被执行,原来大家对标准的解读是不一样的,人工智能的模型能够让各个地方都采用同样的标准。这个模型,不管在哪个地方,它执行的效果其实都一样,这就是一个技术对于标准的贡献。
依图目前在医疗业务的合作是如何收费的?是否有收入方面的数据可以透露?之前有媒体报道里看到依图称一些合作伙伴为种子医院,这类合作主要承载什么样的需要?
不同的产品是不一样的,有的产品是提升医生效率,有的产品是为患者带来更多价值,而不只是说变得更准。所以,有的以卖一个软件给医院,有的以卖服务的方式给医院,去做一些分成。
目前收入状况是怎样的?
我们有收入,但是收入几乎都不来自于这些产品。因为没有证,所以需要证的这些产品是都没有收入的,然后不需要证的产品,像我们做的第一条线——科研平台,它本身是一个比较偏向于技术的,它不要证,所以这是有一些收入的。
目前为止,有两笔战略投资,分别是 AI 芯片和 AI 制药,依图的投资逻辑是什么?布局 AI 生态还是什么?比如医疗领域这家公司会和依图在业务层面形成深度互动吗?
AI 芯片在整个 AI 的生态里面未来会是一个非常有深度的竞争点,特别是对不同的行业去定制不同的 AI 芯片解决方案,可能成为核心竞争力;至于 AI 制药的业务,本身医疗临床路径就是少不了药品的,随着我们在心脑血管领域的深入,我们发现制药这件事情是大有可为的,在这两个层次可以形成深层次的合作。