每月都有数百万人通过网络给出积极或者消极的医疗反馈。一些人会在论坛上抱怨无效的处方,或者讨论哪种药的治疗效果最好;另外一些人则会在博客上描述自己的症状,以及减轻的方法。
MIT 孵化的初创公司dMetrics 相信这种网络聊天对于医疗行业来说是信息宝藏。「在医疗领域有一个非结构化数据的巨大世界,这些数据需要被翻译成有用的信息。」Paul Nemirovsky说。他和 Ariadna Quattoni共同成立了dMetrics公司。
这家初创公司开发了一个平台「DecisionEngine」,该平台可以使用机器学习和自然语言处理(自然语言处理可以帮助电脑更好地理解人类对话)来挖掘数十亿关于药物、医疗装置和其他医疗产品的对话中的有价值的信息。这些讨论出现在博客、Facebook、Twitter、论坛中,甚至是新的文章或者视频后的评论中。 从这些大量的杂乱无章的数据中,软件可以从中洞察消费者的决策。
Nemirovsky 说,「从这些对话中,我们可以看到人们做了什么、没有做什么、想要做什么、可能会做什么、在过去做了什么,以及他们需要什么、害怕什么、期待什么。」 Nemirovsky解释说,如今 dMetrics 具有一个数据库,这个数据库包含了与病人报告的疾病、解决方案和结果相关的每一条公共评论,这些信息来自于数百万的网络资源中,涉及到了超过 14000 种医疗产品的信息。
该公司的客户(包括财富 500 强和非盈利组织)可使用 dMetrics 的软件来回答一些具体的问题,例如有多少病人,出于什么特殊的原因,在特定的时间内,使用一种具体的药物,或者哪些消费者在考虑放弃该公司的药物,转而使用竞争对手生产的药物。 尽管专注于医疗行业,dMetrics 公司(总部位于纽约布鲁克林)也与金融和政治组织的消费者一起测试这个平台。例如,信用卡公司可以分析为什么消费者会偏爱某一些信用卡;政治学家可以使用这款软件来分析人们关心的问题,以及人们对于自己观点的坚持程度。 「对于所有类型的问题,你不仅需要理解人们的用词,而且需要理解这些词语背后的概念,」Nemirovsky 说。
解读语言和表达
Nemirovsky 说,其他软件通常都依赖本体(正式命名和定义)来感知整体人气和品牌知名度。例如,软件会统计某一个单词(例如某一个具体药物的名字)的提及次数,从而决定其是否重要,它也可以检测「积极」词汇或者「消极」词汇。
「但是语言和表达并不是这样工作的,作为人类,我们要更加复杂一点,」Nemirovsky 说。 据 Nemirovsky 介绍,DecisionEngine 可以更好地提炼出文本中的含义,因为这款软件(现在包含了大约 200 万行代码)一直被训练用于识别不同的单词和同义词、解释语法和语义。「在线文本的分析非常困难,其中包含了俚语、拼写错误、Run-on sentences(指我们连接句子时没有使用适当的标点符号來连接两个或两个以上的句子)和疯狂的标点符号。讨论也都是杂乱无章的。」
Nemirovsky 建议可以将这款软件视为一个三级漏斗,当漏斗变得越来越窄时,分析就越精细。在漏斗的顶端,该软件会挖掘出与特定医疗产品相关的单词或者短语,并找到所有提及的地方,同时过滤出其中的一些噪声信息,例如假冒的网站和用户或垃圾邮件。接下来的一级则涉及到将评论者的亲身经历与市场推广材料和新闻等信息相分离。最下面的一层则筛选出人们的决定和回应,例如使用或打算使用产品;经历了害怕或者困惑;转而使用一种不同的药物等。
Nemirovsky 以网上论坛的评论为例进一步解释了这款软件,「例如,现在我在服用药物 A,同时也使用 10 毫克的药物 B,效果不错。明天我要去见我的医生,看能不能在我目前的药物中加入药物 C。就我个人而言,药物 A 脾气非常古怪,只有当我有好的睡眠质量、吃得好、锻炼好,并且每周使用该药物次数有限的情况下才对我有效果。」 Nemirovsky 说,其他的软件也许仅仅检测其中的积极和消极词汇(例如「好」、「不错」Vs.「古怪」、「有限」等)。
而 DecisionEngine 却可以识别更多的信息,包括药物 A 和药物 B 的结合使用和效果;药物 B 的用量;对药物 C 的考虑;当个人生活习惯(例如「好的睡眠质量」)不同时药物 A 的不同效果;评论者对三种药物的同步使用;对专业医护人员的拜访计划等。 这些关于信息的深入分析使得客户能很快采取措施。例如,如果消费者打算换药,制药公司希望了解换药的原因是不是他们没有正确使用药物,并找到一种方式来解决这个问题。 Nemirovsky 说,最近,一家制药公司使用 DecisionEngine 来确定一种抗过敏药是否可以改善一小组病人的生活质量。通过分析这些病人的具体问题,该公司发现该药物具有非常理想的积极效果,且效果远超其他几家竞争公司的产品。
该公司在监管提交阶段(这是任何医疗产品进入市场的重要步骤)使用了这些研究结果。「监管部门在审批中考虑在线病人报告是很罕见的现象,」Nemirovsky 说。
人人都是专家
在 2000 年代后期的MIT,Nemirovsky(当时还是 MIT 媒体实验室研究生)和 Quattoni(当时正在计算机科学与人工智能实验室学习)因为共同的远大目标走到了一起:通过大数据让每个人都成为专家。他们当时的计划是将机器学习和自然语言处理结合起来,从而翻越非结构化数据这座大山,将相关信息提供给任何想要这些信息的人。
「如果你能够在正确的时间为人们提供正确的信息,那么任何人都可以成为专家。」Nemirovsky 说。 在开发这款软件的过程中,他们发现医疗对大多数人的日常生活是一个非常重要的话题。「就医的病人情况非常复杂,有时病人拜访医生之后,可能更加不确定自身的情况。然后他们就会上网发声,我到底怎么回事?我应该怎么办?」
因此他们决定将研究重心集中在医疗行业,并向 MIT 创业指导服务中心(VMS)求助。MIT 创业指导服务中心为他们指明了一些创业公司需要解决的问题:筹资、运营、市场营销、法律问题以及其他相关问题。「一些现在看起来非常明显的问题,对于那时的我们来说真是一点都不明显。VMS 帮助了我们很多,尤其是第一次创业的时候。」Nemirovsky 说。
Nemirovsky 毕业后不久,他和 Quattoni 便在波士顿创立了 dMetrics 公司,之后才将公司搬到了布鲁克林。经过多年的打拼,该初创公司的雇员从两人发展到了 16 人(其机器学习和自然语言处理的研究已经被学术期刊引用超过 4500 次),并且获得了四项美国国家科学基金会的资助,用于继续开发技术。
dMetrics 接下来的目标将其软件应用到医疗、政治和消费金融领域之外的更多领域,旨在让这些数据可以帮助到每一个人。Nemirovsky 说,dMetrics 的目标与早期在 MIT 时的目标并没有太大差异,「我们的愿景是让每一个人都可以自由获取专业知识。」