日益成熟的人工智能,正成为抗击新冠肺炎疫情战线上一群特别的「逆行者」。
无论是加速前期的疫情科研攻关,还是协助一线的疫情诊疗和现场防控,以及后端的信息化平台搭建,都已经出现了人工智能技术和解决方案的身影,并且取得了实际效果。
机器之心特设「AI战疫专题报道」,跟踪人工智能技术应用抗疫现场的最新进展及效果,聚焦人工智能工作者英勇抗疫故事。
我们正在寻找AI战疫中优秀的人工智能公司和应用案例,欢迎提供报道线索,请联系houdijing@jiqizhixin.com。
今天是该系列的第七篇之《受两百年前的霍乱启发,这家公司利用时空大数据在20余天内找出500名疫情密切接触者| AI战疫》。
19 世纪,英国著名内科医生约翰·斯诺(John Snow)通过研究地图等时空数据发现:霍乱案件的污染源并非是空气,而是来自 Broad Street 的公共水泵,并通过被污染的饮用水进行传播。在他的呼吁下,当局关闭并转移了水泵阀,使得霍乱得以遏制。
两百年后,新冠肺炎暴发,京东数科使用「智能城市操作系统」中的核心技术——时空大数据分析技术及 AI 技术,协助政府开展高危人群分析及疑似人群排查工作,并寻找密切接触者。
虽然时隔两个世纪,但个中技术原理相同,都是通过查看时间、空间上的事务关联,得出准确的结论,只是约翰·斯诺医生当时没有计算机和 AI 而已。
二十余天内,京东数科帮北京市找到 500 余名高危的密切接触者;截至 3 月 1 日,为宿迁市找到全市范围四分之一比例的新冠肺炎确诊人员;在全国范围内,帮广州、南京、成都等 18 个省市做了高危人群态势分析。
撰文 | 太浪
编辑 | 四月
一 主动请缨,驰援抗疫一线
大年三十凌晨 2 点,武汉下达「封城」令。
根据武汉市新型冠状病毒感染的肺炎疫情防控指挥部发布的通告,当日 10 时起,武汉市城市公交、地铁、轮渡、长途客运暂停运行,无特殊原因,市民不要离开武汉,机场、火车站离汉通道暂时关闭。
控制传染源、切断传播途径,保护易感人群,是预防传染病的三个有效手段。而据中国铁路武汉局发布的数据,武汉「封城」前一天,近 30 万人次通过铁路离开这座城市;又据新京报记者不完全统计,1 月 23 日 0 时到 10 时,从武汉发出可抵达大中城市的列车至少有 251 列,沿着武汉「米」字形轨道交通网,开往全国各地。
因此,掌握从疫区流出的高危人群的流向、排查疑似人群以及寻找密切接触者,及时对其隔离保护、防止疫情进一步扩散,成为各地政府最迫切的需求。
意识到疫情防控的严峻性后,京东集团副总裁、京东数字科技首席数据科学家、京东城市总裁郑宇希望能做些力所能及的事情。他立即改签机票,结束了春节与两个女儿的休假,从澳门飞回北京,并紧急集结「疫情防控技术体系」研发团队。大年初一,各团队成员改签机票、火车票,赶往北京。由于规定不能人员聚集,于是,他们就在各自的住处远程协调办公。
郑宇率领的京东城市是京东集团的一级战略部门,核心技术是「智能城市操作系统」,此前已在天津、南京、福州、宿迁等 30 多座城市提供技术服务,帮助政府部门对城市进行综合管理。
大年初二,郑宇便组织团队成员梳理所有技术成果,预想所有政府可能需要的技术支援,并进行技术可行性验证,以对哪些技术能在此次疫情中派上用场做到心里有数。
其中一例技术成果是,2015 年某城市踩踏事件后,京东城市基于「智能城市操作系统」的时空数据分析能力,为该市提供了「人流检测系统」,该系统能够预测到一个城市中每个片区在未来几个小时内的人口流入/流出情况。相同的技术,原理上也可以用来帮各地政府预测从疫区流出的人员流入情况。
在花了三天时间对诸如此类的想法进行可行性验证后,郑宇对接上北京市联防办,加入疫情防控第一线。
京东城市团队,第二排左二为京东城市总裁郑宇。
二 霍乱案例受启发
作为技术提供方,他们要做的就是根据政府具体需求提供相应技术支持。郑宇介绍,联防办的需求主要有两点:一是想尽早知道从疫区流出的人群流向,「那些回到北京的人都分布在哪里,哪几个小区」,以便高效排查及宏观上对疫情进行把控;二是找出密切接触者,及时隔离保护,避免疫情扩散。
如何解决这两个棘手的问题?京东城市数据管理平台部(简称京东城市数据团队)负责人鲍捷给出了解决方案——使用时空大数据等相关技术。「接到任务后,我就开始思考,我这个方向能做什么。」鲍捷说,当回忆起博士一年级接触到的「霍乱」案例,受到启发。
伦敦霍乱
鲍捷是明尼苏达大学计算机系博士,师从 Mohamed Mokbel 博士(时空数据库领域知名教授,代表工作包括基于位置隐私保护的时空查询算法,主持开发了 spatialhadoop 等分布式时空大数据系统)和 Shashi Shekar 博士(时空数据挖掘领域知名教授,著有时空数据库教材《spatial database a tour》),主要研究方向包括时空大数据的管理分析和挖掘,曾在微软亚洲研究院工作多年,具备近十年的时空数据挖掘和管理经验。
「霍乱的传播方式直接与时空数据分析的结果相关,是时空大数据分析最经典的例子。」鲍捷解释道。
1854 年,伦敦霍乱流行,居住在或邻近伦敦苏活区 Broad Street 的 127 名居民在三天内接连死去。之后的一周内,这一地区四分之三的居民逃离。当时,关于霍乱的传播方式各有纷说,有人认为是通过空气传播,有人认为是通过人与人的接触。
直到一名叫 John Snow 的内科医生统计了疫情期间每户病亡人数,并把所有发病人的地理位置放到一张地图上,每死亡一人标注一条横线,然后根据地图进行分析。分析结果显示:Broad Street 附近的死亡病例都围着该街唯一的水泵,而临街因为酒厂工人大多饮用免费的啤酒而没什么死亡。霍乱死亡病例多少及分布都与距离污染水泵的远近有关,由此,他确定霍乱的污染源是 Broad Street 的公共水泵,并通过被污染的饮用水进行传播。在他的呼吁下,当局关闭并转移了水泵阀,使得霍乱得以遏制。
1854 年,John Snow 在伦敦霍乱爆发时研究个案时用的地图,受污染的水泵位于 Broad Street 和剑桥街(现列克星敦街)的交汇处。
「在流行病学分析里,人与人在时空上的关联是很标准很重要的分析手段。」鲍捷称。人的活动轨迹是典型的时空数据,因此,针对此次疫情,他们将联防办的两个主要需求抽象为「在给定的时空范围内,查找跟它相关的多元时空数据信息」。
据称,对时空数据的管理和分析挖掘的能力,正是京东数科「智能城市操作系统」中「时空数据引擎」的核心技术,之前已经建好,且有落地案例。比如,京东通过分析京东快递小哥的轨迹数据,修复小区内缺失的路网地图,并预测每条道路的通行时间,进而更好地协助快递员进行揽派件路径规划,提高整体工作效率。但之前并未针对疫情做定制化开发。
京东城市时空数据引擎通过轨迹数据恢复小区路网,协助快递员揽件派遣路径规划。
「针对的业务场景不同,对于时空分析的方式也有差异。」鲍捷告诉机器之心,比如,都是被用来分析关联关系,但重线上(比如金融诈骗、传销)的业务更关注「朋友关系」,重线下的业务(疫情之类)更看重「时空的关联」。而时空查询经常是时空范围的查询,包括经度纬度时间三维,和一般的大数据 NoSQL 组件直接查 key-value 不一样。因此,他们针对如何高效地在大数据组件上支持时空索引,在开源框架的支持下做了很多改造。
时间紧,任务重。初三开始大规模投入,京东城市数据团队 30 多人均参与了「抗疫」项目,包括滞留在湖北的 2 名数据开发人员和 1 名算法工程师。最忙碌的几天,鲍捷从早上 10 点左右就开始电话会议,直到晚上,「经常要弄到凌晨四五点」。
鲍捷介绍,之前,他们突击项目都是在一个地方封闭办公,远程办公失去了那种氛围。「而解决这个问题,主要靠大家对做这个事情的重要性和意义的理解。大家也都自发地投入了大量时间和精力。」
因为一段代码的优化,京东城市数据团队开了 254 分钟电话会议。
三 解决政府最迫切的两个需求
得益于以前的技术积累——京东城市于 2019 年 11 月推出的「时空数据引擎」(JD Urban Spatio-Temporal Data Engine,简称 JUST),一款高效、易用的时空大数据管理平台,采用先进的数据建模方法、数据存储技术、分布式索引技术和分析技术,预置了多种有效的时空挖掘算法,能够帮助人们便捷高效地管理海量时空数据。
京东城市「智能城市操作系统 2.0」
在将「时空范围的查询能力」赋予「时空数据引擎」后,京东城市数据团队用了四五天时间,就上线了「高危人群疫情态势感知系统」,用来协助政府开展高危人群分析、疑似人群排查工作,并查找密切接触者。
出于数据保护的考虑,他们在政府内部搭建起「京东疫情防控技术支持体系」:首先,基于联邦学习、同态加密、数据隐私保护的数字网关技术,在保证数据不出库的基础上,实现电信运营商、政府各个部门、公安和企业数据的融合;然后,用相比传统数据平台快 10-100 倍的时空大数据索引和查询速度,对数据进行归类、分析;最后,借助模块化人工智能算法,高效建立起「高危人群疫情态势感知系统」,义务助力政府防疫。
他们还设计并实现了一套完整的 SQL 引擎,并且阈值了多种开箱即用的时空分析方法。所有操作都可以采用类 SQL(用于在数据库中存储、处理和检索数据的标准语言)语句,降低了操作者的使用门槛,同时提高了系统的灵活性。
如果想知道 X 月 X 号到 X 月 X 号期间,A 城市的人到了 B 城市后都分布在哪里,只需在「高危人群疫情态势感知系统」中输入「时间范围」、「空间范围」、「时空范围的滞留时间」、「目标城市」,返程人员来源地区分布、新增健康异常人数、每日返程人数、离域人员统计、乘坐交通工具情况、去往省市分析等数据均能可视化呈现。
「时间范围」、「空间范围」、「时空范围的滞留时间」、「目标城市」都可以动态变化。其中,空间范围「可以大到整个湖北省,小到武汉市的一个街道一个小区。」
寻找密切接触者不是件容易的事。靠患者清楚无误地回忆——自己在确诊后、隔离前的那段时间,分别在什么时间点去过什么地方,不是最有效的办法。因为除了记忆模糊,患者有时候没办法说出来自己跟谁有过接触。比如,去菜市场买菜,去饭店吃饭,接触过的人,患者根本不认识。
人的活动轨迹是典型的时空数据,包括经度纬度时间三维,通过对患者的移动轨迹进行分析,就能知道患者到底跟哪些人有密切接触关系。针对这一需求,京东城市用上了其自研的时空轨迹挖掘算法。基于这一算法,他们早于 2013 年就在 ICDE 上发表了相关论文——《companion pattern mining from Jeffries》。
但由于现实生活中人不停分分合合,A 在和患者 B 在累计接触时间超过 1 小时、且两人间的空间距离足够近的情况下,才会被判定为「密切接触者」。因此,为了找到有共同驻留点的关联人员,需要先对轨迹数据进行处理。
这部分工作由京东城市数据团队中两位滞留湖北的数据开发人员完成,他们把一条长长的轨迹拆分开来,从中找出有意义的几段轨迹,并从中挖掘目标人员经常呆的地方等有用信息。
2 月 1 日,「重点人员行为轨迹分析系统」上线,北京市使用该系统,在二十余天内,找到了 500 余名密切接触者。
郑宇介绍,系统上线后,得到了北京市联防办的好评,团队成员也根据对方提出的新需求不断对产品进行迭代。
与此同时,广州、成都、南京、宿迁等城市政府部门也递来需求。他们希望所有的处理和分析最好能在尽可能快的时间结束,出结果,在拿到这些信息后及时地做出反应。
每天都有新的疫情暴发。「可能今天这个小区出现两个病例、变成疫区了,那整个小区都会被锁定。这个小区的人最近两到三天都过哪些地方,要再次分析。」查询工作的计算量一天要做好多次。
鲍捷坦言,针对疫情的工作需求交付,每天都压力很大。但他也很自豪自己的所学所能真的用到了实际的地方,产生了社会认可的价值。
截至目前,这两款产品已为北京市、南京市、广州市、辽宁省、内蒙古自治区、四川省、宿迁市等十几个省公安厅和市公安局提供技术支持和数据分析服务。