在法律——这样一个跟图像识别领域相比并无有形实体、充满人类拟制概念;跟围棋领域相比规则复杂而混沌的领域中,实现法律智能的技术路径是什么?
2003年,刚刚踏入法律领域进行技术研发工作的李东海就思考过这个问题。彼时的他虽然接触法律行业不久,却敏感地察觉到这个包罗人类万千情态领域的特殊性。
拿“自首”这件事举例,现实生活中普通人会说的“闯祸后主动打电话报警”这类生活事实对应的是“自首”的法律概念,而这两个字又需要被置于整个刑法体系下,跟法条、案例等等千丝万缕地关联在一起以后,才会被神奇地赋予了意义,并能与复杂多变的生活事实相对应。当时的李东海就意识到,这些无实体的、复杂的法律概念不能预置到机器中,那么是否能通过知识图谱的方式让机器了解、推理和识别?
一晃十五年,曾经的“脑洞”逐渐成为现实。
2018年8月17日,全国知识图谱与语义计算大会在天津召开。论坛发言环节,不惑之年的李东海站在台上简明扼要地向与会者介绍法律知识图谱——法律知识图谱是垂直领域的知识图谱,是众多法律要素组成的知识库,是机器进行法律知识推理的基础。
全国知识图谱与语义计算大会是技术界的盛会,全国知识表示、自然语言理解、机器学习、数据库、图计算等相关领域的重要学者和研究人员济济一堂,共同探讨大数据环境下语言理解、知识获取与智能服务的关键技术和应用。李东海本人也是中国中文信息学会语言与知识计算专委会委员之一。
将晦涩的技术概念高度凝练之后举重若轻地表达,这种化繁为简的演绎背后是李东海十五年如一日付出的厚积薄发。
在元典,拥有十余年审判经验的前法官笑称李东海“在技术领域中最懂法律”,他能流畅地与法律人就法律问题进行探讨,甚至在交流中指出资深法官都会疏忽的细节;而在与技术人员沟通法律人想实现的功能和技术实现方案时,李东海又是最值得信赖的“翻译”和架构师。
“知识图谱是个很热的概念,这次会议不仅有阿里、腾讯、百度这样的大企业参加,很多技术界的nlp大牛也出席了会议,探索知识图谱在自然语言处理方面的一些应用。现阶段,自然语言处理已经达到了繁荣前期,但业界认为,语音识别这样通用领域自然语言方面的应用,已经快达到了目前技术限制下的极限,而针对专业领域的自然语言处理应用方兴未艾。”
“这次大会大概有几十个演讲,在专业领域知识图谱的应用,金融占大部分,医疗占小部分,与司法相关的却只有一两个,但都做得比较浅,还在做当事人属性提取、事实拆分这类较为基础的部分,这些我们早已经有了成熟的技术,尽管不是通过知识图谱的方式实现。”
跟李东海交谈几句,就能感受到技术人员特有的谦逊平和,但谈起这个领域的话题,他又有一种显见的自信。这种自信来源于已有十余年大数据挖掘、自然语言处理相关技术研发工作经验的他,几乎每一项研发工作都与司法这个熟悉的领域相伴。
2003年,硕士毕业的李东海加入华宇集团,一干就是15年。当时的华宇集团还叫做“紫光华宇”,刚刚成立2年,所有员工加起来不到80人。
李东海至今仍清楚地记得,2003年,正是互联网最火热的时候。QQ、多媒体传输,这些应用与场景都是当时技术的难点与热点。顺应时代的热潮,李东海此前的技术研发经历也几乎都与网络传输有关。
传输交换管理平台,是李东海加入华宇后第一款比较成功的产品,这款产品在之后几年给华宇集团带来了可观的收益。
“进入华宇后,我就开始从事网络相关的技术研发工作。我认为华宇集团为法律人创造的最大价值就是在最初期把法院之间的数据连通,当时互联互通是法检领域最大的刚需。法院审理是有层级关系的,但数据却是不通的,而当时在做的数据传输交换系统,就能够解决四级法院间数据孤岛的问题,这是打破数据孤岛的一个小尝试。就像互联网,也是将一个个孤立的局域网串联在一起,让信息在更大范围内流通起来,才能发挥出更大的作用。”
技术人员留给外界的印象经常是沉默寡言不擅言辞,跟李东海接触起来,起初你也会觉得他是个典型技术人,但聊起深耕多年的领域,他又会侃侃而谈,时不时露出开朗的笑容,让人感到面前这名技术人的思维就像一尾游鱼,自由地穿梭在这片亟待深入探索的海洋中,平和、质朴又简洁的言辞总能击中问题要害。
听李东海的描述,你会发现他对于能够实现突破数据壁垒,让数据自由流通的产品给予很高评价。然而,他心中却也一直存有让机器逐渐习得法律认知能力的梦想。在AI的概念还未火热起来的时候,李东海就已经与自然语言处理技术结下了不解之缘。
李东海本科的毕业设计,是在清华大学计算机系智能技术与系统国家重点实验室完成的。当时的他就亲身参与到自然语言处理中的词性自动标注工作中,尽管这在当时非常冷门,他却从中看到了未来的潜在可能,草蛇灰线,在心中默默为从事法律人工智能埋下了伏笔。
试水
2009年,华宇集团内部进行调整,从整个集团中挑选7位技术研发骨干,组成集团内部的技术研究院。李东海第二个印象深刻的项目——法院文书智能校对系统,就是在研究院成立后完成的。
“做文书校对,其实是源于老大(现华宇软件董事长邵学)的一个想法。”提起文书校对,李东海仍然清楚记得当时的每一个细节。“研究院刚成立时,我们问老大有什么好想法,老大说他觉得可以从帮助法官校验文书着手。法官撰写裁判文书时,由于疏忽造成的文书错误经常会受人诟病,如果我们能用技术手段帮助法官做文书校对,将会节省很大一部分人力,这是我们研发这款产品的初衷。”
他敏锐地察觉到,文书智能校对,是试水法律人工智能的大好机会,然而他又总感纯粹的机器学习方案仿佛欠了火候。李东海带领团队尝试通过机器学习实现原本设计的功能。然而,仅仅是为了收集一部分最简单的标签数据,就耗费了几十个人很多天的功夫去标注,投入实在太大。为此,李东海特意回到清华,请教当时计算机科学与技术系的系主任孙茂松教授,到底应该如何将人脑里的知识固化落地。
“孙老师只问了我一句话,你们有没有已经标注好的数据?如果没有这些数据,不用想机器学习人工智能这些东西,离你们还太远。先弄到数据才是最重要的,把以往的历史数据加工成可能被机器学习的语料,才能把人脑里的知识规则化,批量的让机器实现。”
回忆起当时的困境,李东海的神情中不无遗憾。尽管因为种种限制,他没有实现以机器学习这种更有长远发展的技术方法进行产品研发的梦想,但长年的坚持,却让他迎来了这个机会。
2016年,华宇集团筹备成立一个新的子公司——华宇元典,专注于法律人工智能领域的研究,为法律人打造智能辅助产品。董事长邵学在华宇内部的通讯工具cocall上给李东海发了一条信息,问他愿不愿意加入即将成立的子公司。李东海几乎不假思索地答应了这个邀请,这其中简短的交流全程都在cocall上完成。
谈起加入元典这段颇有些传奇的过程,李东海笑得十分开心。
“当时没有想那么多,但很快就决定加入元典。虽然曾经跟劭坤、琳娜(目前担任元典CEO与COO)见过面,有过简短的交流,但也并不知道会有元典这样一个公司诞生。我其实是兴奋的,想到我能够更专注地做我想做的事,与曾是法官、检察官的法律人在同一家公司工作,和这么多优秀的人一起做我想做的事,我真的很开心。”
加入元典后,更专注于法律人工智能领域研究的李东海实现了多年来的夙愿。他在法律领域进行技术研发的扎实经验和对于法律智能发展持续多年的思考让他能够快速融入如今的行业。来自法院、检察院、律所等等具有丰富实务经验的法律人和来自顶尖法学院校的优秀法学生,也为机器学习带来了大量可用的标签数据,使得法律知识图谱的构建成为可能,他终于走上了最开始想走的,那条更为长远的路。
在众多法律人与技术人的共同努力下,元典睿核诞生了。
践行
元典睿核,是以法律知识图谱为核心,通过自然语言处理和机器学习,提供法律认知能力和多种知识服务的法律人工智能平台。它是元典新人了解元典产品的第一课,睿核为各上层应用提供灵活的支撑服务,进而为用户提供法律知识智能辅助。
李东海坦言,睿核是他所做过的产品中开发难度最大的,但是价值同样也是最大的,它承载了所有的知识体系和数据。众多具有实务经验的法律人组成团队,从文本里挖掘更深层次的含义,将他们的知识与经验通过对法律文书的标记固化到系统中。
“我们技术团队和法律研究团队的所有工作都是为了睿核赋能,睿核就像培养大树的肥沃土壤,只有土壤更加肥沃,才能让这棵大树结出更多更甜的果子。”
李东海形象地打了个比方,言语间不难看出他对这款产品的看重和所倾注的心血。然而,让人感到好奇的是,作为一家科技公司的CTO,他又是如何在繁忙的管理工作中抽出时间和精力投入技术研发领域的呢?
谈起这个问题,李东海笑了起来。李东海说,他每天最多的工作就是不停和人开会,跟不同的人交流。原来他可以专注地把所有精力投入到一个项目中,但现在他要做的却是把他的技术能力倾注在不同的项目组,让每个项目组发挥出更多的价值。李东海现在的角色更像是一个专属于技术人的智库,将源源不断的经验与知识向不同的分支供给。
在承担着管理职责的同时,还肩负着技术研发的重任,在常人看来或许是件压力很大的事,但李东海不一样。
“尽管很累,但我从不觉得压力大。事情不会因为压力大而自己解决,还不如集中一段时间想办法去解决问题,比天天为这件事焦虑好得多,所以工作这么多年,我还从未体会过失眠的滋味。”李东海说得轻松,但背后承受的压力仍然可想而知。
在李东海多年的研发工作中,重要的产品还有很多,但他说起以往的产品研发经历,往往是一笔带过,并不讲述当时研发的困境,也不过分夸赞产品的成功,这些为集团带来巨大收益的产品,在他口中却显得普通非常。这也让我感到好奇,这些年来,李东海感到最满足的时刻是什么呢?
谈起这个问题,李东海罕见地陷入了沉默。思考良久,他才作出了回答。
“工作这么多年,我从未感觉到满足,或是有特别值得骄傲的时刻。我觉得每一个目标,每一项成果都是计划中应该达到的水平,从未发生意料之外的惊喜。”
李东海回答得平淡,但却着实出人意料,也许正是这种不知足引导着技术人不知疲倦的探索。10月,李东海获评第二届全球程序员节颁出的“2018年度新锐领军程序员”称号,在这样的荣誉之外,他更习惯的身份可能是另一个:清华大学创新领军工程博士项目的首批博士生。在繁忙的研发和管理之外,李东海仍然时常出现在清华校园里,追求技术带来的“新的惊喜”。
这种不畏前路、不知满足的学习精神,正如他多年前刚刚参与法律产品开发时的韧劲,不懂法律,就想方设法找资料看书学习;不理解裁判文书,就熬夜看完几百份裁判文书。
谈起自己读博想要达到的目标,李东海说:“如今的学术界和产业界隔着巨大的鸿沟,我想重新进入学术界,了解现在的技术水平到底发展到什么阶段。学术界研究的是各种算法、各种模型能够在理想数据环境下达到的最佳效果,而理想数据环境在实际场景应用中很难具备,产业界则对应用场景更加理解,想办法去找到或者创建一个合适的技术落地环境,是我去读博的一个目的。”
的确,法律人工智能行业也需要将学术界与产业界的成果更好地结合,才能取得更加长足的发展。它还处于黎明阶段,要等待技术的重大突破,找到将法律知识与现在已有的自然语言处理技术更好的进行衔接的方法,也就是将知识向量化。目前自然语言处理技术已经比较好的解决了文本的向量化,但应该如何将法律知识向量化,并将其应用到文本分析中,只有解决这个问题,行业才能取得真正突破。
是否有一天,能让机器读懂案件材料,以法律人的逻辑进行分析,最后将案件事实和参考依据清楚地向人类进行展示,由人类进行最后的衡量判断?
“尽管达到这样的技术水平还有很长的距离,但路总要一步步走。元典目前以法律人去理解法律深层的逻辑,并采用专家知识工程的方式让机器可以大规模处理数据,再以机器学习的方式进行学习补充扩展,生成适应性更强的模型,最终以法律知识图谱的形式固化下来。这是一条在没有大规模现成可用标签数据供机器完全自主学习的情况下,我们目前探索出的最有可行性的路径。”
“法律人工智能的未来会怎样,我们谁都无法预料,但我们最应该做的,就是怀抱一颗求知之心,为即将到来的明天做准备。做个纯粹的技术人,挺好。”