在一些领域里,人工智能的发展速度比你想象得要快:AI 已经在中国司法领域很多场景广泛应用了,比如一个名为「法信」的平台已经覆盖了全国 30 个省,3200 多家法院。也就是说,全国 90% 的法官都在使用这个平台查询法律知识,分析案例数据,精准解决知识检索需求。
在「智慧法院」的应用场景中,AI 技术还可以辅助法官判案,不仅能够帮助法官「减负」,提高工作效率,辅助司法管理和决策,还可以实现「数据多跑路,群众少跑腿」,使人民群众感受到司法的公平正义。
法信,这套中国最大的法律知识和案例大数据平台,是由人民法院出版社、中国司法大数据研究院和北京国双科技有限公司(以下简称「国双」)共同研发,可以高效、精准、便捷地解决法律人的司法信息检索与分析需求和海量知识数据供给的匹配问题。
最近,我们与国双首席技术官刘激扬、副总裁黄勇坚进行了对话。有关智慧法院的能力与技术,以及国双的产品和历史,我们了解到了很多有趣的事。
中国最大最权威的法律知识库
对于法律人来说,法信提供的信息非常丰富:它可以呈现在某个时间段不同地域和法院处理了什么类型的案件,具体的案件特征是什么,引用的法条是哪些,争议焦点是什么;可以直接查找具体的某位法官、律师或当事人涉及的所有案件,如果当事人是企业的还可以直接查阅企业工商信息和涉诉信息。
如果你不是一个专业人士,在法信平台上,也可以使用最自然的和人交流沟通的方式自由提问。比如:「我买了一座房子,对面又盖了一座挡了我的阳光怎么办?」这样的问题,都可以得到有用的答案,以及答案的权威来源和法律依据。这个答案的专业性,得益于国双的知识图谱技术。国双通过多年的司法数据和知识梳理积累,让司法行业知识体系以大规模知识图谱的形式被存储起来,并得到有效利用。
在法信平台智能应用的背后,是深度学习、知识图谱等技术的运用,法律专家团队和人民法院出版社的法律内容资源的支撑。
法信平台拥有以大规模知识图谱所存储的经过权威司法专家整理和积累的司法知识体系,把自然语言处理、意图分析、实体与关系识别、机器学习等人工智能技术融合在一起,在传统法律数据库关键词查找、知识检索和类案维度检索的方法之外,实现了交互式专业问答等功能,大大提高了中文法律知识服务的水准。
在数据方面,法信平台拥有国内司法领域最权威、最完备的知识体系和数据资源,包括中国所有的法律法规、典型案例、图书期刊、法律文书等十二个法律专业数据库资源。
「在智慧法院平台中,AI 系统需要做很多文本处理的工作。算法需要阅读起诉状、答辩状、庭审笔录、判决文书,」国双首席技术官刘激扬介绍道。「在这个过程中我们需要强大的AI 技术,也需要相关领域的专业知识。」
为了让司法行业的智能应用平台能够真正具备行业智能,解决司法行业的核心业务问题,国双建立起了由法官、检察官、律师等具备多年实务经验的多元化司法专家团队,他们与国双技术人员一道,把业务和技术成功整合到了一起。这些来自法律行业的专家会告诉技术人员:法官在办案时需要什么工具、办案的流程和核心业务痛点是什么。
据了解,在国双的研发团队中,来自司法领域的专家已超过 20 位。
覆盖审判全流程的AI平台
我们总是期望法官判案时能够做出公正的决定。虽然司法人员是相当专业的群体,但是每个人的职业生涯都是经验积累的过程。对于很多人来说,人工智能可以对他们起到很大帮助。
针对法院场景,国双提出了辅助法官办案全流程的「智讼」平台,整合了来自法信平台的数据分析能力。在法官接手一个案件后,从立案、开庭、审判、判决文书制作以及审判管理,整个流程每一个关键步骤都会获得 AI 的帮助。这样一套产品,可以让大量法官从智能解决方案中获益。
「审判流程中文书包括起诉状、答辩状、庭审笔录等电子卷宗,都可以由机器阅读、分析,」刘激扬介绍到。「在庭审阶段,系统可以提示法官:这是一个什么类型的案子、其中有哪些争议焦点和司法要素、要判这个案子需要问什么样的问题、收集哪些证据和审查项等。我们可以帮助法官在每一个环节做到最好。」
更为重要的是,在审理的最后,AI 可以通过理解所有前置文书、法律法规、类案文书,为法官自动生成一份裁判文书。「这是一个裁判文书的推荐版本,其中当事人信息、案件事实、争议焦点、裁判规则、适用法律等内容均由 AI 进行理解并自动抽取和推断的。法官可以根据AI所建议的内容及自己的专业经验和实际情况作出最终的判决,形成判决文书,」刘激扬表示。「而且在文书制作完成后,AI 会对案件结果进行偏离度分析,避免出现“同案不同判”的情况。」
从这些层面上来看,人工智能可以帮助人类更准确、更迅速地判案,做到更加公正。可以减少重复性事务性工作,帮助法官提高工作质效,从而把主要精力用于审理疑难复杂案件之中。
业界认可
国双参加了最具权威性的司法人工智能挑战赛——中国法研杯,并获得了去年的冠军。在今年第二届法研杯比赛中,国双受邀担当评委,承办“要素识别”赛道,并公开了中国最大的人工标注法律数据集。
国双的 NLP 团队还把自己的技术探索整理成论文,并被 11 月刚刚结束的自然语言处理顶会 EMNLP 2019 接收(论文:《Charge-BasedPrison Term Prediction with Deep Gating Network》)。在这一研究中,研究人员提出了基于指控的刑期预测工具,并实现了更为准确且具有可解释性的结果。
进军更多行业
对于国双来说,在大数据和人工智能方面的技术积累,也正在更多垂直行业中发挥作用。
近年来,随着一系列新技术的出现,让运用 AI 解决业务问题的门槛在不断地降低,比如 AutoML 技术可以辅助数据科学家们去选择模型、调整参数,为求解问题最优解做出最理想的决策支持。同时,在数据建模的时候,可视化的方式进行AI建模可以使数据科学家以拖拽的方式来构建机器学习模型,全程可视化的查看模型执行的效果。另外,各种开源的深度学习框架和工具大大缩短了数据科学建模与在实现中工程化实现的时间和工程难度,这对于技术的大规模应用来说是件好事。
在这种情况之下,技术本身的门槛不再那么令人望而却步,身处这个领域的人们也能将更多的精力花在解决行业问题上。
虽然技术门槛在不断降低,但是如何在不同行业更有效地利用 AI 技术,以更快的速度进军新的行业,除了需要行业知识外,还需要核心 AI 平台的支持。
国双副总裁黄勇坚表示,国双核心 AI 平台由「国双先知」和「国双知识图谱平台」组成。「国双先知」整合了国双多年积累的自然语言处理、图像识别、数据挖掘、深度学习等人工智能领域的成熟技术能力,面向各类垂直行业和细分领域的解决方案,提供开箱即用的 AI 研发能力。
通过国双先知,数据科学家可以轻松把业务场景转化为人工智能任务,快速接入数据,通过可视化建模和自动建模等多种方式创建模型,一键生成 API ,进行能力输出和成果交付。
「国双知识图谱平台」是集成知识抽取、知识融合、知识推理、知识检索、知识推荐、知识增强、机器学习、知识验证等能力的一站式平台。通过国双知识图谱平台可以把分散在结构化、非结构化数据中的大量知识,按照专家参与构建的知识体系进行整合及管理,形成平台化的知识生命周期管理能力,赋能企业内部的知识智能应用。
与很多 AI 技术公司不同,在国双所专注的行业中,研发团队中有很多相应的行业专家:在司法领域有法律专家,在油气领域有油气专家。国双不仅专注底层 AI 平台的技术研发,还着手探索如何用 AI 解决行业问题,为客户提供一站式的解决方案,而不仅仅是提供单纯的 AI 技术。
国双认为,AI 技术要真正与行业结合解决行业问题,有两点很重要:一是要请行业专家提出行业内有价值的痛点,二是需要有坚实的AI技术平台的技术支撑得以有效和快速的建模和交付。
面临一个陌生的行业,刚入门的人可能连数据都看不懂,这个时候需要先准确定义「问题」,和这个行业里的业务专家进行沟通,去理解行业。在最初进入石油领域的时候,行业专家提出要解决的问题,国双数据科学团队通过行业专家快速学习油气领域诸如「孔渗饱」等专业术语、测井曲线数据特征等油气专业知识,快速理解业务,再通过国双先知迅速建模,把算法以标准 API 的方式提供标准化的工程调用服务,在实践中验证模型的效果和性能,使问题得以有效的解决。
为了让计算机像行业专家一样具备行业智能,国双的油气行业专家整理了油气知识体系,通过国双知识图谱平台有效从各类结构化和非结构化文档中发现、学习、储存知识。由于计算机具备了油气知识,在数据自动建模时,计算机可以提示油气领域的专用特征,而不仅仅使用通用的特征,得到现实中更佳的模型结果。
经过几年的升级与完善,如今在油气大数据平台及解决方案上,国双已经能够实现实时数据采集与传输、现场实时生产监控、诊断预警分析及生产可视化、油气生产优化和油气生产智慧决策支持五大优化功能。在构建精准、实时、高效的数据采集与互联互通体系基础上,国双为国内部分油田建立起了面向油气工业大数据的分析应用环境。
依靠国双先知和国双知识图谱平台的能力,结合行业专家的业务知识,国双在数年间取得在司法和油气业务上的成功。
第一家赴美上市的国内AI 公司
在司法和石油等领域广泛布局的国双,还是首家在纳斯达克上市的国内大数据与人工智能企业。2005 年,国双在北京成立,其创始人团队来自清华校园。早在 2016 年 9 月,这家公司就成功在美国上市了。
在深度学习浪潮兴起之前,国双自数据挖掘等技术起步,至今已在AI 领域取得了不错的成绩。目前在人工智能百强企业申请发明数量排名里,国双排名前列(截至 2019 年 11 月,发明专利申请数量 2000+),超过了多家著名 AI 企业。
而在行业的覆盖面上,国双涉足的领域已经包含数字营销、工业生产、企业运营管理以及专业服务几大部分。
国双的数据科学团队也已建立接近五年,其成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。
「在知识图谱和自然语言理解的方向上,我们还有很多问题需要解决,」刘激扬说道。「我们希望在知识提取领域里做更多的研究。未来,我们希望能让不同领域中模型学习到的知识迁移到其他领域里。在人工智能的道路上,我们还有很多挑战和机遇。」
未来,国双希望在国双先知、知识图谱平台的基础上不断发展,形成更强的核心竞争力,并为更多行业的数字化和智能化转型提供自己的服务。