Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

全国90%法官都在用的AI工具,来自首家上市的中国AI公司

人工智能在国内法律领域已经有了大面积的应用。

在一些领域里,人工智能的发展速度比你想象得要快:AI 已经在中国司法领域很多场景广泛应用了,比如一个名为「法信」的平台已经覆盖了全国 30 个省,3200 多家法院。也就是说,全国 90% 的法官都在使用这个平台查询法律知识,分析案例数据,精准解决知识检索需求。 

在「智慧法院」的应用场景中,AI 技术还可以辅助法官判案,不仅能够帮助法官「减负」,提高工作效率,辅助司法管理和决策,还可以实现「数据多跑路,群众少跑腿」,使人民群众感受到司法的公平正义。

法信,这套中国最大的法律知识和案例大数据平台,是由人民法院出版社、中国司法大数据研究院和北京国双科技有限公司(以下简称「国双」)共同研发,可以高效、精准、便捷地解决法律人的司法信息检索与分析需求和海量知识数据供给的匹配问题。

最近,我们与国双首席技术官刘激扬、副总裁黄勇坚进行了对话。有关智慧法院的能力与技术,以及国双的产品和历史,我们了解到了很多有趣的事。 

中国最大最权威的法律知识库

对于法律人来说,法信提供的信息非常丰富:它可以呈现在某个时间段不同地域和法院处理了什么类型的案件,具体的案件特征是什么,引用的法条是哪些,争议焦点是什么;可以直接查找具体的某位法官、律师或当事人涉及的所有案件,如果当事人是企业的还可以直接查阅企业工商信息和涉诉信息。

如果你不是一个专业人士,在法信平台上,也可以使用最自然的和人交流沟通的方式自由提问。比如:「我买了一座房子,对面又盖了一座挡了我的阳光怎么办?」这样的问题,都可以得到有用的答案,以及答案的权威来源和法律依据。这个答案的专业性,得益于国双的知识图谱技术。国双通过多年的司法数据和知识梳理积累,让司法行业知识体系以大规模知识图谱的形式被存储起来,并得到有效利用。 

在法信平台智能应用的背后,是深度学习知识图谱等技术的运用,法律专家团队和人民法院出版社的法律内容资源的支撑。 

法信平台拥有以大规模知识图谱所存储的经过权威司法专家整理和积累的司法知识体系,把自然语言处理、意图分析、实体与关系识别、机器学习人工智能技术融合在一起,在传统法律数据库关键词查找、知识检索和类案维度检索的方法之外,实现了交互式专业问答等功能,大大提高了中文法律知识服务的水准。

 在数据方面,法信平台拥有国内司法领域最权威、最完备的知识体系和数据资源,包括中国所有的法律法规、典型案例、图书期刊、法律文书等十二个法律专业数据库资源。

「在智慧法院平台中,AI 系统需要做很多文本处理的工作。算法需要阅读起诉状、答辩状、庭审笔录、判决文书,」国双首席技术官刘激扬介绍道。「在这个过程中我们需要强大的AI 技术,也需要相关领域的专业知识。」

国双首席技术官刘激扬

为了让司法行业的智能应用平台能够真正具备行业智能,解决司法行业的核心业务问题,国双建立起了由法官、检察官、律师等具备多年实务经验的多元化司法专家团队,他们与国双技术人员一道,把业务和技术成功整合到了一起。这些来自法律行业的专家会告诉技术人员:法官在办案时需要什么工具、办案的流程和核心业务痛点是什么。

据了解,在国双的研发团队中,来自司法领域的专家已超过 20 位。 

覆盖审判全流程的AI平台

我们总是期望法官判案时能够做出公正的决定。虽然司法人员是相当专业的群体,但是每个人的职业生涯都是经验积累的过程。对于很多人来说,人工智能可以对他们起到很大帮助。

针对法院场景,国双提出了辅助法官办案全流程的「智讼」平台,整合了来自法信平台的数据分析能力。在法官接手一个案件后,从立案、开庭、审判、判决文书制作以及审判管理,整个流程每一个关键步骤都会获得 AI 的帮助。这样一套产品,可以让大量法官从智能解决方案中获益。

「审判流程中文书包括起诉状、答辩状、庭审笔录等电子卷宗,都可以由机器阅读、分析,」刘激扬介绍到。「在庭审阶段,系统可以提示法官:这是一个什么类型的案子、其中有哪些争议焦点和司法要素、要判这个案子需要问什么样的问题、收集哪些证据和审查项等。我们可以帮助法官在每一个环节做到最好。」

更为重要的是,在审理的最后,AI 可以通过理解所有前置文书、法律法规、类案文书,为法官自动生成一份裁判文书。「这是一个裁判文书的推荐版本,其中当事人信息、案件事实、争议焦点、裁判规则、适用法律等内容均由 AI 进行理解并自动抽取和推断的。法官可以根据AI所建议的内容及自己的专业经验和实际情况作出最终的判决,形成判决文书,」刘激扬表示。「而且在文书制作完成后,AI 会对案件结果进行偏离度分析,避免出现“同案不同判”的情况。」

从这些层面上来看,人工智能可以帮助人类更准确、更迅速地判案,做到更加公正。可以减少重复性事务性工作,帮助法官提高工作质效,从而把主要精力用于审理疑难复杂案件之中。 

业界认可

国双参加了最具权威性的司法人工智能挑战赛——中国法研杯,并获得了去年的冠军。在今年第二届法研杯比赛中,国双受邀担当评委,承办“要素识别”赛道,并公开了中国最大的人工标注法律数据集。

国双的 NLP 团队还把自己的技术探索整理成论文,并被 11 月刚刚结束的自然语言处理顶会 EMNLP 2019 接收(论文:《Charge-BasedPrison Term Prediction with Deep Gating Network》)。在这一研究中,研究人员提出了基于指控的刑期预测工具,并实现了更为准确且具有可解释性的结果。 

进军更多行业 

对于国双来说,在大数据和人工智能方面的技术积累,也正在更多垂直行业中发挥作用。

近年来,随着一系列新技术的出现,让运用 AI 解决业务问题的门槛在不断地降低,比如 AutoML 技术可以辅助数据科学家们去选择模型、调整参数,为求解问题最优解做出最理想的决策支持。同时,在数据建模的时候,可视化的方式进行AI建模可以使数据科学家以拖拽的方式来构建机器学习模型,全程可视化的查看模型执行的效果。另外,各种开源的深度学习框架和工具大大缩短了数据科学建模与在实现中工程化实现的时间和工程难度,这对于技术的大规模应用来说是件好事。

在这种情况之下,技术本身的门槛不再那么令人望而却步,身处这个领域的人们也能将更多的精力花在解决行业问题上。 

虽然技术门槛在不断降低,但是如何在不同行业更有效地利用 AI 技术,以更快的速度进军新的行业,除了需要行业知识外,还需要核心 AI 平台的支持。

国双副总裁黄勇坚表示,国双核心 AI 平台由「国双先知」和「国双知识图谱平台」组成。「国双先知」整合了国双多年积累的自然语言处理、图像识别、数据挖掘深度学习人工智能领域的成熟技术能力,面向各类垂直行业和细分领域的解决方案,提供开箱即用的 AI 研发能力。

国双副总裁黄勇坚

通过国双先知,数据科学家可以轻松把业务场景转化为人工智能任务,快速接入数据,通过可视化建模和自动建模等多种方式创建模型,一键生成 API ,进行能力输出和成果交付。

「国双知识图谱平台」是集成知识抽取、知识融合、知识推理、知识检索、知识推荐、知识增强、机器学习、知识验证等能力的一站式平台。通过国双知识图谱平台可以把分散在结构化、非结构化数据中的大量知识,按照专家参与构建的知识体系进行整合及管理,形成平台化的知识生命周期管理能力,赋能企业内部的知识智能应用。

与很多 AI 技术公司不同,在国双所专注的行业中,研发团队中有很多相应的行业专家:在司法领域有法律专家,在油气领域有油气专家。国双不仅专注底层 AI 平台的技术研发,还着手探索如何用 AI 解决行业问题,为客户提供一站式的解决方案,而不仅仅是提供单纯的 AI 技术。

国双认为,AI 技术要真正与行业结合解决行业问题,有两点很重要:一是要请行业专家提出行业内有价值的痛点,二是需要有坚实的AI技术平台的技术支撑得以有效和快速的建模和交付。 

面临一个陌生的行业,刚入门的人可能连数据都看不懂,这个时候需要先准确定义「问题」,和这个行业里的业务专家进行沟通,去理解行业。在最初进入石油领域的时候,行业专家提出要解决的问题,国双数据科学团队通过行业专家快速学习油气领域诸如「孔渗饱」等专业术语、测井曲线数据特征等油气专业知识,快速理解业务,再通过国双先知迅速建模,把算法以标准 API 的方式提供标准化的工程调用服务,在实践中验证模型的效果和性能,使问题得以有效的解决。

为了让计算机像行业专家一样具备行业智能,国双的油气行业专家整理了油气知识体系,通过国双知识图谱平台有效从各类结构化和非结构化文档中发现、学习、储存知识。由于计算机具备了油气知识,在数据自动建模时,计算机可以提示油气领域的专用特征,而不仅仅使用通用的特征,得到现实中更佳的模型结果。 

经过几年的升级与完善,如今在油气大数据平台及解决方案上,国双已经能够实现实时数据采集与传输、现场实时生产监控、诊断预警分析及生产可视化、油气生产优化和油气生产智慧决策支持五大优化功能。在构建精准、实时、高效的数据采集与互联互通体系基础上,国双为国内部分油田建立起了面向油气工业大数据的分析应用环境。

依靠国双先知和国双知识图谱平台的能力,结合行业专家的业务知识,国双在数年间取得在司法和油气业务上的成功。 

第一家赴美上市的国内AI 公司 

在司法和石油等领域广泛布局的国双,还是首家在纳斯达克上市的国内大数据与人工智能企业。2005 年,国双在北京成立,其创始人团队来自清华校园。早在 2016 年 9 月,这家公司就成功在美国上市了。

深度学习浪潮兴起之前,国双自数据挖掘等技术起步,至今已在AI 领域取得了不错的成绩。目前在人工智能百强企业申请发明数量排名里,国双排名前列(截至 2019 年 11 月,发明专利申请数量 2000+),超过了多家著名 AI 企业。 

而在行业的覆盖面上,国双涉足的领域已经包含数字营销、工业生产、企业运营管理以及专业服务几大部分。

国双的数据科学团队也已建立接近五年,其成员均来自国内外一流大学,包括数据科学家、机器学习建模专家、计算机视觉专家、自然语言处理专家、语音工程专家等。 

「在知识图谱自然语言理解的方向上,我们还有很多问题需要解决,」刘激扬说道。「我们希望在知识提取领域里做更多的研究。未来,我们希望能让不同领域中模型学习到的知识迁移到其他领域里。在人工智能的道路上,我们还有很多挑战和机遇。」 

未来,国双希望在国双先知、知识图谱平台的基础上不断发展,形成更强的核心竞争力,并为更多行业的数字化和智能化转型提供自己的服务。

入门知识图谱NLP深度学习商用解决方案API
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~