2024/10/14 14:10

CAIL 2024 | 中国法律智能技术评测正式开启，诚邀您参与！

评测简介

近年来，随着以裁判文书为代表的司法大数据不断公开，以及自然语言处理技术的不断突破，如何将人工智能技术应用在司法领域，辅助司法工作者提升案件处理的效率和公正性，逐渐成为法律智能研究的热点。中国法律智能技术评测CAIL(Challenge of AI in Law)旨在为研究者提供交叉学科的学术交流平台，推动自然语言处理、智能信息检索等人工智能技术在法律领域的应用，共同促进中国法律智能技术的创新发展，为科技赋能社会治理作出贡献。为了促进智能技术赋能司法，实现更高水平的数字正义，在最高人民法院和中国中文信息学会的指导下，从2018年起，CAIL已连续举办了六届中国法律智能技术评测，先后吸引了来自海内外高校、企业和组织的近5000支队伍参赛，成为中国法律智能技术评测的重要平台。CAIL 2018设置了罪名预测、法条推荐、刑期预测三个任务，并提供了包含268万刑事法律文书的数据集；CAIL 2019设置了阅读理解、要素识别、相似案例匹配三个任务；CAIL 2020设置了阅读理解、司法摘要、司法考试、论辩挖掘四个任务；CAIL 2021设置了阅读理解、类案检索、司法考试、司法摘要、论辩理解、案情标签预测、信息抽取七个任务；CAIL 2022设置了司法考试、事件检测、文书校对、类案检索、涉法舆情摘要、论辩理解、信息抽取、可解释类案匹配八个任务；CAIL 2023设置了司法考试、对话式类案检索、类案检索、事实认定、论辩理解、信息抽取、司法大模型七个任务。随着智能技术与法律需求交叉融合的不断深入，CAIL的任务设置更加符合司法需求，任务难度也逐年升级。大型语言模型在自然语言处理任务中取得了显著进展，并在法律领域展现了相当大的潜力。然而，法律应用在准确性、可靠性和公平性方面都有非常高的要求。在未仔细评估其潜力和局限性的情况下，将现有的大模型应用于法律系统，可能会对法律实践带来重大风险。为此，我们构建了法律认知能力评估框架，将司法大模型应当具备的能力分为六个层次，包括：记忆层、理解层、推理层、辨别层、生成层、伦理层。记忆能力评测，是评估模型记忆法律信息的能力，包括法律概念，法律规则，法律演变等；理解能力评测，是评估模型理解法律含义及其影响的能力，包括法律要素识别，法律事实验证，阅读理解，关系抽取，命名实体识别；逻辑推理能力评测，是评估模型运用法律事实进行逻辑推理的能力，包括案由预测，法条预测，刑期预测，多跳推理，法律计算，争辩挖掘等；辨别能力评测，是评估模型分析和判断法律信息的价值的能力，包括类案辨别，文档修正等；生成能力评测，是评估模型撰写专业的法律文件和论证性文本的能力，包括摘要生成，裁判分析过程生成，法律翻译，开放式问答等；伦理评测，是评估模型判断法律中的伦理问题的能力，包括偏见与歧视，道德，隐私等。

评测框架图

CAIL 2024一共设置了七个任务，分别为：裁判文书事实生成、裁判文书说理生成、法律要素和争议焦点识别、二审改判类案检索与原因预测、法律咨询对话生成、司法考试、多人多罪判决预测，同时将提供海量司法文书数据作为数据集。本次赛程为9月初至11月持续3个月时间，预计将于2024年12月在北京举办颁奖典礼暨法律智能技术研讨会。诚邀学术界和工业界的研究者和开发者积极参与和支持评测！

更多详细信息可以参考GitHub或者访问QQ群237633234了解。