近日,由最高人民法院和中国中文信息学会为指导单位,由中国中文信息学会的社会媒体处置专委会、计算言语学专委会、信息检索专委会、言语与学问计算专委会、评测工委会共同主办,清华大学互联网司法研讨院、清华大学智能法治研讨院、南京擎盾信息科技有限公司等作为承办单位的“中国法律智能技术评测(CAIL)”圆满落下帷幕。 大赛评测委员会是由清华大学、北京大学、中国人民大学、复旦大学等众多高校、中国科学院软件研讨院、中国科学院自动化研讨院等知名科研机构以及科大讯飞、航天国政等高科技企业组成。历经五个月的猛烈角逐,经过初赛、复赛、封测、专家评选等环节的层层遴选和比拼,擎盾数据与北京大学学问计算实验室一同携手努力,荣获CAIL2022 事情检测赛道总榜第一名!司法考试赛道第二名! 可解释类案匹配赛道第四名! 关键词:什么是事情检测呢? 事情信息是法律案情的中心,而法律事情检测旨在辨认出法律案件中的事情触发词及其对应的事情类型,从而完成案件事实的快速重构,辅佐机器和人类更好天文解法律案件。本次事情检测竞赛擎盾应用了事情学问图谱的相关中心技术,其中包含prompt技术以及滑动窗口技术。同时应用了标签平滑(label smoothing),增强模型的泛化才干,使得模型不会“过度自信”。行将原先的“硬”标签与平均散布的加权平均作为新的标签用于锻炼。合理划分事情边疆,进步trigger与事情之间映射精确率。该事情检测模型共分为三步,第一个步骤是用上述技术对trigger中止检测,得到初始结果,第二个步骤是将该结果做简单的后处置得到中间结果,最后一个步骤是对中间结果做更复杂的后处置得到最终结果。与预锻炼模型相分离,我们的措施在竞赛与理想场景中都取得了出色的成果。 关键词:司法考试任务是如何出色完成的? 司法考试任务需求模型依据问题从选项中做出选择。擎盾采用了可变的阈值设计,在后处置中为每个问题寻觅适合的阈值,最后选择最好的预锻炼模型,取得了第二名的成果。 在本次任务中,擎盾运用特殊标记符号[CLS]和[SEP],拼接题目中的每个选项,并对一条数据中的一切[CLS]中止0-1分类,经过该分类来肯定正确选项。司法考试共三个步骤,第一步对原数据中止处置,拼接问题与答案。第二部后处置,寻觅每个问题适合的答案阈值。第三步数据分折,寻觅最好的预锻炼模型。 关键词:可解释类案匹配如何赋能案件裁判 可解释类案匹配能够为待决案件的裁判提供参考和依据,同时对匹配结果案例的可解释性有着较高的请求。可解释类案匹配的细致任务为:基于可解释类案匹配数据集,完成待决案件与候选案件的自动匹配,并提供文书中的相关特征句作为算法匹配的可解释依据。 本次竞赛擎盾的模型经过对数据的认真剖析,分离留意力机制,取得了较好的效果。可解释类案匹配中采用了对关键句的剖析,经过分离事情提取技术,案由分类技术,对相似或不相似的案件中止分类。该模型分为三个子任务,包含关键句抽取任务,案例相似关键句任务及案例能否相似任务。 作为司法人工智能范畴的权威赛事,从2018年起,CAIL已连续举行了四届中国法律智能技术评测,先后吸收了来自海内外高校、企业和组织的近5000支队伍参赛,成为了中国法律智能技术评测的重要平台。 随着智能技术与法律需求交叉融合的不时深化,CAIL的任务设置愈加契合司法需求。从CAIL 2018的三个任务到CAIL 2021设置了阅读了解、类案检索等七个任务也不难看出,任务难度正在逐年升级。 CAIL 2022一共设置了八个任务(如图),同时将提供海量司法文书数据作为数据集。任务中技术测评包含了8000+份文书,60000+个句子。 法律智能研讨旨在赋予机器了解法律文本的才干。自然言语处置技术的不时突破,如何将人工智能技术应用在司法范畴,辅助司法工作者提升案件处置的效率和公正性,逐步成为法律智能研讨的热点。 云与聪慧法律BU技术总监肖熊锋表示:我司近两年来同北京大学中止了深层次的技术协作,相关技术成果也应用于公司各产品线;本次竞赛也是中关村团队分离北京大学学问计算实验室将部分法律效劳技术应用的成果之一,等候双方能够有更多更好的技术交流及协作! 此次大赛取得优秀成果是司法行业和千万用户对擎盾数据在司法范畴付出的努力高度认可,擎盾将继续为法律事业赋能科技力气,不忘初心,肩负任务,打造最强法律大脑,让法律触手可及! |