“云”加持下,北大英华加速奔赴Legal Tech

让IaaS的归IaaS,PaaS的归PaaS。

采写|郭娟

和牛顿先后独立发明微积分的莱布尼茨,还同时钻研法学和哲学,这位德国智者,被认为是Legal Tech的开创人。

Legal Tech是什么?它指“人类想借助计算机技术和数学的应用,以使法律更易于理解、易于管理、更可预测”,1646年生的莱布尼茨就是最早研究如何用数学公式改进法律的人。【1

计算机科学大规模普及的年代,人类薪传火继,继续探索Legal Tech。2016年,在“阿尔法狗”战胜世界围棋冠军的那一刻,标着一段计算机程序,首次用深度学习的原理获胜人类,它展示出人工智能的智力进化和强大算法,也坚定了人类加速AI与各产业融合的决心。

六年过去,Legal Tech又取得了怎样的进展呢?

在亿欧智库的一则报告里,明确给出答案,“还处于基础阶段,关键技术有待突破”,法律人工智能面临两大问题,“技术和数据:自然语言理解技术在机器理解文本上还存在巨大困难;数据层面,案件文本缺乏结构化标签等”。

北大英华的技术总监杨增元也以法律领域的案例检索为例,“还未实现真正意义上的基于通篇语义的搜索”,他同时透露,北大英华在五年前就把业务往人工智能方向推进,并为此在技术团队组建了一个“人工智能研究院”,其成员来自各大知名高校,有些还有在国际大赛中获奖的履历。

到了近两年,随着业务的快速增长,北大英华初步摸索出一个法律与人工智能结合的产品——“法宝透镜”,它有点类似于“天眼查”,但更多地侧重于给企业做“合规隐患”和“涉诉风险”的快速体检。

人工智能在法律里的应用为什么这么难?

“法宝透镜”算是Legal Tech领域跑出来的一款应用,之所以会推出,是北大英华在给各企业做服务的过程中发现的强需求。

2022年伊始,我国企业开启“合规强化管理”,这一年,也被称为“企业合规年”,合规管理的实质是要求企业“依法治企”,中央早在2016年就在做试点工作,到了2022年1月18日,国资委办公厅发布《关于开展中央企业“合规管理强化年”工作的通知》,明确了2022年企业合规管理总体思路、重点任务、进度安排和工作要求等。【2

“企业的经营流程是否符合国家法规、经营是否涉及垄断、是否触碰到污染问题、存在哪些知识产权风险等,这些都属于合规隐患”,杨增元总结,“法宝透镜”通过人工智能、数据科学和可视化技术的结合,能给企业做“合规隐患”和“涉诉风险”的快速体检。

“涉诉风险”一项,适用于很多大型企业,他们对于自己的公司,尤其是子公司的诉讼情况并不完全了解,在“法宝透镜”的“透视”下,这类企业既可以全盘掌握公司里里外外的诉讼,还能通过平台寻求法律援助,例如,涉及知识产权方面的诉讼,能查出这个领域里哪些知识产权的律师比较权威,相应的判例以及法律法规等。

总之,企业经营的“事前、事中、事后”全过程,不管是合规还是涉诉,都能在“法宝透镜”里导出一个精准的法务画像,快速辅助判断企业的经营是否合规。

“法宝透镜”,是一款人工智能与搜索融合的产品,底层需要大量数据的支撑,光基础数据就有2亿企业、1.3亿公开全量司法诉讼案件、6000万个地址、2000万企业人物等,这让法宝透镜最终形成十亿级实体、千亿级关系的知识图谱体系。

“任何人工智能的应用,大数据都是根基”,法宝透镜之所以有这么好的数据基础,与北大英华多年的“深耕”相关,这家公司成立于1999年,成立之初,正是中国第一代互联网诞生的时候,与其他第一代互联网公司泛C的定位不同,北大英华一成立,就聚焦在法律与科技结合的领域,它立志“打造国内最大最先进的法律数据库,为法律专业机构和专业人士提供权威全面便利的法律信息检索服务”。

时过境迁,“在线法律数据库”的愿景早已达成,法律搜索也成为公司网站“北大法宝”的标配。目前,“北大法宝”面向C端的注册用户为100万,面向B端的服务机构达到3万家,事实上,很多企业用户,等同于一个账号由一个公司的所有人使用,所以“北大法宝的年活跃用户已经做到上千万”,杨增元透露。最新数据也显示,北大法宝全站年访问数达1.2亿次、年活跃用户数达1300万人次,日均PV近40万人次。

与很多所信息搜索起家的互联网公司一样,先“搜索”而后在人工智能领域取得长足发展,是这类公司的成长路径,前有Google,后有百度,但在法律领域,还有一道专业化的门槛掣肘它人工智能的成长速度。

以“类案同判”为例,如果有大数据、人工智能的知识图谱去支撑,“从知识图谱中挑出一些因子,最终给判决因果一种推倒,最后形成智能化的判决,这样就能提高效率”,杨增元描述的仅是一种理想状态,因为目前要在这个领域实现AI替代,尚存一定的难度。

类案同判在法律实践中早已存在,例如,法院在处理案件判决的时候,会去参照相似案例的处理方式,这样能提高判案效率。另一方面,为了让“类案”案例更具参考价值,国家相关部门还会不定期发布一些“指导性案例”。但在司法实践中,还依赖于人力寻找“类案”素材,因为搜索引擎无法实现“通篇的语义理解的精确查找”。

“如果能够有一套成熟的技术体系自动推导出结果,作为判决的参考,这应该是司法机关比较需要的服务”,杨增元预测。人工智能与法律融合才刚起步,对于北大英华来说,也在迭代搜索引擎的技术框架,这算是这家专业法律网站最基础的人工智能产品。

让IaaS的归IaaS,PaaS的归PaaS

作为早期的互联网网站,北大英华其实也有过光盘检索、搭建局域网,以及自建服务器的经历,在近年才开启上云的服务。

一开始,北大法宝是与别的云服务商合作,将之前多年的存量数据进行存储,同时支撑网站的各种业务,然而,合作了一段时间后,出现了一些新情况,让他们萌生了转移服务的想法。

约在2020年左右,北大法宝的业务量翻倍,然而网站的搜索速度却在变慢,搜索结果也没那么准确,杨增元回忆,北大法宝之前一直用的“搜索架构特别简单,因为那时的业务量不大,能够应对。”业务需求激增下,团队萌生了要寻找一个更好的搜索框架的想法。

彼时,阿里云上有一款叫做Elasticsearch(以下简称ES)的产品,它的“搜索”和“日志分析”在圈内是一款非常火的开源架构,在这个因素的推动下,北大法宝抱着试试看的心态,找到阿里云,想要尝试使用,没想到这耗时两周的试用,开启了北大英华与阿里云接下来的合作。

据阿里云ES产品的工程师曾罗回忆,北大法宝“并不是一个用户体量特别大的企业,但是它的PaaS层发展得特别快”,在业务激增的前提下,这类企业要应对的是用技术解决业务侧的问题,无暇顾及很多基础能力的研发。

在北大英华试用ES期间,阿里云判断,这应该是一个需要全托管的用户,“没必要在底层运维上花时间,其技术团队只要基于ES,就能快速开发适合北大法宝的新搜索框架。”

“从应用场景来看,北大法宝需要的是ES日志运维监管、加速数据检索、数据查询准确度等几方面的能力”,曾罗回忆,这算是ES通用的能力,针对法律领域,阿里云还为他们提供了两个专业的定制化服务:法律专业词语,以及很多与之关联的强相关场景。

在阿里云上,信息搜索这块有很多通用板块,既可用在法律领域,也能用在其他专业领域,然而北大英华的具体情况是,“它要应对搜索业务的爆发,导致其在ES工具这块,基于达摩院的NLP分词能力是它亟需的”,阿里云的王峰在接受采访时回忆。

据了解,“分词能力”是阿里云达摩院“打造世界顶级NLP技术体系”的基础,目的是“让AI没有难懂的语言”,这属于阿里云最核心、最基础的部分,也是别的云厂商欠缺的。【3

为了能够让搜索得到更好的体验,北大英华还定向优化了一些领域,包括法律法规、司法案例、期刊学术。杨增元强调,用“阿里云的分词策略做深度优化后,例如优化后的‘民法’,在搜索时,整个检索的权重就放在对应的语境里。”

就这样,北大英华基于ES重新架构搜索框架,“耗费”两个工程师,断断续续地持续两周,便完成新框架的开发。这次合作尝试下来,北大英华发现,相同的成本下,它的新搜索框架的性能达到开源效果两倍效果。

搜索框架的初合作,也让北大英华感受到,好的云服务商可以给到他们更好的IaaS基础,让其能腾出手来,做更多PaaS层的应用,于是便有了随后全业务转移到阿里云的决定。

目前,在北大英华的技术团队里,共有120余人,其中只分出5个人来对接阿里云的运维工作,“运维团队的定位比较明确,保障网络服务、硬件服务,能够稳定顺畅安全的运行,有一定的风险预知和应对能力”,杨增元解释,技术团队其他人则全身心地投入法律科技这个业务方向上,“以前我们只提供知识服务,这个阶段,用户要求提高很多,这使得我们必须增强大数据、智能研发的能力。”

Legal Tech,在路上

新搜索框架快速上线后,北大英华又采用了阿里云的HBase技术,开启了自己的数据仓库建设。随着基础能力的逐渐完善,北大英华在搭建数据仓、数据后台和数据中台的基础上,结合各种运营数据的采集、共享和分析,又陆续开发各种应用。“法宝透镜”便是在这样的背景下诞生。

杨增元称,“法宝透镜”是一款把北大英华所有能力都打通的产品,它基于综合业务,孵化而来,结合了人工智能技术、搜索技术以及图谱能力,最终形成十亿级实体、千亿级关系的知识图谱体系,可对企业、当事人、律师律所、法官法院等主体进行多维度的数据分析和知识计算,通过数据关联及可视化,帮助企业更深入的洞察和识别合规风险。

当同类的法律科技企业,在智慧法务业务上,还在以“系统集成”为主,或者用“OA管理流程研发”开展业务的时候,北大英华已在尝试用人工智能、大数据技术在打造可视化产品,这种方式也与时俱进。

因为北大英华正在服务的许多企业,正在数字化转型中,他们需要的合同、诉讼、合规等服务,相应地也要有数字化、知识化和智能化的手段跟进,“这也是北大英华智慧法务系列产品在大型央企、国企合规建设中取得竞争优势获得客户认可的原因所在”,北大英华创始人赵晓海在接受媒体采访时透露。

曾经有一次,北大英华接手了一个司法部门的培训业务,由于疫情等因素,只能通过网络的方式实现,因为服务对象属于公检法机构,公信力必然排在第一,如果在培训过程中,遭遇到网络攻击,或者被恶意篡改网上信息等,必然会反噬到公信力,因此,司法部门的这类线上培训,国家都要求做到“等级保护”。

北大法宝对于培训内容的搭建没有任何问题,因为他们专业的数据库里积累了大量的素材。但等级保护的实质,是要向国家相关部门证明其具有一定安全防护体系,北大英华最后找到了阿里云,王峰回忆,“阿里云在这方面有很多经验,除了法律领域,物流、医疗、在线教育等都会对‘等保’有要求,我们相应地有一套解决方案,把相应的产品列表给到客户,这里面选配了这些产品,保证它在整个测评过程中顺利通过,证明这套系统是安全的。”

北大法宝与阿里云再次联手,又陆续完成了民政部门、以及一些立法项目的定制化服务,“我们的总体服务对象多集中在政府类,安全性和稳定性是首要考虑的,然后要考虑便捷性,设备的环境扩容什么的,和阿里云合作,对我们的运维成本也是一种节省”,杨增元透露。

“让IaaS的归IaaS,PaaS的归PaaS”,与阿里云合作后,北大英华得以把更多精力放在法律科技业务上,并加速往人工智能方向发力,这不仅符合中央印发的《法治中国建设规划(2020-2025年)》的规定,“充分运用大数据、云计算、人工智能等现代科技手段,全面建设‘智慧法治’,推进法治中国建设的数据化、网络化、智能化”,【4】也是北大英华深耕法律科技领域多年,看到的行业趋势。

莱布尼茨开启的Legal Tech已经过去四百多年,人工智能与法律融合还在路上。(完)

原创文章,作者:新经济沸点·原创,未经授权,请勿转载。新经济沸点优质内容同步到虎嗅、钛媒体、36KR、21财经、亿邦动力、创业邦、和讯网、新浪看点、微博、搜狐、网易、一点资讯、百度百家、今日头条等平台。

发表评论

登录后才能评论