关于nlp:NLP应用于司法系统综述

司法人员常常思考应用 rule-based 和 symbol-based 办法解决工作，NLP 研究者次要思考 data-driven 和 embedding 办法。

在这篇文章中就次要探讨 Legal AI 的历史、现况、和将来的钻研方向。

进行了一些试验来对现有的工作进行更有深度的剖析，剖析他们的优缺点，并揭示一些将来的钻研方向。

可解释性强的 symbolic models 的效率不高，embedding-methods 有更好的性能，但通常没有好的解释性，在一些道德相干的问题上有比拟大的问题：经典性别和种族偏见。

咱们总结了 symbol-based methods 和 embedding-based 办法独特面临的三个次要的挑战：

常识建模（Knowledge Modeling）。因为司法文本格式化水平好（well formalized）有很多的 domain 常识和概念。用好这些 knowledge 很重要。
司法推理（Legal Reasoning）。LegalAI 必须严格遵循法律条文。因而联合事后定义的规定和 AI 技术对于司法推理就十分重要。
可解释性（Interpretability）。

本文的钻研奉献次要如下：

从 NLP 研究者和司法人员两个角度，来形容现存的工作。
形容三个经典的利用，包含裁决预测（judgment prediction），类似案件匹配（similar case matching）和司法问题答复（legal question answering）来强调为什么这两种办法对于 LeaglAI 比拟重要。
在多个数据集上进行了沉重的试验，来揭示怎么利用 NLP 技术和司法常识去克服 LegalAI 中的挑战。这些实现能够在 github 上找到。https://github.com/thunlp/CLAIM
总结了 LegalAI 数据集，能够被看作是 benchmark。数据集在 github 中颁布，还有一些比拟有浏览价值的司法 paper。https://github.com/thunlp/LegalPapers

字和词嵌入很重要。

间接从司法案情形容中学习出业余词汇很艰难。为了克服这种艰难，能够同时捕获 语法信息 和司法常识。

knowledge graph methods 在司法畛域很有前景，然而在理论应用之前，还是有两个次要的挑战：

结构 LegalAI 的常识图谱（knowledge graph）很简单。很多状况下，没有提前制作好的 knowledge graph 能够应用，研究者须要从零开始构建。另外，有一些不同的司法概念在不同的国家里有不同的涵义。一些研究者尝试去嵌入（embed）司法词典，这是一种可替换的办法。
一个泛化水平高的司法常识图谱在模式上和其余常常在 NLP 中应用的常识图谱不太一样。现有的常识图谱关怀实体（entity）和概念（concept）之间的关系（relationship），但 LegalAI 更多地专一于解释司法概念。

这两种挑战让 LegalAI 通过 embedding 进行常识建模不平庸（non-trivial）。研究者在将来会尝试去克服这些艰难。

预训练的语言模型（Pretrained language model，PLM）比方 BERT，最近集中于很多 NLP 的畛域。鉴于预训练模型的胜利，在 LegalAI 中应用预训练模型是一个很正当很间接的抉择。然而在司法文本中，这里还有一些不同，如果间接应用这些 PLM 会导致不好的性能。这些不同就来自于司法文本中所蕴含的术语和常识。为了解决这些问题，Zhong(2019)提出了一个中文司法文档的预训练模型，包含民事和（civil）刑事（criminal）案件的文档。针对司法畛域设计的 PLM 给 LegalAI 工作提供了一个更有品质的 baseline 零碎。咱们在试验中比照不同的 BERT 模型利用于 LegalAI 工作。

对于在将来摸索 LegalAI 中的 PLM，研究者能够把指标放在整合 knowledge 进入 PLM。整合 knowledge 进入预训练模型能够帮忙推理司法概念之间。很多工作曾经做了，去把 general domain 融入模型。

symbol-based methods 也被叫做 structured prediction methods。

符号化的司法常识包含：事件（events）和关系（relationship），这些能够提供可解释性。

深度学习办法能够用于进步 symbol-based methods 的性能。

信息提取（information extraction，IE）曾经被宽泛地在 NLP 中被钻研。IE 强调从文本中提取有价值的信息，一些技术比方：实体辨认（entity recognition），关系提取（relation extraction），事件提取（event extraction）。

为了更好的应用司法文本，研究者尝试应用本体论（ontology）或者寰球一致性（global consistency）在 LegalAI 的命名实体辨认（named entity recognition）工作中。为了从司法文本中提取关系和事件，研究者尝试去应用不同的办法，包含：人工规定（hand-crafted rules），CRF（不晓得这是啥），联结模型比方 SVM，CNN，GRU，或者（scale-free identifier network）（不晓得这是啥）。

现存的工作曾经做出了很大致力去改善 IE 的成果，但咱们须要跟多的注意力放在怎么好好利用这些提取进去的信息。这些提取进去的符号有司法根底（legal basis）而且能够对司法利用提供可解释性。所以咱们不能只把指标定在办法的性能。在这里咱们展现两个利用提取出的符号来进步 LegalAI 可解释性的例子：

关系提取和继承纠纷（Relation Extraction and Inheritance Dispute）。继承纠纷是一种民事案件中的类型，专一于继承势力的调配。因而，辨认出相干人的关系至关重要，谁和死者（the deceased）关系更近谁就能分得更多的财产（assets）。在继承纠纷中，关系提取就提供了裁决后果的利用，也能够基于这一点优化性能。
关系工夫线提取和刑事案件裁决预测（Event Timeline Extraction and Judgment Prediction of Criminal Case）。在刑事案件中，个人立功常常设计多方。为了决定谁应该对这个刑事案件付次要责任，咱们须要确定所有人在整个案件中都干了什么，以及这些工夫的程序也很要害。比方，群殴事件中，谁最先开打须要承当次要责任。

在将来的工作中，咱们须要更多留神，利用提取的信息在 LegalAI 工作中。这些信息的利用取决于特定工作的要求，而且这些信息能够提供更多的可解释性。

除了 NLP 中的独特的 symbol，LegalAI 有独有的 symbol，称作 legal elements。提取 legal element 专一于提取一些要害元素，比方：某个人是不是被杀了，或者某个货色是不是被偷了。这些元素是犯罪活动（crime）的根本组成元素，而且咱们能够基于这些元素，间接给犯罪者定罪。利用这些元素，不仅能够给裁决预测工作带来间接的监管信息，而且能够让模型的预测后果更加可解释。

从这个例子能够看出，提取元素能够决定裁决后果。这些元素对于上游工作很有用。

为了更深度剖析基于元素的 symbol，Shu(2019)结构了用于提取元素的三个数据集：离婚纠纷，劳工纠纷，贷款纠纷。这些数据集须要咱们检测相干元素是否被满足，并把这个工作规范化为一个多标签的分类工作。为了展现现存办法在 element extraction 上的性能，咱们进行了一系列试验，如下表格所示。

咱们实现了 NLP 中几个经典的 encoding 模型，为了测验 elemetnt extraction。包含 TextCNN，DPCNN，LSTM，BiDAF，BERT。咱们用了两种不同的 BERT 预训练参数（原始 BERT、用中文司法文档训练的 BERT：BERT-MS）。从这个后果中能够看到，在宽泛畛域（general domain）上的预训练模型成果不如在特定畛域（domain-specific）训练的预训练模型，这就是在 LegalAI 中推动 PLM 的必要性。paper 的以下局部，咱们就会应用在 legal documents 上预训练的 BERT 来达到一个更好的体现。

从目前的 element extraction 的后果来看，现存的办法曾经达到了一个很好的性能，然而在相干的利用上依然不够。这些元素能够被看作是事后定义好的 legal knowledge 并且帮忙上游工作。怎么改善 element extraction 也是须要进一步钻研。

介绍几个典型的利用：

Legal Judgment Prediction

Similar Case Matching

Legal Question Answering

Legal Judgment Prediction 和 Similar Case Matching 能够看作民事法律（Civil Law）和普通法系（Common Law System，英美法系，普通法系）裁决的外围性能。Legal Question Answering 能够给不懂法律的人提供咨询服务。因而探索这三个工作能够基本上涵盖 LegalAI 的大部分方面。

Legal Judgment Predction（LJP）在民事法律体系中很中国要。在民事法律体系中，裁决后果是基于事实和法律条文。LJP 次要关怀怎么通过 事实形容 和民法中 相干条文，来预测裁决后果。

上面将介绍 LJP 方面的研究进展，和将来的钻研方向。

晚期的工作包含：应用统计和数学方法在特定场景下剖析司法案件。同时联合数学方法和司法规定让预测后果具备可解释性。

为了 LJP 的停顿，Xiao(2018)提出了一个大规模的重温刑事判决预测数据集，C-LJP。这个数据集蕴含 2.68 million 个司法文档，是一个 LJP 的无效的 benchmark。C-LJP 蕴含三个子工作：相干文章 relevant articles，利用的指控 applicable charges，刑期 term of penalty。前两个能够被 formalize 为多标签分类工作，最初一个是回归工作。英文的 LJP 也有，然而规模比拟小。

随着 NLP 倒退，研究者开始思考在 LJP 中应用 NLP 工作。这些工作能够分为两个次要方向：1. 应用更新的模型进步性能：Chen(2019)用门机制进步预测刑期（term of penalty）的性能，Pan(2019)提出应用多尺度（multi-scale）的 attention，来解决含有多个原告的案件。除此之外，其余的研究者探索怎么应用 legal knowledge 和 LJP 的一些属性。Luo(2017)在 fact 和 law articles 之间应用 attention 来帮忙预测可利用的指控（applicable charges）。Zhong(2018)应用拓扑图来利用不同 LJP 不同工作之间的关系。Hu(2018)整合了是个可辩别的（discriminative）司法属性（legal attributes）来帮忙预测低频率的指控。

一系列在 C -LJP 上的试验

咱们实现了几个经典的文本分类模型：TextCNN，DPCNN，LSTM，BERT（在中文刑事案件上预训练的 BERT）
实现了几个为了 LJP 特定设计的模型：FactLaw，TopJudge，Gating Network。

试验后果：

能够看到很多模型在预测高频率指控（high-frequency charges）和文章（articles）中达到了很好的性能。然而在低频率的标签上体现不好，体现为 micro-F1 和 macro-F1 之间有很大的差距。

micro-F1：实用于多分类不均衡，若数据极度不均衡会影响后果；
macro-F1：实用于多分类问题，不受数据不均衡影响，容易受到识别性高（高 recall、高 precision）的类别影响；

Hu(2018)展现了把 few-shot learning 利用于 LJP。然而他们的模型须要额定的人工增加一些属性信息，这就导致很吃力，而且难以在其余的数据集上利用。除此之外，咱们发现 BERT 的性能不够好，因为在一些模型参数较少的模型上没有什么晋升。次要的起因是司法文本的长度个别较长，然而 BERT 最长的文本长度是 512。依据统计数据，最长的司法文本长度是 5w 多字，15% 文档场都超过了 512。因而 LJP 须要一些文本了解（document understanding）和推理技术（reasoning technique）。

尽管 embedding-based 办法曾经有很好的成果了，然而在 LJP 中咱们须要联合 embedding-based 和 symbol-based。拿 TopJudge 作为一个例子，这个模型规范化 LJP 工作中（symbol-based part）的拓扑序，并应用 TextCNN 用于编码 fact description。（有点好奇这个 TopJudge 里是怎么通过 symbol-based 搞一个拓扑序的？对模型是怎么样有用的。）通过联合 symbol-based 和 embedding-based，TopJudge 达到了一个很好的成果。通过比照 TextCNN 和 TopJudge 能够发现加 judgements 的程序（order）能够晋升性能。

为了更好的 LJP 性能。一些挑战须要研究者来摸索：

文档了解和推理（Document understanding reasoning）：须要这个技术来从超长的 legal text 中开掘全局信息（global information）
小样本学习（few-shot learning）：低频率的指控也不能被忽视，因为这是司法完整性（legal integrity）的一部分。
可解释性（interpretability）：咱们要去了解这些模型怎么去做出了这些决策。现存的 embedding-based 办法都像一个黑盒。咱们不晓得哪些因素影响决策后果的状况下，就可能引入不偏心和道德因素，比方性别偏差。退出 legal symbol 和 knowledge 能够改善 LJP 的可解释性。

在应用 Common Law System（这如同能够解释为卷宗法律零碎，通过类似的案件来判案）的国家中，比方美国，加拿大，印度，裁决决策是通过类似案件和有代表性的（representative）案件来进行的。因而，怎么辨认出类似的案件，时 Common Law System 中所最须要的。

为了更好的预测 Common Law System 的裁决后果，Similar Case Matching（SCM）成了 LegalAI 的一个重要的话题。SCM 中对于类似度（similarity）的定义也是多种多样。SCM 须要从不同的信息粒度（information of different granularity）来建模（modeling）案件之间的关联（relationship），比方事实级别（fact-level），事件级别（event-level），和元素级别（element-level）。换一种话说，就是 SCM 是语义匹配的一种非凡模式（semantic matching），这个对于提取司法信息（legal information retrieval）有帮忙。

传统的 IR 办法集中于应用统计办法来掂量 term-level 的相似性，比方 TF-IDF。除此之外，其余研究者还尝试利用元信息（meta-information），来捕获语义类似度。许多机器学习办法也被利用于 IR，比方 SVD 或者矩阵合成（factorization），随着深度学习倒退，多层感知机（multi-layer perceptron），CNN，RNN 也被利用于 IR。

曾经有一些 LegalIR 的数据集：COLIEE，CaseLaw，CM。COLIEE 和 CaseLaw 都被用于从大的语料库中提取最相干的文章。CM 中的数据样例提供了三个司法文档用于计算类似度。这些 dataset 都提供了一个 benchmark。许多研究者专一于建设易用的司法搜索引擎（legal search engine，司法版 google）。

以计算语义级别（semantic-level）的类似度为指标，深度学习办法被用于 LegalIR。Tran(2019)提出了一个 CNN-based model，联合了文档级别（document-level）和句子级别（sentence-level）的池化（pooling），在 COLIEE 上达到了 SOTA 的成果。

为了对以后的 LegalIR 停顿有一个更好的了解视角，咱们应用 CM(Xiao 2019)来进行试验。CM 蕴含 8964 个三元组，每个三元组蕴含三个司法文档（A, B, C）。CM 的工作就是分辨出 B 和 C 哪个更靠近 A。咱们实现了几个不同类型的 baseline：

term-matching methods：TF-IDF
siamese network with two parameter-shared encoders（孪生网络）：TextCNN，BiDAF，BERT 和一个间隔函数（distance function）？
semantic matching models
1. in sentence level：ABCNN，
2. in document level：SMASH-RNN

咱们发现，可能捕获语义信息的模型性能超过了 TF-IDF，然而利用到 SCM 还不够。如 Xiao(2019)所说，次要的起因是司法人员认为数据集中的 elements 定义了司法案件之间的类似度。司法人员会比拟看重两个案件是否有相干的元素（elements）。只思考 term-level 和 semantic-level 的类似度是不足够的。

更深的 SCM 钻研有以下几个方向须要致力：

元素级别的示意（Elmental-based representation）：研究者能够更多的专一到司法文档中的 symbol，因为司法案件之间的类似度是和 symbol 相干的，比方 elements。
常识合并（Knowledge incorporation）：因为 semantic-level matchin 对于 SCM 是不足够的，咱们须要思考整合司法信息进入 model 来进步性能和提供可解释性。

Legal Question Answering（LQA）：司法方面的问答零碎。

司法业余人员的一个很重要的工作是向不懂法的人提供牢靠的、高质量的司法咨询服务。

LQA 中，问题的模式会有比拟大的变动：有的问题强调对于司法概念的解释，有的问题次要思考对于特定案件的剖析。另外，从业余人员和非专业人员口中表白业余词汇可能会有差异。这些问题给 LQA 带来了很多挑战。

LegalAI 中有很多数据集，Duan(2019)提出 CJRC，一个司法浏览了解数据集，和 SQUAD 2.0 有类似的格局，包含 span extraction（不懂），yes/no questions，unanswerable questions。另外 COLIEE 蕴含 500 个 yes/no questions。另外，律师资格考试（bar exam）对于律师来说是一个很重要的考试，因而律师资格考试数据集会比拟难，因为须要业余的司法常识和技能。

除了这些数据集之外，研究者还用了很多办法在 LQA 上。rule-based systems 在晚期的钻研中效果显著。为了更好的性能，研究者利用更多的信息，比方概念解释（explanation of concepts）或者把相干文档格式化为图（formalize relevant documents as graph）来帮忙推理。机器学习和深度学习办法比方 CRF，SVM，CNN 也用于 LQA。然而，大多数现存办法只在小数据集上进行了试验。

咱们抉择 JEC-QA 来作为试验的数据集，因为这是从律师资格考试中收集到的最大的数据集，保障他的艰难水平。JEC-QA 蕴含了 28641 个多项抉择、多项答复问题，还蕴含了 79433 个相干的文章来帮忙答复问题。JEC-QA 把问题分为常识驱动问题（knowledge-driven questions, KD-Questions）和案件剖析问题（case-analysis questions），并且提供了人类的体现。咱们实现了几个有代表性的 QA 模型，包含 BiDAF、BERT、Co-matching、HAF，这些试验后果在表 6 中出现。

比照发现，这些模型不能在答复这些司法问题上跟答复 open-domain 的问题时有一样好的成果。在 LQA 上，模型和人类之间有微小的差距。

为了有更好的 LQA 办法，这里有几个艰难须要克服：

司法多段跳推理（Legal multi-hop reasoning）：司法案件太简单，不能用单步推理。
司法概念了解（Legal concepts understanding）：大多数模型绝对于进行 常识了解 ，在 案件剖析 上体现更好，这证实了只是建模对于现存办法仍具备挑战性。怎么在 LQA 中对司法常识建模很要害，因为司法常识是 LQA 的根底。

除了这篇文章中的，还有其余的 LegalAI 工作：司法文献概述（legal text summarization），从司法合同中进行信息提取（information extraction from legal contracts）。不管怎样，咱们都可能利用 embedding-based 办法来进步性能，联合 symbol-based 办法进步可解释性。

三个次要的挑战：

常识建模：Knowledge modelling
司法推理：legal reasoning
可解释性：interpretability

将来的研究者能够次要联合 embedding 办法和 symbol 办法解决这三个挑战。

对于一些工作，还没有数据集，或者数据集不够大。咱们能够尝试构建规模大、品质高的数据集，或者应用 few – shot / zero – shot learning 办法来解决这些问题。

关于nlp:NLP应用于司法系统综述

How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence

Abstract

2 Embedding-based Methods

2.1 Character, Word, Concept Embeddings

2.2 Pretrained Language Models

3. Symbol-based Methods

3.1 Information Extraction

3.2 Legal Element Extraction

4 Applications of LegalAI

4.1 Legal Judgment Prediction

相干工作

试验和剖析

4.2 Similar Case Matching

相干工作

试验和剖析

4.2 Legal Question Answering

相干工作

试验和剖析

5 Conclusion

Just My Socks（注册教程内含优惠码）

关于nlp:NLP应用于司法系统综述

How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence

Abstract

2 Embedding-based Methods

2.1 Character, Word, Concept Embeddings

2.2 Pretrained Language Models

3. Symbol-based Methods

3.1 Information Extraction

3.2 Legal Element Extraction

4 Applications of LegalAI

4.1 Legal Judgment Prediction

相干工作

试验和剖析

4.2 Similar Case Matching

相干工作

试验和剖析

4.2 Legal Question Answering

相干工作

试验和剖析

5 Conclusion

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）