关于人工智能:spaCy教程学习

spaCy教程学习

作者|PRATEEK JOSHI
编译|VK
起源|Analytics Vidhya

介绍

spaCy是我的自然语言解决（NLP）工作的必备库。我冒昧地说，大多数专家都是这样！

现在，在泛滥的NLP库中，spaCy的确自成一家。如果你在NLP上用过spaCy，你就会晓得我在说什么。如果你对spaCy的弱小性能还不相熟，你会被这个库的多功能性和灵活性所吸引。

spaCy的长处是它提供一系列低劣的个性，库也是易用的，以及库总是放弃最新。

spaCy入门

如果你对spaCy还不相熟，你应该留神以下几点：

spaCy的统计模型
spaCy的解决管道

让咱们具体讨论一下每一个问题。

spaCy的统计模型

这些模型是spaCy的外围。这些模型使spaCy可能执行一些与NLP相干的工作，例如词性标记、命名实体辨认和依存关系解析。

上面我列出了spaCy中的不同统计模型及其标准：

en_core_web_sm：英语多任务CNN，在OntoNotes上训练，大小为11 MB
en_core_web_md：英语多任务CNN，在OntoNotes上训练，并且应用Common Crawl上训练的GLoVe词嵌入，大小为91 MB
en_core_web_lg：英语多任务CNN，在OntoNotes上训练，并且应用Common Crawl上训练的GLoVe词嵌入，大小为789 MB

导入这些模型非常容易。咱们能够通过执行spacy.load(‘model_name’) 导入模型，如下所示：

import spacynlp = spacy.load('en_core_web_sm')

spaCy的解决管道

应用spaCy时，文本字符串的第一步是将其传递给NLP对象。这个对象实质上是由几个文本预处理操作组成的管道，输出文本字符串必须通过这些操作。

如上图所示，NLP管道有多个组件，如标记生成器、标签器、解析器、ner等。因而，在解决输出文本字符串之前，必须先通过所有这些组件。

让我演示如何创立nlp对象：

import spacynlp = spacy.load('en_core_web_sm')# 创立nlp对象doc = nlp("He went to play basketball")

你能够应用以下代码找出流动的管道组件：

nlp.pipe_names

输入：['tagger'，'parser'，'ner']

如果您心愿禁用管道组件并仅放弃ner的运行，则能够应用上面的代码禁用管道组件：

nlp.disable_pipes('tagger', 'parser')

让咱们再次查看流动管道组件：

nlp.pipe_names

输入：['ner']

当您只须要标记文本时，就能够禁用整个管道。标记化过程变得十分快。例如，能够应用以下代码行禁用管道的多个组件：

nlp.disable_pipes('tagger', 'parser')

spaCy实战

当初，让咱们练手。在本节中，你将学习应用spaCy执行各种NLP工作。咱们将从风行的NLP工作开始，包含词性标记、依存剖析和命名实体辨认。

1.词性标注

在英语语法中，词类通知咱们一个词的性能是什么，以及如何在句子中应用。英语中罕用的词类有名词、代词、形容词、动词、副词等。

词性标注是主动将词性标注调配给句子中所有单词的工作。它有助于NLP中的各种上游工作，如特色工程、语言了解和信息提取。

在spaCy中执行POS标记是一个简略的过程：

import spacy nlp = spacy.load('en_core_web_sm')# 创立nlp对象doc = nlp("He went to play basketball") # 遍历tokenfor token in doc:    # Print the token and its part-of-speech tag    print(token.text, "-->", token.pos_)

输入：

He –> PRON
went –> VERB
to –> PART
play –> VERB
basketball –> NOUN

因而，该模型正确辨认了句子中所有单词的POS标记。如果你对这些标记中的任何一个都不确定，那么您能够简略地应用spacy.explain()来确定：

spacy.explain("PART")

输入： ‘particle’

2.应用spaCy进行依存剖析

每个句子都有一个语法结构，通过依存句法分析，咱们能够提取出这个构造。它也能够看作是一个有向图，其中节点对应于句子中的单词，节点之间的边是单词之间的对应依赖关系。

在spaCy中，执行依存剖析同样非常容易。咱们将应用与词性标注雷同的句子：

# 依存剖析for token in doc:    print(token.text, "-->", token.dep_)

输入：

He –> nsubj
went –> ROOT
to –> aux
play –> advcl
basketball –> dobj

依存标记ROOT示意句子中的次要动词或动作。其余词与句子的词根有间接或间接的分割。通过执行上面的代码，你能够理解其余标记的含意：

spacy.explain("nsubj"), spacy.explain("ROOT"), spacy.explain("aux"), spacy.explain("advcl"), spacy.explain("dobj")

输入：

(‘nominal subject’,
None,
‘auxiliary’,
‘adverbial clause modifier’,
‘direct object’)

3.基于spaCy的命名实体辨认

首先让咱们理解什么是实体。实体是示意诸如集体、地点、组织等常见事物的信息的词或词组。这些实体具备专有名称。

例如，请思考以下句子：

在这句话中，实体是“Donald Trump”、“Google”和“New York City”。

当初让咱们看看spaCy如何辨认句子中的命名实体。

doc = nlp("Indians spent over $71 billion on clothes in 2018") for ent in doc.ents:    print(ent.text, ent.label_)

输入：

Indians NORP
over $71 billion MONEY
2018 DATE

spacy.explain("NORP")

输入：‘Nationalities or religious or political groups’

4.基于规定的spaCy匹配

基于规定的匹配是spaCy的新性能。应用这个spaCy匹配器，您能够应用用户定义的规定在文本中查找单词和短语。

就像正则表达式。

正则表达式应用文本模式来查找单词和短语，而spaCy匹配器不仅应用文本模式，还应用单词的词汇属性，如POS标记、依赖标记、词根等。

让咱们看看它是如何工作的：

import spacynlp = spacy.load('en_core_web_sm')# 导入 spaCy Matcherfrom spacy.matcher import Matcher#用spaCy词汇表初始化Matchermatcher = Matcher(nlp.vocab)doc = nlp("Some people start their day with lemon water")# 定义规定pattern = [{'TEXT': 'lemon'}, {'TEXT': 'water'}]# 增加规定matcher.add('rule_1', None, pattern)

所以，在下面的代码中：

首先，咱们导入spaCy matcher
之后，咱们用默认的spaCy词汇表初始化matcher对象
而后，咱们像平常一样在NLP对象中传递输出
在下一步中，咱们将为要从文本中提取的内容定义规定。

假如咱们想从文本中提取“lemon water”这个短语。所以，咱们的指标是water跟在lemon前面。最初，咱们将定义的规定增加到matcher对象。

当初让咱们看看matcher发现了什么：

matches = matcher(doc)matches

输入： [(7604275899133490726, 6, 8)]

输入有三个元素。第一个元素“7604275899133490726”是匹配ID。第二个和第三个元素是匹配标记的地位。

# 提取匹配文本for match_id, start, end in matches:    # 取得匹配的宽度    matched_span = doc[start:end]    print(matched_span.text)

输入：lemon water

因而，模式是一个标记属性列表。例如，“TEXT”是一个标记属性，示意标记的确切文本。实际上，spaCy中还有许多其余有用的标记属性，能够用来定义各种规定和模式。

我列出了以下标记属性：

属性	类型	形容
`ORTH`	unicode	准确匹配的文本
`TEXT`	unicode	准确匹配的文本
`LOWER`	unicode	文本小写模式
`LENGTH`	int	文本的长度
`IS_ALPHA`, `IS_ASCII`, `IS_DIGIT`	bool	文本由字母字符、ASCII字符、数字组成。
`IS_LOWER`, `IS_UPPER`, `IS_TITLE`	bool	文本是小写、大写、首字母大写格局的。
`IS_PUNCT`, `IS_SPACE`, `IS_STOP`	bool	文本是标点符号、空格、停用词。
`LIKE_NUM`, `LIKE_URL`, `LIKE_EMAIL`	bool	文本示意数字、URL和电子邮件。
`POS`, `TAG`, `DEP`, `LEMMA`, `SHAPE`	unicode	文本是词性标记、依存标签、词根、形态。
`ENT_TYPE`	unicode	实体标签

让咱们看看spaCy matcher的另一个用例。思考上面的两句话：

You can read this book
I will book my ticket

当初咱们感兴趣的是找出一个句子中是否含有“book”这个词。看起来挺含糊其辞的对吧？但这里有一个问题——只有当“book”这个词在句子中用作名词时，咱们能力找到它。

在下面的第一句中，“book”被用作名词，在第二句中，它被用作动词。因而，spaCy匹配器应该只能从第一句话中提取。咱们试试看：

doc1 = nlp("You read this book")doc2 = nlp("I will book my ticket")pattern = [{'TEXT': 'book', 'POS': 'NOUN'}]# 用共享的vocab初始化matchermatcher = Matcher(nlp.vocab)matcher.add('rule_2', None, pattern)

matches = matcher(doc1)matches

输入： [(7604275899133490726, 3, 4)]

matcher在第一句话中找到了模式。

matches = matcher(doc2)matches

输入：[]

很好！只管“book”呈现在第二句话中，matcher却疏忽了它，因为它不是一个名词。

结尾

这是一个很短的介绍，让你尝尝spaCy能做什么。置信我，你会发现自己在NLP工作中常常应用spaCy。我激励你应用这些代码，从DataHack中获取一个数据集，并应用spaCy尝试应用它。

原文链接：https://www.analyticsvidhya.c...

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/