前言

  • 官网文档:https://spacy.io/usage/spacy-101
  • spaCy GitHub:https://github.com/explosion/...
  • 本文环境

    Windows 10Python 3.8.10spaCy 3.4.2
  • spcCy 的组件很多,有时咱们并不需要全副组件,能够排除掉一些

办法

  • spaCy 内置组件清单:https://spacy.io/usage/proces...
  • 查看默认组件

    >>> spaNLP = spacy.load("zh_core_web_sm")>>> spaNLP.pipe_names['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'ner']
  • 比方只须要词性标注,能够排除其余组件

    >>> spaNLP = spacy.load("zh_core_web_md", exclude=['parser', 'ner'])>>> spaNLP.pipe_names['tok2vec', 'tagger', 'attribute_ruler']>>> doc = spaNLP('考察显示:PDA性能金玉其外;败絮其中')  for token in doc:      print(token.pos_, token.text)NOUN 考察VERB 显示PUNCT :NOUN PDANOUN 性能VERB 金玉其外;败絮其中
本文出自 qbit snap