关于nlp:排除-spaCy-的部分组件qbit

36次阅读

共计 585 个字符,预计需要花费 2 分钟才能阅读完成。

前言

  • 官网文档:https://spacy.io/usage/spacy-101
  • spaCy GitHub:https://github.com/explosion/…
  • 本文环境

    Windows 10
    Python 3.8.10
    spaCy 3.4.2
  • spcCy 的组件很多,有时咱们并不需要全副组件,能够排除掉一些

办法

  • spaCy 内置组件清单:https://spacy.io/usage/proces…
  • 查看默认组件

    >>> spaNLP = spacy.load("zh_core_web_sm")
    >>> spaNLP.pipe_names
    ['tok2vec', 'tagger', 'parser', 'attribute_ruler', 'ner']
  • 比方只须要词性标注,能够排除其余组件

    >>> spaNLP = spacy.load("zh_core_web_md", exclude=['parser', 'ner'])
    >>> spaNLP.pipe_names
    ['tok2vec', 'tagger', 'attribute_ruler']
    >>> doc = spaNLP('考察显示:PDA 性能金玉其外; 败絮其中')
      for token in doc:
          print(token.pos_, token.text)
    NOUN 考察
    VERB 显示
    PUNCT:NOUN PDA
    NOUN 性能
    VERB 金玉其外; 败絮其中 

本文出自 qbit snap

正文完
 0