Awesome-Data-Science-in-Python-一文整理Python常用数据科学第三方模块

23次阅读

共计 493 个字符,预计需要花费 2 分钟才能阅读完成。

1. 机器学习

EDA

  • lantern

特征工程

  • yellowbrick
  • Featuretools

模型解释

  • SHAP
  • Lime

通用

  • Scikit-learn

自动化机器学习

  • mljar-supervised

2. 统计方法

通用

  • StatsModels:通用概率派
  • Scipy:含常见分布、统计量计算
  • pyro:基于 pyTorch 的通用统计模型库
  • Edward:基于 tensorflow 的通用统计模型库

贝叶斯

  • PyStan:贝叶斯模型 (stan 实现)
  • pymc3/pymc4(还在 pre-release 版本):贝叶斯模型 (theano/tensorflow 实现)

3. 特殊算法集

时间序列

  • pyflux:实现常用时间序列模型
  • Prophet:基于强解释的 GAM(线性可加模型)

生存模型

  • Lifetimes

聚类

  • hdbscan

网络

  • networkX

GBM

  • CatBoost:对类别变量比较友好
  • xgboost
  • LightGBM

4. 可视化

  • plotnine
  • Seaborn
  • plotly
  • altair

5. NLP

通用

  • spaCy
  • nltk

主题模型

  • gensim

常用 Embedded 集

  • fastText

6. ETL

  • bubbles

7. 因果推理

  • DoWhy

8. 符号运算

  • SymPy
正文完
 0