1. 机器学习
EDA
- lantern
特征工程
- yellowbrick
- Featuretools
模型解释
- SHAP
- Lime
通用
- Scikit-learn
自动化机器学习
- mljar-supervised
2. 统计方法
通用
- StatsModels:通用概率派
- Scipy:含常见分布、统计量计算
-
pyro:基于
pyTorch
的通用统计模型库 -
Edward:基于
tensorflow
的通用统计模型库
贝叶斯
-
PyStan:贝叶斯模型 (
stan
实现) -
pymc3/pymc4(还在 pre-release 版本):贝叶斯模型 (
theano
/tensorflow
实现)
3. 特殊算法集
时间序列
- pyflux:实现常用时间序列模型
- Prophet:基于强解释的 GAM(线性可加模型)
生存模型
- Lifetimes
聚类
- hdbscan
网络
- networkX
GBM
- CatBoost:对类别变量比较友好
- xgboost
- LightGBM
4. 可视化
- plotnine
- Seaborn
- plotly
- altair
5. NLP
通用
- spaCy
- nltk
主题模型
- gensim
常用 Embedded 集
- fastText
6. ETL
- bubbles
7. 因果推理
- DoWhy
8. 符号运算
- SymPy