前言
用过Pandas的都知道,数据大了后,处理很慢。so, modin在Pandas基础上封装一层透明壳。
并且依赖ray能实现多进程pandas操作。
特色:一行代码实现Pandas加速。。。
安装依赖环境
原生windows(不支持)
WSL(支持)
WSL就是 (Windows Sub Linux) windows内嵌的linux子系统,自行百度
sudo pip3 install psutil
sudo pip3 install setproctitle
pip install modin[ray
WSL 不建议接触,我是感觉没啥用。(小心你的C盘~~~)
除非你Aliyun, TencentCloud, VirtualBox, VMWare,都懒得用。。。
Linux/kaggle(支持)
modin 依赖 ray (所以用了pip的 [] 语法): 一条命令即可
pip install modin[ray]
不了解pip新鲜语法的,可以见官档: https://pip.pypa.io/en/stable…
MacOS(支持,买不起)
导入
import ray
import modin.pandas as pd
# 这个导入很眼熟不, 没错,就是 多了个 "modin.", 用法和原生pandas没什么区别
使用
ray.init(num_cpus=4, ignore_reinit_error=True)
# 第一个参数充分利用4核CPU。
# 第二个参数 ignore_reinit_error=True, 忽略重复初始化的 而产生的报错。
# 如果不忽略,那么你用Jupyter运行时:
# 第一次会调用正常运行。
# 而之后每次重复调用就会报错。 所以这个参数最好设为True
pd.DataFrame()
...
...
按原生pandas的语法正常使用即可。。。
Modin官档
https://modin.readthedocs.io/…
发表回复