摘要:这些 python 库真“冷”,但真的很强大!
Python 是一种神奇的语言。事实上, 它是近几年世界上发展最快的编程语言之一,它一次又一次证明了它在开发工作和数据科学立场各行业的实用性。整个 Python 系统和库是对于世界各地的用户 (无论是初学者或者高级) 都是一个恰当的选择。其成功和受欢迎的原因之一是它强大的库,这些库使其具有动态性和快速性。
在本文中, 我们将看到一些除了常用的像 pandas、scikit-learn、matplotlib 之外的数据科学任务的 Python 库。虽然一看见像 pandas,scikit-learn 这些库就让人脑子浮现出机器学习任务, 但了解并学习这个领域的其他 python 库总归是有益的。
1、Wget
从网页提取数据是数据科学家的重要任务之一。Wget 是一个免费的非交互性的从网上下载文件的实用工具。它支持 HTTP、HTTPS 和 FTP 协议, 以及通过 HTTP 代理检索。因为它是非交互性的, 所以即使用户没有登录,也可以在后台工作。所以下次你想下载一个网站或页面的图片,wget 可以帮助你。
安装:
$ pip install wget
例子:
import wget url = ‘http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3’ filename = wget.download(url) 100% […………………………………………] 3841532 / 3841532 filename ‘razorback.mp3′
2、Pendulum
对于那些在 python 中使用日期时间感到沮丧的,可以使用 Pendulum。它是一个 python 包,可以缓解日期时间操作,是一个 python 的原生类替代。如果想深入了解请参考该文档。
安装:
$ pip install pendulum
例子:
import pendulum dt_toronto = pendulum.datetime(2012, 1, 1, tz=’America/Toronto’) dt_vancouver = pendulum.datetime(2012, 1, 1, tz=’America/Vancouver’) print(dt_vancouver.diff(dt_toronto).in_hours()) 3
3、imbalanced-learn
我看到过大多数分类算法效果, 每个类的样本数量几乎是相同的,如 balanced。但是现实生活情况下大部分是不平衡数据集,它会影响学习阶段和随后的机器学习算法的预测。幸运的是, 创建了这个 imbalanced 库来解决这个问题。它兼容了 scikit-learn 并且是 scikit-learn-contrib 项目的一部分。当下次遇到不平衡数据集,可以尝试使用这个库。
安装:
pip install -U imbalanced-learn #or conda install -c conda-forge imbalanced-learn
例子:
用法和例子请参考文档。
4、FlashText
NLP 任务中清理文本数据常常需要在句子中换关键字或从句子中提取关键字。通常,这些操作可以用正则表达式来完成,但如果搜索方面遇到了数以千计的数量,可能会成为麻烦。Python 的 FlashText 模块, 该模块基于 FlashText 算法提供了恰当的替代等情况。FlashText 最好的部分是运行时间与搜索词的数量无关,你可以在这里了解更多。
安装:
$ pip install flashtext
例子:
提取关键字
from flashtext import KeywordProcessor keyword_processor = KeywordProcessor() # keyword_processor.add_keyword(<unclean name>, <standardised name>) keyword_processor.add_keyword(‘Big Apple’, ‘New York’) keyword_processor.add_keyword(‘Bay Area’) keywords_found = keyword_processor.extract_keywords(‘I love Big Apple and Bay Area.’) keywords_found [‘New York’, ‘Bay Area’]
替代关键字
keyword_processor.add_keyword(‘New Delhi’, ‘NCR region’) new_sentence = keyword_processor.replace_keywords(‘I love Big Apple and new delhi.’) new_sentence ‘I love New York and NCR region.’
5、Fuzzywuzzy
这个名字听起来确实很奇怪, 但在处理字符串匹配时,fuzzywuzzy 是一个非常有用的库,可以轻松实现操作, 比如字符串比较比率, 令牌比率等。它也方便匹配保存在不同数据库的记录。
安装:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzz from fuzzywuzzy import process # Simple Ratio fuzz.ratio(“this is a test”, “this is a test!”) 97 # Partial Ratio fuzz.partial_ratio(“this is a test”, “this is a test!”) 100
可以在 GitHub repo 找到更多有趣的例子。
6、PyFlux
时间序列分析是机器学习领域最常见的问题之一。PyFlux 是一个在 Python 中为了时间序列问题而建立的开源库。该库有一个良好的现代时间序列模型包括但不限于 ARIMA、GARCH 和 VAR 模型。简而言之,PyFlux 针对时间序列建模提供了一种概率方法,值得一试。
安装:
pip install pyflux
例子:
用法例子请参考相关文档。
7、Ipyvolume
结果可视化是数据科学的一个重要方面。能够可视化结果具有很大的优势。IPyvolume 是一个 Python 库,只需最少的配置和精力就可以在 Jupyter notebook 中可视化 3d 体积和字形(例如 3d 散点图)。但是,它目前处于 1.0 之前的阶段。一个很好的比喻是这样的:IPyvolume 的 volshow 是 3d 数组而 matplotlib 的 imshow 是 2d 数组。你可以在这里读更多关于它的内容。
安装:
Using pip $ pip install ipyvolume Conda/Anaconda $ conda install -c conda-forge ipyvolume
例子:
动画
立体渲染
8、Dash
Dash 是一个用于构建 Web 应用程序的高效 Python 框架。它写在 Flask,Plotly.js 和 React.js 之上,并将现有的 UI 元素(如下拉列表,滑块和图形)与你的分析 Python 代码联系起来,而无需使用 javascript。Dash 非常适合构建数据可视化应用程序,然后可以在 Web 浏览器中呈现这些应用程序。用户指南可在此处访问。
安装
pip install dash==0.29.0 # The core dash backend pip install dash-html-components==0.13.2 # HTML components pip install dash-core-components==0.36.0 # Supercharged components pip install dash-table==3.1.3 # Interactive DataTable component (new!)
例子
下面的示例显示了下拉表的高度交互式图形。当用户在下拉列表中选择一个值时,应用程序代码会将 Google 财经中的数据动态导出到 Pandas DataFram 中。
源代码
9、Gym
OpenAI 的 Gym 是一个用于开发和比较强化学习算法的工具包。它与任何数值计算库兼容,如 TensorFlow 或 Theano。Gym 库是测试问题的必要集合,也称为环境 – 你可以使用它来训练强化学习算法。这些环境具有共享接口,允许编写通用算法。
安装
pip install gym
例子
以下是运行环境 CartPole-v0 中 1000 个步骤的实例的例子,在每个步骤渲染环境。
你可以在这里了解更多的环境。
结论
这些是我选的对于数据科学有用的 python 库,而不是常见的如 numpy,pandas 等。如果你知道可以添加到列表中的其他库,请在下面的评论中提及。别忘了尝试一下。
本文作者:【方向】阅读原文
本文为云栖社区原创内容,未经允许不得转载。