关于人工智能:在Python中创建文字云或标签云

作者|ISHA5
编译|Flin
起源|analyticsvidhya

介绍

从开始从事数据可视化工作的那一天起，我就爱上它了。我总是喜爱从数据中取得有用的见解。

在此之前，我只理解根本图表，例如条形图，散点图，直方图等，这些根本图表内置在tableau中，而Power BI则用于数据可视化。通过每天实现此工作，我遇到了许多新图表，例如径向仪表盘，华夫图等。

因而，出于好奇，最近我正在搜寻数据可视化中应用的所有图表类型，这些词云引起了我的留神，我发现它十分乏味。直到现在，看到这个词云图像迫使我认为这些只是随机排列的图像，这些单词是随机排列的，然而我错了，而且所有都从这里开始。之后，我尝试应用Tableau和Power BI中的大量数据制作词云。在胜利尝试之后，我想通过编写条形图，饼图和其余图表的代码来尝试应用它。

词云是什么？

定义：词云是一个简略但功能强大的可视化示意对象，用于文本处理，它以更大，更粗的字母和不同的色彩显示最罕用的词。单词的大小越小，重要性就越小。

标签云的用处

1）社交媒体上的热门标签（Instagram，Twitter）：全世界，社交媒体都在寻找最新更新的趋势，因而，咱们能够获取人们在其帖子中应用最多的标签。

2）媒体中的热门话题：剖析新闻报道，咱们能够在头条新闻中找到关键字，并提取出前n个需要较高的主题，并取得所需的后果，即前n个热门媒体主题。

3）电子商务中的搜索词：在电子商务购物网站中，网站所有者能够制作被搜寻次数最多的购物商品的词云。这样，他就能够理解在特定期间内哪些商品需求量很大。

让咱们开始在python中编码以实现这种词云

首先，咱们须要在jupyter notebook中装置所有库。

在python中，咱们将装置一个内置库wordcloud。在Anaconda命令提示符下，输出以下代码：

pip install wordcloud

如果你的anaconda环境反对conda，请输出：

conda install wordcloud

尽管，这能够间接在notebook自身中实现，只需在代码的结尾增加“!”即可。

像这样：

!pip install wordcloud

当初，在这里，我将生成领有任何主题的维基百科文本的词云。因而，我将须要一个Wikipedia库来拜访Wikipedia API，能够通过在anaconda命令提示符下装置Wikipedia来实现，如下所示：

pip install wikipedia

当初咱们还须要其余一些库，它们是numpy，matplotlib和pandas。

截至目前，咱们须要的库就装置好了

import wikipedia

result= wikipedia.page("MachineLearning")
final_result = result.content
print(final_result)

机器学习维基百科页面的输入：

上图是咱们通过检索Wikipedia的机器学习页面取得的输入的图像。在那里，咱们还能够看到它能够向下滚动，这示意将检索整个页面。

在这里，咱们还能够通过摘要办法失去页面的摘要，如：

result= wikipedia.summary("MachineLearning", sentences=5)
print(result)

这里咱们有句子的参数，因而咱们能够用它来检索特定的行数。

输入5个句子

让咱们一起创立wordcloud

from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt 
def plot_cloud(wordcloud):
    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud) 
    plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)
plot_cloud(wordcloud)

停用词是没有任何含意的单词，例如‘is’, ‘are’, ‘an’, ‘I’ 等。

Wordcloud带有内置停用词库，该库将主动从文本中删除停用词。

乏味的是，咱们能够通过stopwords.add()函数在python中增加停用词的抉择。

Wordcloud办法将设置宽度和高度，我将它们都设置为500，背景色设置为粉红色。如果不增加随机状态，则每次运行代码时，词云都会看起来不同。应该将其设置为任何int值。

从下面的代码中，咱们将取得这样的词云：

通过查看上图，咱们能够看到机器学习是最罕用的词，还有一些其余常常应用的词是模型，工作，训练和数据。因而，咱们能够得出结论，机器学习是训练数据模型的工作。

咱们还能够在这里通过背景色彩办法更改背景色彩，并通过colormap办法更改字体色彩，还能够在背景色彩中增加色彩的哈希码，然而mapcolor带有内置的特定色彩。

让咱们通过应用哈希码将背景色更改为蓝绿色，将字体色彩更改为蓝色：

from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud)
    plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean",  random_state=10).generate(final_result)
plot_cloud(wordcloud)

在这里，我指定了ocean，如果我增加了一些谬误的色彩图，jupyter将抛出一个值谬误，并向我显示色彩图的可用选项，如下所示：

还能够应用PIL库在任何图像中实现词云。

尾注

在本文中，咱们探讨了词云，词云的定义，应用领域以及应用jupyter notebook的python示例。

原文链接：https://www.analyticsvidhya.c…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:在Python中创建文字云或标签云

介绍

词云是什么？

标签云的用处

让咱们开始在python中编码以实现这种词云

让咱们一起创立wordcloud

尾注

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:在Python中创建文字云或标签云

介绍

词云是什么？

标签云的用处

让咱们开始在python中编码以实现这种词云

让咱们一起创立wordcloud

尾注

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复