作者 |ISHA5
编译 |Flin
起源 |analyticsvidhya
介绍
从开始从事数据可视化工作的那一天起,我就爱上它了。我总是喜爱从数据中取得有用的见解。
在此之前,我只理解根本图表,例如条形图,散点图,直方图等,这些根本图表内置在 tableau 中,而 Power BI 则用于数据可视化。通过每天实现此工作,我遇到了许多新图表,例如径向仪表盘,华夫图等。
因而,出于好奇,最近我正在搜寻数据可视化中应用的所有图表类型,这些词云引起了我的留神,我发现它十分乏味。直到现在,看到这个词云图像迫使我认为这些只是随机排列的图像,这些单词是随机排列的,然而我错了,而且所有都从这里开始。之后,我尝试应用 Tableau 和 Power BI 中的大量数据制作词云。在胜利尝试之后,我想通过编写条形图,饼图和其余图表的代码来尝试应用它。
词云是什么?
定义:词云是一个简略但功能强大的可视化示意对象,用于文本处理,它以更大,更粗的字母和不同的色彩显示最罕用的词。单词的大小越小,重要性就越小。
标签云的用处
1) 社交媒体上的热门标签 (Instagram,Twitter):全世界,社交媒体都在寻找最新更新的趋势,因而,咱们能够获取人们在其帖子中应用最多的标签。
2) 媒体中的热门话题 :剖析新闻报道,咱们能够在头条新闻中找到关键字,并提取出前 n 个需要较高的主题,并取得所需的后果,即前 n 个热门媒体主题。
3) 电子商务中的搜索词 :在电子商务购物网站中,网站所有者能够制作被搜寻次数最多的购物商品的词云。这样,他就能够理解在特定期间内哪些商品需求量很大。
让咱们开始在 python 中编码以实现这种词云
首先,咱们须要在 jupyter notebook 中装置所有库。
在 python 中,咱们将装置一个内置库 wordcloud。在 Anaconda 命令提示符下,输出以下代码:
pip install wordcloud
如果你的 anaconda 环境反对 conda,请输出:
conda install wordcloud
尽管,这能够间接在 notebook 自身中实现,只需在代码的结尾增加“!”即可。
像这样:
!pip install wordcloud
当初,在这里,我将生成领有任何主题的维基百科文本的词云。因而,我将须要一个 Wikipedia 库来拜访 Wikipedia API,能够通过在 anaconda 命令提示符下装置 Wikipedia 来实现,如下所示:
pip install wikipedia
当初咱们还须要其余一些库,它们是 numpy,matplotlib 和 pandas。
截至目前,咱们须要的库就装置好了
import wikipedia
result= wikipedia.page("MachineLearning")
final_result = result.content
print(final_result)
机器学习维基百科页面的输入:
上图是咱们通过检索 Wikipedia 的机器学习页面取得的输入的图像。在那里,咱们还能够看到它能够向下滚动,这示意将检索整个页面。
在这里,咱们还能够通过摘要办法失去页面的摘要,如:
result= wikipedia.summary("MachineLearning", sentences=5)
print(result)
这里咱们有句子的参数,因而咱们能够用它来检索特定的行数。
输入 5 个句子
让咱们一起创立 wordcloud
from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)
plot_cloud(wordcloud)
停用词是没有任何含意的单词,例如‘is’,‘are’,‘an’,‘I’等。
Wordcloud 带有内置停用词库,该库将主动从文本中删除停用词。
乏味的是,咱们能够通过 stopwords.add() 函数在 python 中增加停用词的抉择。
Wordcloud 办法将设置宽度和高度,我将它们都设置为 500,背景色设置为粉红色。如果不增加随机状态,则每次运行代码时,词云都会看起来不同。应该将其设置为任何 int 值。
从下面的代码中,咱们将取得这样的词云:
通过查看上图,咱们能够看到机器学习是最罕用的词,还有一些其余常常应用的词是模型,工作,训练和数据。因而,咱们能够得出结论,机器学习是训练数据模型的工作。
咱们还能够在这里通过背景色彩办法更改背景色彩,并通过 colormap 办法更改字体色彩,还能够在背景色彩中增加色彩的哈希码,然而 mapcolor 带有内置的特定色彩。
让咱们通过应用哈希码将背景色更改为蓝绿色,将字体色彩更改为蓝色:
from wordcloud import WordCloud, StopWords
import matplotlib.pyplot as plt
def plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean", random_state=10).generate(final_result)
plot_cloud(wordcloud)
在这里,我指定了 ocean,如果我增加了一些谬误的色彩图,jupyter 将抛出一个值谬误,并向我显示色彩图的可用选项,如下所示:
还能够应用 PIL 库在任何图像中实现词云。
尾注
在本文中,咱们探讨了词云,词云的定义,应用领域以及应用 jupyter notebook 的 python 示例。
原文链接:https://www.analyticsvidhya.c…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/