原文链接:python 爬虫进行 Web 抓取 LDA 主题语义数据分析 | 拓端数据科技 / Welcome to tecdat
原文出处:拓端数据部落公众号
什么是网页抓取?
从网站提取数据的办法称为网络抓取。也称为网络数据提取或网络收集。这项技术的应用工夫不超过 3 年。
为什么要进行网页爬取?
Web 抓取的目标是从任何网站获取数据,从而节俭了收集数据 / 信息的大量体力劳动。例如,您能够从 IMDB 网站收集电影的所有评论。之后,您能够执行文本剖析,以从收集到的大量评论中取得无关电影的见解。
抓取开始的第一页
如果咱们更改地址空间上的页码,您将可能看到从 0 到 15 的各个页面。咱们将开始抓取第一页 opencodez | develope | share | reuse。
第一步,咱们将向 URL 发送申请,并将其响应存储在名为 response 的变量中。这将发送所有 Web 代码作为响应。
url= https://www.opencodez.com/page/0
response= requests.get(url)
而后,咱们必须应用 html.parser 解析 HTML 内容。
soup = BeautifulSoup(response.content,"html.parser")
咱们将应用整顿性能对其进行组织。
让咱们察看必须提取详细信息的页面局部。如果咱们通过后面介绍的右键单击办法查看其元素,则会看到 href 的详细信息以及任何文章的题目都位于标签 h2 中,该标签带有名为 title 的类。
文章题目及其链接的 HTML 代码在上方的蓝色框中。
咱们将通过以下命令将其全副拉出。
soup_title= soup.findAll("h2",{"class":"title"})
len(soup_title)
将列出 12 个值的列表。从这些文件中,咱们将应用以下命令提取所有已公布文章的题目和 hrefs。
for x in range(12):
print(soup_title\[x\].a\['href'\])
for x in range(12):
print(soup_title\[x\].a\['title'\])
为了收集帖子,作者和日期的简短形容,咱们须要针对蕴含名为“post-content image-caption-format-1”的类的 div 标签。
咱们抓取的数据怎么办?
能够执行多种操作来摸索 excel 表中收集的数据。首先是 wordcloud 生成,咱们将介绍的另一个是 NLP 之下的主题建模。
词云
1)什么是词云:
这是一种视觉示意,突出显示了咱们从文本中删除了最不重要的惯例英语单词(称为停用词)(包含其余字母数字字母)后,在文本数据语料库中呈现的高频单词。
2)应用词云:
这是一种乏味的形式,能够查看文本数据并立刻取得有用的见解,而无需浏览整个文本。
3)所需的工具和常识:
python
4)摘要:
在本文中,咱们将 excel 数据从新视为输出数据。
5)代码
6)代码中应用的一些术语的解释:
停用词是用于句子创立的通用词。这些词通常不会给句子减少任何价值,也不会帮忙咱们取得任何见识。例如 A,The,This,That,Who 等。
7)词云输入
8)读取输入:
突出的词是 QA,SQL,测试,开发人员,微服务等,这些词为咱们提供了无关数据帧 Article_Para 中最罕用的词的信息。
主题建模
1)什么是主题建模:
这是 NLP 概念下的主题。在这里,咱们要做的是尝试确定文本或文档语料库中存在的各种主题。
2)应用主题建模:
它的用处是辨认特定文本 / 文档中所有可用的主题款式。
3)所需的工具和常识:
- python
- Gensim
- NLTK
4)代码摘要:
咱们将合并用于主题建模的 LDA(潜在 Dirichlet), 以生成主题并将其打印以查看输入。
5)代码
6)读取输入:
咱们能够更改参数中的值以获取任意数量的主题或每个主题中要显示的单词数。在这里,咱们想要 5 个主题,每个主题中蕴含 7 个单词。咱们能够看到,这些主题与 java,salesforce,单元测试,微服务无关。如果咱们减少话题数,例如 10 个,那么咱们也能够发现现有话题的其余模式。
最受欢迎的见解
1. 探析大数据期刊文章钻研热点
2.618 网购数据盘点 - 剁手族在关注什么
3.r 语言文本开掘 tf-idf 主题建模,情感剖析 n -gram 建模钻研
4.python 主题建模可视化 lda 和 t -sne 交互式可视化
5.r 语言文本开掘 nasa 数据网络剖析,tf-idf 和主题建模
6.python 主题 lda 建模和 t -sne 可视化
7.r 语言中对文本数据进行主题模型 topic-modeling 剖析
8.r 语言对 nasa 元数据进行文本开掘的主题建模剖析
9.python 爬虫进行 web 抓取 lda 主题语义数据分析