共计 578 个字符,预计需要花费 2 分钟才能阅读完成。
前几天和朋友聊到抖音,突然想到有这样一种需求:知道抖音号,能否查到给别人的评论, 是否能写个程序可以根据用户名来爬取这个用户写过的所有评论。答案可以,python 可以做到。需要代查可以找我 (w-x:fas1024) 下面是开发实例:
数据挖掘与分析:
【1】. 对 raw_title 列标题进行文本分析:
使用结巴分词器,安装模块 pip install jieba
对 title_s(list of list 格式)中的每个 list 的元素(str)进行过滤 剔除不需要的词语,即 把停用词表 stopwords 中有的词语都剔除掉:
因为下面要统计每个词语的个数,所以 为了准确性 这里对过滤后的数据 title_clean 中的每个 list 的元素进行去重,即 每个标题被分割后的词语唯一。
观察 word_count 表中的词语,发现 jieba 默认的词典 无法满足需求:
有的词语(如 可拆洗、不可拆洗等)却被 cut,这里根据需求对词典加入新词(也可以直接在词典 dict.txt 里面增删,然后载入修改过的 dict.txt)
词云可视化:
安装模块 wordcloud:
方法 1:pip install wordcloud
方法 2:下载 Packages 安装:pip install 软件包名称
软件包下载地址:https://www.lfd.uci.edu/~gohl…
注意:要把下载的软件包放在 Python 安装路径下。
代码如下:
正文完