关于python:08页面解析之数据提取python爬虫

一般来讲对咱们而言，须要抓取的是某个网站或者某个利用的内容，提取有用的价值，内容个别分为两局部，非结构化的文本，或结构化的文本。

JSON、XML、HTML

HTML文本（蕴含JavaScript代码）是最常见的数据格式，理当属于结构化的文本组织，但因为个别咱们须要的要害信息并非间接能够失去

须要进行对HTML的解析查找，甚至一些字符串操作能力失去，所以还是归类于非结构化的数据处理中。

把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。

常见解析形式如下：XPath、CSS选择器、正则表达式

HTML DOM 示例

HTML DOM 定义了拜访和操作 HTML 文档的规范办法。

DOM 以树结构表白 HTML 文档。

例如一篇文章，或者一句话，咱们的初衷是提取无效信息，所以如果是滞后解决，能够间接存储，如果是须要实时提取有用信息，常见的解决形式如下：

IT入门感激关注 | 练习地址：www.520mg.com/it