自己业余写 python 爬虫、python 小工具已有两年无余了,在这里举荐一些学习时感觉比拟好的视频教程、文章教程等,纯属集体倡议,不喜勿喷
目录
- 资料篇
- 爬虫篇
- 数据分析篇
资料篇
自学最好的还是入手操作,想用什么找什么, 有很多课程波及到了 Python 语言程序设计、Python 网络爬虫与信息提取、Python 数据分析与展现、Python 科学计算三维可视化等,能够说很全,其次视频举荐外面有文章介绍和视频介绍,他人偏差与文章介绍,这样更快更节省时间。
爬虫篇
介绍一下爬虫波及到的第三方库及其相干文档
- urllib3
- urllib3 文档
- Requests 文档
- Beautiful Soup 英文版
- Beautiful Soup 中文版
- 正则表达式
- scrapy
- scrapy 文档
- css 选择器语法
- re 正则表达式语法
- xpath 语法
- PyMySQL
- PyMySQL 文档
数据分析篇
数据分析的第三方库介绍
- Blaze
- Open Mining
- Orange
- Pandas
- Optimus
- NumPy
css 选择器语法
表达式 阐明
* 抉择所有节点
#container 抉择 id 为 container 的节点
.container 选取所有 class 蕴含 container 的节点
li a 选取所有 li 下的所有 a 节点
ul + p 抉择 ul 前面的第一个 p 元素
div#container > ul 选取 id 为 container 的 div 的第一个 ul 子元素
ul ~ p 选取与 ul 相邻的所有 p 元素
a[title] 选取所有有 title 属性的 a 元素
a[href="http://baidu.com"] 选取所有 href 属性为 http://baidu.com 值的 a 元素
a[href*="baidu"] 选取所有 href 属性蕴含 baidu 的 a 元素
a[href^="http"] 选取所有 href 属性值以 http 结尾的 a 元素
a[href$=".jpg"] 选取所有 href 属性值以.jpg 结尾的 a 元素
input[type=radio]:checked 抉择选中的 radio 的元素
div:not(#container) 选取所有 id 非 container 的 div 属性
li:nth-child(3) 选取第三个 li 元素
tr:nth-child(2n) 第偶数个 tr
## re 正则表达式语法
字符 匹配
. 任意字符(除了 \n)
[…] 字符集
\d/\D 数字 / 非数字
\s/\S 空白 / 非空白
\w/\W 单词字符 [a-zA-Z0-9]/ 非单词字符
- 前一个字符 0 次或者有限次
-
前一个字符 1 次或者有限次
? 前一个字符 0 次或者一次
{m}/{m,n} 前一个字符 m 次或者 n 次
*?/+?/?? 非贪心(尽可能少匹配字符)
^ 字符串结尾
$ 字符串结尾
\A/\Z 指定的字符串必须呈现在结尾 / 结尾
| 匹配左右任意一个表达式
(ab) 括号中表达式作为一个分组
\<number> 援用编号为 num 的分组匹配到的字符串
(?P<name>) 分组起一个别名
(?P=name) 援用别名为 name 的分组匹配字符串
[\u4E00-\u9FA5] 一个汉字## xpath 语法
表达式 阐明
article 选取所有 article 元素的所有子节点
/article 选取跟元素 article
article/a 选取所有属于 article 的子元素的 a 元素
//div 选取所有 div 子元素(不管呈现在文档任何中央)
article//div 选取所有输出 article 元素的后辈的 div 元素,不论它呈现在 article 之下的任何地位
//@class 选取所有名为 class 的属性
/article/div[1] 选取属于 article 子元素的第一个 div 元素
/article/div[last()] 选取输出 article 子元素的最初一个 div 元素
/article/div[last()-1] 选取属于 article 子元素的倒数第二个 div 元素
//div[@lang] 选取所有领有 lang 属性的 div 元素
//div[@lang=’eng] 选取所有 lang 属性为 eng 的 div 元素
/div/* 选取属于 div 元素的所有子节点
//* 选取所有元素
//div[@*] 选取所有带属性的 title 元素
//div/a|//div/p 选取所有 div 元素的 a 和 p 元素
//span|//ul 选取文档中的 span 和 ul 元素
article/div/p|//span 选取所有属于 article 元素的 div 元素的 p 元素以及文档中所有的 span 元素