关于php:不会还有人找不到Python学习资料吧

自己业余写python爬虫、python小工具已有两年无余了,在这里举荐一些学习时感觉比拟好的视频教程、文章教程等,纯属集体倡议,不喜勿喷

目录

  • 资料篇
  • 爬虫篇
  • 数据分析篇

资料篇

自学最好的还是入手操作,想用什么找什么,有很多课程波及到了Python语言程序设计、Python网络爬虫与信息提取、Python数据分析与展现、Python科学计算三维可视化等,能够说很全,其次视频举荐外面有文章介绍和视频介绍,他人偏差与文章介绍,这样更快更节省时间。

爬虫篇

介绍一下爬虫波及到的第三方库及其相干文档

  1. urllib3
  2. urllib3文档
  3. Requests文档
  4. Beautiful Soup英文版
  5. Beautiful Soup中文版
  6. 正则表达式
  7. scrapy
  8. scrapy文档
  9. css选择器语法
  10. re正则表达式语法
  11. xpath语法
  12. PyMySQL
  13. PyMySQL文档

数据分析篇

数据分析的第三方库介绍

  1. Blaze
  2. Open Mining
  3. Orange
  4. Pandas
  5. Optimus
  6. NumPy

css选择器语法

表达式                          阐明
*                              抉择所有节点
#container                     抉择id为container的节点
.container                     选取所有class蕴含container的节点
li a                           选取所有li下的所有a节点
ul + p                         抉择ul前面的第一个p元素
div#container > ul             选取id为container的div的第一个ul子元素

ul ~ p                         选取与ul相邻的所有p元素
a[title]                       选取所有有title属性的a元素
a[href="http://baidu.com"]     选取所有href属性为http://baidu.com值的a元素
a[href*="baidu"]               选取所有href属性蕴含baidu的a元素
a[href^="http"]                选取所有href属性值以http结尾的a元素
a[href$=".jpg"]                选取所有href属性值以.jpg结尾的a元素
input[type=radio]:checked      抉择选中的radio的元素

div:not(#container)            选取所有id非container的div属性
li:nth-child(3)                选取第三个li元素
tr:nth-child(2n)               第偶数个tr



## re正则表达式语法

字符 匹配
. 任意字符(除了\n)
[…] 字符集
\d/\D 数字/非数字
\s/\S 空白/非空白
\w/\W 单词字符[a-zA-Z0-9]/非单词字符

  • 前一个字符0次或者有限次
  • 前一个字符1次或者有限次
    ? 前一个字符0次或者一次
    {m}/{m,n} 前一个字符m次或者n次
    *?/+?/?? 非贪心(尽可能少匹配字符)
    ^ 字符串结尾
    $ 字符串结尾
    \A/\Z 指定的字符串必须呈现在结尾/结尾
    | 匹配左右任意一个表达式
    (ab) 括号中表达式作为一个分组
    \<number> 援用编号为num的分组匹配到的字符串
    (?P<name>) 分组起一个别名
    (?P=name) 援用别名为name的分组匹配字符串
    [\u4E00-\u9FA5] 一个汉字

    
    ## xpath语法
    

    表达式 阐明
    article 选取所有article元素的所有子节点
    /article 选取跟元素article
    article/a 选取所有属于article的子元素的a元素
    //div 选取所有div子元素(不管呈现在文档任何中央)
    article//div 选取所有输出article元素的后辈的div元素,不论它呈现在article之下的任何地位
    //@class 选取所有名为class的属性

/article/div[1] 选取属于article子元素的第一个div元素
/article/div[last()] 选取输出article子元素的最初一个div元素
/article/div[last()-1] 选取属于article子元素的倒数第二个div元素
//div[@lang] 选取所有领有lang属性的div元素
//div[@lang=’eng] 选取所有lang属性为eng的div元素

/div/* 选取属于div元素的所有子节点
//* 选取所有元素
//div[@*] 选取所有带属性的title元素
//div/a|//div/p 选取所有div元素的a和p元素
//span|//ul 选取文档中的span和ul元素
article/div/p|//span 选取所有属于article元素的div元素的p元素以及文档中所有的span元素

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理