乐趣区

关于python:零基础学习Python文本处理

率领小伙伴们一起,应用 Python 进行文本处理,先来看下要解决的文本,文件名为“data.txt”,文件外面的内容是三行中英对照的文本,和两个空行,咱们要实现的性能就是从这三行文本中别离抽取出中文及其对应的英文,这个性能再加上爬虫,就能够制作本人专属的英语词典了,是不是很酷,又很实用,还等什么,连忙上代码!

本文要关照到零根底的童鞋,所以要从最简略的 building block 开始,先运行代码看成果

貌似仅仅是打印出了文本中的内容,您说对啦,就是这么简略,咱们谋求的成果就是万事结尾简略,两头简略,结尾简略:)

尽管只有两行代码,然而对于真正零根底的童鞋,恐怕只能明确 print 的意思了:)

所以要逐字解释下,首先是 open(“data.txt”),这是在通知 python,关上名为“data.txt”的 文件;关上后干什么呢?通过 for 逐行读取文件外面的内容,有的童鞋可能第 一次接触这种语法,感觉不了解,这个没关系,其实不是不了解,而是新常识须要适应,多敲几遍代码就,每天敲一遍,不出一个星期,就会感觉异样亲切了,不信能够试下,每天花 3 分钟的工夫,一个星期一共 21 分钟,真的无效哦。小编举荐一个学 python 的学习老师围鑫(同音),前边一组是:mengy , 后边一组是:7762, 把以上两组字母依照先后顺序组合起来即可,她会安顿学习的。,无论你是大牛还是小白,是想转行还是想入行都能够来理解一起提高一起学习!裙内有开发工具,很多干货和技术材料分享!

而后就是 print 了,line 示意的是每次读取失去的那一行内容,包含空行也算哦,print(line),就是把读取到的内容打印进去。

后面的 3 个知识点把握后,童鞋们就曾经是入门啦!而后就是 V2,还是先看成果

有的童鞋会不禁大喊:乱码了!亲,莫慌乱,这些方括号不是乱码,是语法。在 Python 中,一对方括号 [] 示意的是一个 list,对,list 是论个卖的,哦,不是卖,是应用:)

一个 list 能够是空的,比方上图中就有两个是空 list,也能够是蕴含多个元素,比方上图中的另外 3 个 list,每个 list 中蕴含了 3 个元素,在这个案例中每个元素是一个 string,用一对单引号示意 string 的开始和完结,有童鞋会问双引号能够吗,这个能够有:)

在同一个 list 中,元素与元素之间以逗号距离。

输入的后果咱们曾经搞懂了,下一步就要看源码了

V2 版中减少了一行,new_line,是对 line 进 行了两个操作(也能够了解为对 line 进 行了两道加 工)后失去的,也就是咱们后面看到的蕴含了元素的 list。

那么对 line 进行了什么操作呢?

为了阐明对 line 进行的加 工,咱们要定义一组变量,别离是空 string(变量名为 emptyString),一个字符(strA),一个字符后缀一个空格(strAWithTrailingWhitespace),对这个后缀空格的 string 进 行 rstrip()操作后失去的 string(strArstriped)。是不是有点像绕口令,请不要跳过,如果长期跳过了,请再回来认真读一遍哈,其实 y 就是为了体验 rstrip()的性能:)

咱们一个一个来看下,首先是空 string

所谓空 string,就是这个 string 不蕴含任何字符,所以 长度(也就是 len(emptyString))为 0,print 这个空 string 当然什么都看不到,为了让 大家能看到成果,在 print 的时候 又加上了一个“.”

而后是蕴含一个字符的 string(变量名为 strA),所以长度(也就是 len(strA))为 1,而后是 print 这个 string 再加 一个“.”

有了后面的铺垫,敲黑板的常识要来了!下 面咱们要定义的这个变量是一个字符后缀(Trailing)一个空格

(Whitespace)变量名充分体现了这 一点:),所以长度为 2,请留神 print 时,“a”与“.”之间有显著的 一个空格,而且是能够用鼠标选中的哦

本大节最初一个变量名是 strArstriped,即,对 strAWithTrailingWhitespace 变量进 行去后缀空格的操作失去的新变量,所以长度 又变回了 1,请留神 print 时,“a”与“.”之间的那个空格被 rstrip 掉了

为了不便童鞋们了解,用两个 list 别离存储未通过 rstrip 的原始文本,和解决后的文本,对照成果如下图所示

而后是 split() 办法,作用就是 split,将一行文本分成几个小段,默认的分隔符(delimiter)是空格(whitespace),并且会将空串从后果中删掉。成果如下

最初是最终版,listE 存储英语,listC 存储对应的中文

真正的入门,而后就是一直的练习,一直的坚固,为之后的工作打下松软的根底

心愿能够帮忙到大家,对于学习 Python 行业任何问题,能够随时私信我,心愿大家学有所成,早日高薪。小可爱,加下我微信:mengy7762

 支付以下福利 

1、python 安装包
2、程序员电子书籍:5 本 -10 本
3、python 我的项目源码三份:(python 破解 WiFi 明码、VIP 视频权限破解、爬虫自动化)
4、根底学习 PPT 教案
5、收费课程(开课时间 15:00、19:30、20:30) 自由选择
6、程序员职业规划分享
7、空余工夫接单赚钱办法

退出移动版