关于python:Python1024自动办公系列

在Python1024的根底篇中，咱们曾经介绍过文件治理和文本文件的读写。

在门路解决方面，Python3.6版本后，倡议采纳pathlib，它采纳面向对象封装接口，应用起来比os.path更人性化。

在学习后续章节前，有必要先介绍几个根本的概念，不便后续的了解。

1、常见文件格式

文本文件其实是一种非凡的二进制文件，它约定了以字符格局的读取形式，字符合乎ASCII或UNICODE等编码标准。因为文本文件太通用、太非凡（字符模式）了，咱们把它独自列出看待。

其余二进制文件则随利用的不同，有各式各样的读写规定。比方：

PDF（Portable Document Format）文件，定义了一种独立于应用程序、硬件、操作系统的形式出现文档的文件格式。它外部蕴含了大量类型的子元素，通过索引的形式嵌入在不同的地位。只有合乎其标准的软件，能力读取，甚至批改PDF文件。PDF文件格式规范由Adobe定义：参考官网。
微软2007版本之后的Office文件，比方docx、pptx、xlsx，属于OpenXML文件格式。它是由微软开发的基于XML和ZIP压缩技术的文件标准，并于2008年正式成为国际标准。能够用解压缩软件关上这类文件，就能看到其内部结构。目前除了微软Office软件，咱们也能够通过金山WPS、OpenOffice等软件关上其文档。
图像文件的格局十分多，依据压缩算法不同，会设计不同的文件格式，比方：JPEG、TIFF、RAW、BMP、GIF、PNG。归根到底，图像代表的是色调数据，是整块的内容，而形容其数据结构的，是文件头部信息。
音频文件，保留的是声音信号的数字化，和图像一样，文件不同次要源于压缩算法的不同。咱们常见的音频文件格局如：MP3、WAV、AAC、FLAC等，声音信号被数字化后保留在数据块中，同时由文件头形容数据块。要害信息如采样率、比特率、声道数。采样率是工夫相干的概念，即每秒收集多少次声音样本信息。
视频文件，保留的是图像和音频的合集，即视频文件能够拆分为视频和音频，其中视频是图像的合集，每秒钟有多少张图像，就是它的FPS帧率，帧率决定了视频的晦涩度。此外，每张图像的分辨率多大，决定了它的清晰度，比方咱们常说的720P代表1280×720的分辨率，1080P就是1920×1080的分辨率，即代表用1920×1080个像素点来表白一张图片信息。所以，视频文件尤其大，依据压缩算法的不同，常见的文件格式如：MP4、MOV、FLV、WMV、WEBM等。

当然，除了下面这些文件格式外，咱们还能够定义本人的格局，只有定义的格局，能被对应软件反对关上和写入即可。换句话说，如果你定义的文件格式，没人写出软件去反对，那就没方法利用。或者，你本人写了软件，但大部分人都不晓得，或不想用，那它也就丢失了利用价值。在软件行业向互联网演进过程中，淘汰了大量的软件，才诞生出目前绝对稳固的互联网基础设施。

Youtube上有人做了一个视频，出现了90年代到2020年间最受欢迎浏览器的更替：原地址。

2、文本文件也有分类

文本文件，实质上是用于存储字符的文件。

所有那些以字符保留的文件格式，其实都是文本文件，只不过文本内容还有额定特定含意。

常见的比方：CSV、HTML、XML、JSON、JS、CSS，还有各种语言的代码。

2.1 CSV文件

CSV文件罕用于保留数据表格，比方：

姓名, 电话, 地址
张三, 18900000001, 上海
李四, 13800000002, 广州

这就是一个典型的CSV文件，咱们能够用文本编辑器关上它，也能够用Excel等软件关上它。如果用Excel软件关上它，Excel会把英文逗号作为分隔符号，提取单元格内容，咱们看到的就是一张表格。
Python同样也反对这类文件的读写，通过csv模块：

import pathlib
import csv

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/001basic')
csv_path = path.joinpath('hello.csv')
with open(csv_path ,'r') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    for row in f_csv:
        for h, v in zip(headers, row):
            print(f'{h.strip()}: {v.strip()}')

这样就能读出CSV文件中的数据：

姓名: 张三
电话: 18900000001
地址: 上海
姓名: 李四
电话: 13800000002
地址: 广州

2.2 XML文件

XML（eXtensible Markup Language）是为了结构化存储和传输数据而生，是一种标记语言。

<?xml version="1.0" encoding="UTF-8"?>
<mail>
  <to>World</to>
  <from>程一初</from>
  <title>Hello World</title>
  <body>Welcome to Python1024!</body>
</mail>

咱们能够自定义标记，一种定义就是一种数据格式。在Python中，有三种解决数据的形式：

DOM（Document Object Model）：文档对象模型，是W3C组织举荐的规范编程接口。它把XML文件映射到内存中，以“树”的数据结构来操作数据。
SAX（simple API for XML）：事件驱动模型，尽管不是规范，但利用宽泛。它逐行扫描文档，边扫边解析，这样就不必一下子全装载到内存了。
ElementTree：性能介乎于DOM和SAX之间，应用门槛低。

以ElementTree为例：

import pathlib
import xml.etree.ElementTree as ET

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/001basic')
xml_path = path.joinpath('hello.xml')
tree = ET.parse(xml_path)
root = tree.getroot() # 根节点
print('root_tag:', root.tag) # 根标签：mail
for elem in root:
    print(f'{elem.tag}: {elem.text}')

此外，HTML是XML的一个子集，即HTML是一种非凡的XML，它定义了一整套标签标准，比方文字、超链接、表单等，依照这套标准来出现HTML的利用就是浏览器了。当然，浏览器除了反对HTML，还须要反对JS脚本、CSS款式文件等其余标准。

2.3 JSON文件

相比XML文件格式，JSON文件格式更精简。同样的信息能够用更少的字符示意：

{
    "mail": {
        "to": "World",
        "from": "程一初",
        "title": "Hello World",
        "body": "Welcome to Python1024!"
    }
}

少了对称标记以及<>符号，JSON须要占用更少标记数据，所以它更常被用于互联网利用的数据传输。Python也内置了解决模块json：

import pathlib
import json

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/001basic')
json_path = path.joinpath('hello.json')
with open(json_path, 'r') as f:
    data = json.loads(f.read())
print(f'root_tag: {list(data.keys())[0]}')
for k, v in data['mail'].items():
    print(f'{k}: {v}')

2.4 代码文件

代码文件，比方Python代码文件，也是一种文本文件。所以，有一些动态代码检测工具，如pylint、pep8、flake8等，能够读取代码文件后查看编写品质。甚至，你能够编写程序主动生成代码，在自动化测试中用的比拟多。
代码文件的读取和其余文本文件一样，都能够用open()函数关上，然而要解析代码文件，就必须用“语法树”来解析，它也提供了对应的ast模块。比方咱们写一个简略的Python代码文件，蕴含一个正文块，以及一行代码：

'''
Author: 程一初
'''
print('hello world!')

而后用语法树解析它：

import pathlib
import ast

path = list(pathlib.Path.cwd().parents)[1].joinpath('data/automate/001basic')
py_path = path.joinpath('hello.py')
with open(py_path, 'r') as f:
    node = ast.parse(f.read())
# 获取文档正文
print(ast.get_docstring(node))

class MyVisitor(ast.NodeVisitor):
    # 定义一个遍历代码节点的类
    # 按需重定义generic_visit函数
    def generic_visit(self, node):
        print(node)
        super(MyVisitor, self).generic_visit(node)
v = MyVisitor()
v.visit(node)

会失去这样的后果：

Author: 程一初
<_ast.Module object at 0x118e4e890>
<_ast.Expr object at 0x118ce1b50>
<_ast.Str object at 0x118ce1f90>
<_ast.Expr object at 0x118ce1d90>
<_ast.Call object at 0x118ce1ad0>
<_ast.Name object at 0x118ce1b10>
<_ast.Load object at 0x103ed39d0>
<_ast.Str object at 0x118eb3ed0>

第一行为正文文档，剩下8行为ast外部对象，包含模块、表达式、字符串、函数名、调用等。这里只是举个例子，阐明代码文件也是一种非凡的文本文件。平时利用中，咱们简直不会这么去读写代码文件，而是间接用Python解释器来执行代码。

总结

理解什么是文件，就能明确每个文件都有本人的标准，想要解决某类文件，就得先找到符合规范的利用，或者模块。找到模块后，就能够通过结构化的代码来批量解决了。
常见的自动化解决无非就这几种：

批量文件解决，比方某个文件夹下的所有文件对立重命名；
依据提前设定的规定，主动分类解决文件，比方按文件后缀调用不同程序处理；
组成流水线：把反复的工作提炼出规范，把每一步程序化后再组装起来。

Python的魅力，就是能把所有反复的工作，按模块组织起来，造成流水线，一个人施展N集体的效率。

Python1024主动办公系列，涵盖Python解决文本文件、PDF、Word、Excel、PPT、图像、音频、视频、邮件、企业办公机器人等职场办公实用场景。

关于python:Python1024自动办公系列

1、常见文件格式

2、文本文件也有分类

2.1 CSV文件

2.2 XML文件

2.3 JSON文件

2.4 代码文件

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于python:Python1024自动办公系列

1、常见文件格式

2、文本文件也有分类

2.1 CSV文件

2.2 XML文件

2.3 JSON文件

2.4 代码文件

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复