解释运行程序 🥊
回顾上次内容
-
py
文件的程序是依照程序- 一行行挨排解释执行的
- 咱们能够
python3 -m pdb hello.py
来对程序调试 - 调试的目标是去除
bug
- 别胆怯
bug
bug
会有提醒- 咱们也就晓得如何
debug
调试
-
程序执行
- 程序在文本中从上到下是一行行写的
- 调试的时候也是从头到尾一行行执行的
- 然而执行的时候是如何把代码一行行解释执行的呢?
-
说到底
python3
到底是个啥呢?🤔python3
又是怎么解释hello.py
的?- 这两这节课相当简单
- 如果感觉太过简单
- 能够间接跳过
- 不影响前面的了解 😄
- 咱们先要看看 python3 对 Guido.py 做了些什么???
tokenize
- 首先把字符分组成词
- 词法剖析 (lexical analysis) 中
- 把原来的字符流
-
变成了词的流
- token(令牌)流
- 词法剖析之后输入的是一个 token 流
-
什么是 token 流呢?
- 首先要晓得什么是 token
token
-
token
- 令牌
-
今人说听我号令
- 号指的是号角
-
令指的是令牌
- 急急如律令
- 令行禁止
- 怎么把源文件变成一个 token 流呢?
python3 模块
- 这个货色是 python3 的一个模块
- 具体怎么运行呢?
token 流
-
咱们尝试运行
- python3 -m tokenize guido.py
- 对 guido.py 进行词法剖析
- 剖析进去的词 (token) 流长什么样子呢?
- 这个词怎么了解呢?
token 流
- 第 0 行设置了编码格局
-
第 1 行 [0,5) 字符是第 1 行第 1 个 token
- print 是一个 Name(名字)
-
第 1 行 [5,6) 字符是第 1 行第 2 个 token
- (
- (是一个 Operator(操作符)
-
第 1 行 [6,30) 字符是第 1 行第 3 个 token
- “1982——Guido in cwi”
- 这是一个 String(字符串)
-
第 1 行 [30,31) 字符是第 1 行第 4 个 token
- )
- )是一个 Operator(操作符)
-
第 1 行 [31,32) 字符是第 1 行第 5 个 token
- \n
- \n 是一个 NewLine(换行符)
- 换行符意味着第一行完结
- 第 2 行 …
- 词剖析进去之后呢?
组词
-
词剖析进去就是怎么组词的问题
- 哪些词和哪些词先组合
- 哪些词和哪些词后组合
-
生成一棵形象语法树
- AST(Abstract Syntax Tree)
- 具体怎么生成这棵 ast 树呢?
引入 ast 模块
- 具体怎么做呢?
流程
- 先把这个 ast 模块导入 (import) 进来
- 而后读取 guido.py 并送到 s
- 而后对于 s 进行语法分析(parse)
- 不过这乌七八糟堆一起怎么了解呢?
缩进换行
- 把剖析的后果进行 dump(转储)
- 目前 lanqiao.cn 下面的 python 是 3.8
- 这个换行须要在 3.9 以上实现
- 只能在本地演示一下
缩进演示
- 这个就是把词组成语法树的样子
- 然而语法树还不能间接执行
- 什么能力间接执行呢?
翻译成字节码
- 字节码 (指令) 能力真正执行
- 怎么把 ast 转化为字节码 (指令) 呢?
- 须要编译
-
从一种语言到另一种语言
- 从 py 文件
- 到字节码(指令)
- 我能够看看这个编译过程么?
compile
- 这个货色齐全是乱码
- 我看不懂啊?
- vi 关上这个这个 pyc 文件
二进制状态
- :set wrap 设置换行
- 能够看到他的二进制状态么?
二进制
-
:%!xxd
- 把文件转化为二进制
- 切实是看不懂啊
- 能把这个字节码 (指令) 变成咱们人能看懂的么?
反编译
-
disassembler 这个词由两局部组成
- dis (反着来的)
- assembler (汇编语言)
-
整体就是
- 把 py 源文件编译成的字节码(指令)
- 反编译 (disassembler) 成这些字节码对应的助记符(指令的含意)
- 这能够用么?
- 去试试!
反编译(dis)
- python3 -m dis guido.py
-
咱们能够看见
- 后面是行号
-
每行对应 4 条指令
- LOAD_NAME 装载函数名
- LOAD_CONST 装载参数
- CALL_FUNCTION 调用函数
- POP_TOP 弹栈返回
- 每条指令对应一个字节码
- 那具体这个 LOAD_NAME 是什么意思呢?
指令
- 指令对应着一个字节码状态
- 然而 LOAD_NAME 这条指令
- 具体对应什么二进制字节状态呢?
二进制状态
- 咱们找找程序中的 4 条指令对应的字节状态
4 条指令
指令助记符 | 指令含意 | 十进制状态 | 十六进制状态 |
---|---|---|---|
LOAD_NAME | 装载函数名称 | 101 | 0x65 |
LOAD_CONST | 装载参数 | 100 | 0x64 |
CALL_FUNCTION | 调用函数 | 142 | 0x8e |
POP_TOP | 弹栈返回 | 1 | 0x01 |
- 能够找到源代码的对应关系么?
- 如同找到了
- 然而 0x83 对应的是 GET_AWAITABLE
- 显然 00 83 是从表中的 0 号地位获得字符串变量
- 01 83 是从表中的 1 号地位取字符串
- 以此类推,直到 05 83
-
那这些代码到底是什么指令集的呢?
- 龙芯
- intel
- 还是 arm 呢?
虚拟机的虚构 cpu
- 这些字节码 (bytecode) 对应的是 python 虚拟机下面虚构 cpu 的指令集
- 怎么还有虚拟机
- 虚构 cpu 呢?
- 咱们先把这节课总结一下
总结
-
咱们把 python 源文件
- 词法剖析 失去 词流(token stream)
- 语法分析 失去 形象语法树(Abstract Syntax Tree)
- 编译 失去 字节码 (bytecode)
- 反编译 失去 指令文件
- 不过这个指令文件是基于虚拟机的虚构 cpu 的指令集
- 怎么这么虚呢?🤔
- 咱们下次再说👋
本文章来自于《oeasy 教您玩转 python》(https://www.lanqiao.cn/course…)中第 6 个试验。