关于python:oeasypython0022-python虚拟机反编译cpu架构二进制字节码汇编语言

40次阅读

共计 2947 个字符,预计需要花费 8 分钟才能阅读完成。

程序实质

回顾上次内容

  • python3 的程序是一个 5.3M 的可执行文件

    • 咱们通过 which 命令找到这个 python3.8 的地位
    • 将这个 python3.8 复制到咱们的用户目录下
    • 这个文件还是可能执行的
  • 将这个文件转化为字节状态

    • 的确能够转化
    • 然而这个文件咱们看不懂啊!!!😭
  • 怎么才能看懂这些货色呢?🤔

    • 这个货色咱们的确看不懂
  • 然而有人能看懂

    • 谁呢?

实在的 cpu

  • 无论手机还是计算机

    • 最外围器件的器件就是 cpu
  • 这个货色是个实实在在存在的实体
  • 这个 cpu 就能看懂这些字节码吗?

cpu

  • cpu 能看懂这些字节码!!!
  • 这些字节码

    • 咱们看不懂的
    • cpu 能看懂
    • 这是属于 cpu 的机器语言
    • 这就是 cpu 的一条条的机器指令(instruction)
  • 机器指令码都是二进制字节模式的

    • 咱们尝试把 python3.8 转化为字节表现形式

反汇编 - 汇编语言助记符

# 先把~/python3 对应的机器语言输入为汇编指令模式(反汇编)
objdump -d python3.8 > python3.8.asm
vi python3.8.asm
  • 这次真的能够看懂了

    • 减法(sub)
    • 挪动(mov)
    • 这些指令
  • 能够发现以后零碎的架构 (指令集) 是 x86-64
  • 这些和咱们方才的字节状态有关系吗?

比照

  • 用 vi 分窗口别离关上关上 python3 和 python3.asm
vi -o python3.8hex python3.8.asm
  • 下图中上半局部是机器语言
  • 上图下半局部是机器语言对应的汇编指令助记符
  • ctrl+jctrl+k能够高低窗口切换
  • 咱们来试着找找

    • python3.8 文件中
    • 机器语言的 0101 和 cpu 的汇编指令的对应关系🧐

找到了

  • 上面窗格

    • 先跳到第 8 行
    • endbr64 意味着 64 位完结分支
    • 上面就是第 9 行
  • 第 9 行

    • /48 83 找到高低的对应关系
    • 也就是第一条执行的汇编指令 sub
    • sub 对应 substract 是减法
    • 汇编指令是计算机 cpu 机器指令的助记符

查找对应关系

  • 423000 就是初始化 (init) 的 cpu 开始执行指令的地址
  • 咱们在下面查找 48 83

    • 看有没有对应的字节
    • /4883 ec08 488b…
    • 在下面的窗格中
    • 搜寻这些字节状态
  • 如同找到了对应关系

    • 具体怎么对应的呢?
  • 这台计算机用的是什么指令集呢?
  • 什么是指令集来着?

指令集

  • 指令集就是指令的汇合
  • 指令集也叫计算机的架构
  • 不同架构的 cpu 有不同的指令集

    • 咱们目前的这个浏览器外面的零碎用的是 x86-64
    • 除此之外 armMIPSRISC-V 也是罕用的指令集
  • 指令助记符和机器语言到底是则怎么对应的呢?

回到代码

  • 代码会有不同的 section 模块

    • 入口是 init
    • 作用是初始化initialization
  • 模块外面是具体的指令

    • 比方第一句 48 83 ec 08
  • 为什么 48 83 就能够代表减法
  • 这是谁规定的呢?

查看指令集

  • 这是 cpu 架构规定的

    • 首先要明确到以后机器的 cpu 的架构
    • 反汇编外面说是 x86-64
  • 到 shell 外面验证一下
  • 以后机器所用的架构指令集的确是 x86-64
  • 这是谁的架构呢?

搜寻

  • 不会了就去搜寻😄
  • 去 intel 官网找指令集

查问 x86_64 指令集

  • 找到 cpu 的手册

    • https://www.intel.com/content…
  • 能够找到指令和二进制状态之间的关系么?

    • 先要找到 x86-64 指令集中 48 83 这条指令
  • 留神上图中

    • 100B 中的 B 是 0 或 1
    • 100B 能够是 1000
    • 也能够是 1001
  • 这的确是一条减法指令

    • 而且是 8 位立刻数和寄存器的减法运算

逐渐搜寻

  • 找起来真的很吃力

    • 48 83 ec 08 对应 sub $0x8,%rsp
    • 的确是一条减法指令
    • 的确是 8 位立刻数和寄存器的减法运算
  • 和 objdump 的后果是统一的

    • 废话!!!😠
  • 除了减法指令 sub 之外
  • 还有什么别的指令呢?

更多 cpu 指令

  • 指令那可还有很多的

    • 有运算的
    • 有移位的
    • 加减乘除都有
  • 这些指令的汇合就是指令集

    • 指令集就是 cpu 运行的根底!
  • 这些机器语言的指令不能在别的指令集架构上运行么?

移植 port

  • 想在别的指令集架构上运行程序

    • 就须要移植(port)
    • 移植 (port) 指的是从一种指令集移植到另一种指令集
  • 从这个词的词源

    • 能够看出欧美的航海文化根底

      • port 港口
    • 也能够看出咱们的农耕文化根底

      • 移植
  • 不移植会如何呢?

不移植

  • 这是 playstation2 的架构图

    • cpu 是 mips 架构的
  • 不移植的话

    • 就是让 x86 架构的 pc
    • 去间接执行这些基于 mips 架构的的 0101… 字节码
  • 就像让一个意大利泥瓦匠看一份中文写成的烹饪书来砌墙

    • 鸡同鸭讲
    • 驴唇不对马嘴
    • 0101 的文件执行进去全是乱的
    • 齐全不能用
  • 而且不全是软件的问题

    • 也波及到硬件等方面
    • 可能某个寄存器在新架构中基本就不存在

架构师

  • 这个时候架构师要解决相当多的问题

    • 很不容易的
  • 落实到咱们的 python3.8 游乐场

    • 咱们的 python3.8 就是这样的一系列的 cpu 指令
    • 能够解释 py 文件的
  • python3.8 又是如何解释 py 文件的来着?

python3 执行过程

  • 不论是 python3.8 这个游乐场

    • 还是 hello.py 这个 python 程序
    • 都在咱们的硬盘上
  • 先得把文件从硬盘读到内存

python3 执行的过程大抵是这样

  • 先把 python3.8 这个主解释器加载到内存中

    • 而后在 x86-64 的 cpu 上执行
    • 模拟出一台 python 虚拟机
  • 对 py 文件解释执行
  • 那为什么 py 程序能够跨架构跨平台呢?

架构的档次

  • 不同架构的 cpu 都能够运行 python

    • risc-v
    • arm
    • x64
    • mips
    • 龙芯
  • 不同零碎的环境都能够运行 python

    • win
    • mac
    • linux
    • freebsd

跨架构跨平台原理

  • 因为 python3.8 的源文件

    • 被不同的架构的编译器 编译后
    • 被部署到 不同的 cpu 架构和零碎上
    • 所以同样的 py 文件被加载之后
    • python 程序能够对 py 文件跨架构、跨零碎进行解释执行
    • 一次编写到处运行
  • 不同的架构下

    • 汇编指令都不一样
    • 怎么能正确解释执行同样的 python 程序呢?

跨架构跨平台原理

  • /usr/bin/python3.8 自身是二进制文件

    • 是基于以后操作系统以后架构编译进去的

      • 可执行二进制文件
    • 不同的架构有不同的编译器
    • 不同的编译器编译进去的 python3.8
    • 是不同的二进制指令序列
  • python3.8 构建了一个运行时环境

    • 这个环境能够解释读到的python 语句
    • python 语句 翻译成零碎能读懂输入输出
    • 翻译成以后架构可能执行的代码
  • 而后边解释边执行
  • 祝贺您实现了十分烧脑一个试验!
  • 咱们去总结吧!!!

总结

  • python3 的程序是一个 5.3M 的可执行文件

    • python3 外面全都是 cpu 指令
    • 能够执行的那种
    • 咱们能够把指令对应的汇编找到

      • objdump -d ~/python3 > python3.asm
  • 汇编语句是和以后机器架构的指令集相干的

    • uname -a能够查问指令集
  • 咱们执行的过程其实就

    • 零碎执行 python3 这个可执行文件
    • 给了 python3 一个参数hello.py
    • python3对于 hello.py 一句句的解释执行
    • 在显示器输入了hello world
    • python3执行结束
    • 把控制权交回给 shell
  • 这就是咱们执行 hello.py 的过程
  • 我想输入个略微简单点的货色

    • 能够做上面这个框架题目吗?🤔
  • 咱们下次再说!👋
  • 蓝桥 ->https://www.lanqiao.cn/teache…
  • github->https://github.com/overmind19…
  • gitee->https://gitee.com/overmind198…
  • 视频 ->https://www.bilibili.com/vide… 作者:oeasy

正文完
 0