关于人工智能:计算-Python-代码的内存和模型显存消耗的小技巧

理解Python代码的内存耗费是每一个开发人员都必须要解决的问题，这个问题不仅在咱们应用pandas读取和解决CSV文件的时候十分重要，在咱们应用GPU训练的时候还须要布局GPU的显存应用。尤其是咱们在白嫖应用kaggle和colab时显得更为重要。

本篇文章咱们将介绍两个 Python 库 memory_profiler和Pytorch-Memory-Utils，这两个库能够帮忙咱们理解内存和显存的耗费。

memory_profiler

pipinstallmemory_profiler#Load its magic function
%load_extmemory_profiler
frommemory_profilerimportprofile

memory_profiler能够实现以下的工作：

1、查找一行的内存耗费

咱们只须要在代码的后面加上魔法函数 %memit

%memitx = 10+5
#Output
peakmemory: 54.01MiB, increment: 0.27MiB

这里，峰值内存（peak memory）是运行此代码的过程耗费的内存。增量只是因为增加这行代码而须要/耗费的内存。同样的逻辑也实用于以下其余的显示。

2、查找函数的内存耗费

在调用函数的行的结尾增加魔法函数。

defaddition():
    a = [1] * (10**1)
    b = [2] * (3*10**2)
    sum = a+b
    returnsum

%memitaddition()
#Output
peakmemory: 36.36MiB, increment: 0.01MiB

3、逐行查找函数的内存耗费

如果须要记录函数中每一行的内存应用，咱们能够应用@profile 装璜器。然而@profile 仅实用于在独自模块中定义的函数，因而咱们将首先应用 %%file 创立一个名为 demo.py 的简略模块，其中蕴含咱们的函数

%%filedemo.py
frommemory_profilerimportprofile

@profile
defaddition():
    a = [1] * (10**1)
    b = [2] * (3*10**2)
    sum = a+b
    returnsum

当初，咱们能够调用该函数

fromdemoimportaddition

%memitaddition()

#Output
Line#    Mem usage    Increment   Line Contents
================================================
     2     36.4MiB     36.4MiB   @profile
     3                             defaddition():
     4     36.4MiB      0.0MiB       a = [1] * (10**1)
     5   3851.1MiB   3814.7MiB       b = [2] * (3*10**2)
     6   7665.9MiB   3814.8MiB       sum = a+b
     7   7665.9MiB      0.0MiB       returnsum
peakmemory: 7665.88MiB, increment: 7629.52MiB

4、残缺python脚本的内存耗费

这个这个办法不能再 notebook 中应用。咱们必须创立 python 脚本并通过命令行运行它。

#create script.py
importtime

@profile
deffunction1():
    n = 100000
    a = [1] *n
    time.sleep(1)
    returna
    
@profile
deffunction2():
    n = 200000
    b = [1] *n
    time.sleep(1)
    returnb

if__name__ == "__main__":
    function1()
    function2()

之后运行脚本并查看

#On command line
mprofrunscript.py
#To generate plot 
mprofplot

咱们能够看到内存耗费与工夫的关系图

@profile装璜器没有必要放在函数后面，如果咱们不保留它，咱们不会看到函数级内存耗费，但咱们会看到整个脚本的内存耗费

Pytorch-Memory-Utils

通过Pytorch-Memory-Utils工具，咱们在应用显存的代码两头插入检测函数，这样就能够输入在以后行代码时所占用的显存。这个对于咱们计算模型的GPU显存占用是十分不便的，通过计算显存占用，咱们才可能最大化训练的batch size，保障训练的最优速度。

importtorch
importinspect

fromtorchvisionimportmodels
fromgpu_mem_trackimportMemTracker  # 援用显存跟踪代码

device = torch.device('cuda:0')

frame = inspect.currentframe()     
gpu_tracker = MemTracker(frame)      # 创立显存检测对象

gpu_tracker.track()                  # 开始检测
cnn = models.vgg19(pretrained=True).to(device)  # 导入VGG19模型并且将数据转到显存中
gpu_tracker.track()

而后能够发现程序运行过程中的显存变动（第一行是载入前的显存，最初一行是载入后的显存）：

At __main__<module>: line 13                        Total Used Memory:472.2  Mb

+ | 1 * Size:(128, 64, 3, 3)      | Memory: 0.2949 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(256, 128, 3, 3)     | Memory: 1.1796 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(64, 64, 3, 3)       | Memory: 0.1474 M | <class'torch.nn.parameter.Parameter'>
+ | 2 * Size:(4096,)              | Memory: 0.0327 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(512, 256, 3, 3)     | Memory: 4.7185 M | <class'torch.nn.parameter.Parameter'>
+ | 2 * Size:(128,)               | Memory: 0.0010 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(1000, 4096)         | Memory: 16.384 M | <class'torch.nn.parameter.Parameter'>
+ | 6 * Size:(512,)               | Memory: 0.0122 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(64, 3, 3, 3)        | Memory: 0.0069 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(4096, 25088)        | Memory: 411.04 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(4096, 4096)         | Memory: 67.108 M | <class'torch.nn.parameter.Parameter'>
+ | 5 * Size:(512, 512, 3, 3)     | Memory: 47.185 M | <class'torch.nn.parameter.Parameter'>
+ | 2 * Size:(64,)                | Memory: 0.0005 M | <class'torch.nn.parameter.Parameter'>
+ | 3 * Size:(256,)               | Memory: 0.0030 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(128, 128, 3, 3)     | Memory: 0.5898 M | <class'torch.nn.parameter.Parameter'>
+ | 2 * Size:(256, 256, 3, 3)     | Memory: 4.7185 M | <class'torch.nn.parameter.Parameter'>
+ | 1 * Size:(1000,)              | Memory: 0.004 M | <class'torch.nn.parameter.Parameter'>

At __main__ <module>: line 15                        Total Used Memory:1387.5 Mb

通过下面的报告，很容易发现一个问题。

首先咱们晓得VGG19所有层的权重大小加起来大概是548M(这个数值来源于Pytorch官网提供的VGG19权重文件大小)，咱们将下面报告打印的Tensor-Memory也都加起来算下来也差不多551.8Mb。然而，咱们算了两次打印的显存理论占用中：1387.5 – 472.2 = 915.3 MB。

Pytorch在开始运行程序时须要额定的显存开销，这种额定的显存开销与咱们理论应用的模型权重显存大小无关。这个额定的显存Pytorch的开发者也对此进行阐明了，这部分开释后的显存能够用，只不过不在Nvidia-smi中显示，所以咱们无需关注。

关于人工智能:计算-Python-代码的内存和模型显存消耗的小技巧

memory_profiler

Pytorch-Memory-Utils

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:计算-Python-代码的内存和模型显存消耗的小技巧

memory_profiler

Pytorch-Memory-Utils

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复