关于python:hashlibmd5函数来筛选出系统重复文件并移除

5次阅读

共计 1319 个字符,预计需要花费 4 分钟才能阅读完成。

经常在下载网络素材时有很多的反复文件乌七八糟的,于是想实现一个去重的操作。

【浏览全文】

次要实现思路就是遍历出某个文件夹包含其子文件夹上面的所有文件,最初,将所有文件通过 MD5 函数的比照筛选进去,最初将反复的文件移除。

用到的第三方库都比拟的常见,其中只有 hashlib 是用来比照文件的不是很常见。其余的都是一些比拟常见的第三方库用来做辅助操作。

import os  # 利用文件操作
import hashlib  # 文件比照操作
import logging  # 日志函数操作
import sys  # 零碎利用操作

日志的设置根本都是这一套的范式,依照规定设置好日志打印的相干信息。

logger = logging.getLogger('系统文件去重')
logging.basicConfig(format='%(asctime)s %(levelname)-8s: %(message)s')
logger.setLevel(logging.DEBUG)

文件去重的实现逻辑代码块如下:

diretory = input('请输出须要整顿的文件目录: \n')  # 去重的文件夹门路

if os.path.isdir(diretory):
    logger.info('当前目录 [' + diretory + '] 校验胜利!')
    md5s = []
    for file_path, dir_names, file_names in os.walk(r'' + diretory):
        for file_name in file_names:
            try:
                file_name_path = os.path.join(file_path, file_name)
                logger.info('以后比对门路:'+ file_name_path)
                md5 = hashlib.md5()
                file = open(file_name_path, "rb")
                md5.update(file.read())
                file.close()
                md5_value = md5.hexdigest()
                if md5_value in md5s:
                    os.remove(file_name_path)
                    logger.info('[' + file_name_path + ']呈现反复曾经移除!')
                else:
                    md5s.append(md5_value)
            except:
                logger.error('[' + file_name_path + ']比照产生异样,执行下一个!')

else:
    logger.error('输出的文件夹或者目录不存在!')

以上就是文件去重的整个实现过程,用来做一个清理电脑文件的小工具还是比拟实用的。

【往期精彩】

哈撒给,英雄联盟全皮肤下载器来了 …
PyQt5 的敏感词检测工具制作,运营者的福音 …
手绘图片生成器:以雪容融为例一键生成 …

刚刚出炉的冬奥会吉祥物:冰墩墩,附源码 …
最柔美的表格查看插件:tabulate
抖音同款课堂点名零碎,PyQt5 写起来很简略 …

动工啦!批量向 PDF 文件增加中文水印 …
大年初二、做了一个 windows 告诉管理器!
百度图片下载器 2.0

gif 动静图片生成器,多张图片组合后生成动图 …
python 几个常见的数据处理操作,一行代码就能实现!
过年了,用 PyQt5 生成一副春联吧 …

正文完
 0