关于ocr:一款截屏文字提取超实用的-OCR-小工具

53次阅读

共计 2013 个字符,预计需要花费 6 分钟才能阅读完成。

这个文本 OCR 小工具,能让你「所截即所得」。更多实用工具和干货,记得关注小编哈!

在咱们办公时,是不是常常遇到图片内容转文字的需要?

你是用什么工具解决的呢?是手机自带拍照转文字性能?还是应用 QQ 外面的工具?

明天咱们就为大家介绍一款 GitHub 用户 ianzhao05 刚公布的小工具——textshot,只须要截屏就能实时生成文字。读者也能够通过此我的项目大抵理解如何对图像中的文本进行辨认。

我的项目链接:https://github.com/ianzhao05/textshot

应用办法

运行 textshot.py,在屏幕上关上一个 overlay,在你心愿提取的文字区域画一个矩形。

应用可选的命令行参数指定语言。例如,python textshot.py eng + fra 将应用英语作为次要语言,应用法语作为主要语言。默认值为英语(eng)。同时确保为其余语言装置了实用于 Tesseract 的数据文件。

倡议将热键附加到此工具上。对于 Windows 来说,能够应用 AutoHotkey 脚本来实现此操作;textshot.ahk 同时也蕴含一个能够应用的示例 AHK 脚本。

如果是 Ubuntu 零碎,能够关上「键盘设置」,其中显示了所有 Gnome 快捷方式。底部有一个「+」按钮,可用于增加你本人的快捷方式。单击并将其命令设置为 / usr / bin / python3 <path-to-textshot.py>。如果应用的是 venv,则下面的 python3 门路应指向 venv 的 python3 而不是全局 python3。

如何装置

  1. 装置 Python 3;
  2. 复制 TextShot 库,并应用跳转命令 cd 进入该库;
  3. (可选项)创立一个虚拟环境,例如应用 python -m venv .venv;
  4. 应用 pip install -r requirements.txt 装置所需的软件包;
  5. 装置 Google 的 Tesseract OCR 引擎(https://github.com/tesseract-…),并通过将目录增加到零碎门路来确保能够从命令行拜访 tesseract。

这个实用小工具的开发也离不开谷歌经典 OCR 开源我的项目 Tesseract。

Tessract 的应用

Tesseract 是目前最好的用于机器打印字符识别的开源 OCR 工具。20 世纪 80 年代由 Hewlett Packard 开发,2005 年开源,自 2006 年起由谷歌资助开发。该工具在受控条件下也能很好地运行,然而如果存在大量噪声或者图像输出 Tesseract 前未经失当解决,则性能较差。

Tesseract OCR 引擎于 20 世纪 80 年代呈现,更新迭代至今,它曾经包含内置的深度学习模型,变成了非常持重的 OCR 工具。

Tesseract 反对 Unicode(UTF-8)字符集,能够辨认超过 100 种语言,还蕴含多种输入反对,比方纯文本、PDF、TSV 等。然而为了失去更好的 OCR 后果,还必须晋升提供给 Tesseract 的图像的品质。

值得注意的是,在执行理论的 OCR 之前,Tesseract 会在外部执行多种不同的图像处理操作(应用 Leptonica 库)。通常状况下体现不错,但在一些特定的状况下的成果却不够好,导致准确度显著降落。在将图像传递给 Tesseract 之前,能够尝试以下图像处理技术,但具体应用哪些技术取决于使用者想要读取的图像:

  1. 反转图像
  2. 从新缩放
  3. 二值化
  4. 移除噪声
  5. 旋转 / 调整歪斜角度
  6. 移除边缘

所有这些操作都能够应用 OpenCV 或通过 Python 应用 numpy 实现。

Tesseract (v4) 最新版本反对基于深度学习的 OCR,准确率显著进步。底层的 OCR 引擎应用的是一种循环神经网络(RNN)——LSTM 网络。

中文 OCR 我的项目

中文 OCR,像身份证辨认、火车票辨认都是惯例操作,它也能够实现更炫酷的性能,例如翻译笔在书本上滑动一行,主动获取残缺的图像,并辨认与翻译中文。

目前比拟罕用的中文 OCR 开源我的项目是 chineseocr,它基于 YOLO V3 与 CRNN 实现中文天然场景文字检测及辨认,目前该我的项目曾经有 2.5K 的 Star 量。

之前介绍过另一个开源的中文 OCR 我的项目,基于 chineseocr 做出改良,是一个超轻量级的中文字符识别我的项目。

我的项目地址:https://github.com/ouyanghuiyu/chineseocr_lite

该我的项目示意,相比 chineseocr,chineseocr_lite 采纳了轻量级的骨干网络 PSENet,轻量级的 CRNN 模型和行文本方向分类网络 AngleNet。只管要实现多种能力,但 chineseocr_lite 总体模型只有 17M。目前 chineseocr_lite 反对任意方向文字检测,在辨认时会主动判断文本方向。如下图所示实测成果示例:

逆锋起笔 是一个专一于程序员圈子的技术平台,你能够播种 最新技术动静 最新内测资格 BAT 等大厂的教训 精品学习材料 职业路线 副业思维 ,微信搜寻 逆锋起笔 关注!

正文完
 0