关于ocr:麒麟操作系统-kylinos-从入门到精通-办公环境-第五十四篇-支持OCR的图片查看软件

51次阅读

共计 1240 个字符,预计需要花费 4 分钟才能阅读完成。

0. 根底环境

类别:笔记本
型号:中国长城 NF14C
硬件平台:飞腾处理器(ArmV8 指令集)
零碎:河汉麒麟操作系统 V10 SP1(2303)

关键词:
信创, 麒麟零碎,linux,c++,c, 飞腾,arm,ocr,acdsee

1. 背景

在咱们日常应用的过程中,特地是 windows 11 后,其自带的看图软件反对 OCR(图片中间接复制出须要 的文本),给了咱们很大的便当。本文试图为大家在麒麟零碎下找到对应的看图软件,晋升大家日常工作的便利性。

2.gImageReader

gImageReader 是一个 GUI 软件,实现利用 tesseract OCR 引擎(Tesseract 自身是命令行工具)从 Linux 中的图像和 PDF 文档中辨认文本。

2.1.1 装置与设置

能够通过市场装置

也能够通过命令行装置

sudo apt install tesseract-ocr -y #装置语言反对引擎,最初失去的是在 /usr/share/tesseract-ocr/4.00/tessdata,其中 4.00 为版本

sudo apt install gimagereader -y

针对中文反对须要下载官网模型
A:https://github.com/tesseract-ocr/tessdata These language data files only work with Tesseract 4.0.0 and newer versions
网友自发的中文模型
B:https://github.com/gumblex/tessdata_chi 中文的非凡反对,下载 https://github.com/gumblex/tessdata_chi/releases/tag/v20220621

sudo chmod 777 -R  /usr/share/tesseract-ocr/4.00/tessdata/ #更改读写权限

先将 A 的数据解压复制进 /usr/share/tesseract-ocr/4.00/tessdata/,再将 B 的数据解压复制进 /usr/share/tesseract-ocr/4.00/tessdata/,如提醒反复可间接笼罩。

2.1.2 应用成果

切换辨认语言

能够选定一个区域,也能够全副辨认,辨认成果如下

能够看到对中文辨认成果并 不现实,不晓得对英文的成果如何。

写在最初

本文尝试多许多网友举荐的 eSearch,Uni-OCR 等,都不反对 ARM64,所以就未收录在本篇文章中。gImageReader 成果尽管不好,但还有肯定的作用,在没有更好的之前仍会保留在本篇文章中。
接下来会持续尝试,尝试找到一个可用的,欠缺的产品或解决方案。

麒麟零碎专栏:
地址一:https://segmentfault.com/blog/kylinos
邮箱:1179611323@qq.com
群:662512340
github:https://github.com/xiaohelong
twitter:https://twitter.com/xiaohelong
发行日志:
20230517 首发

正文完
 0