0.根底环境

类别:笔记本
型号:中国长城 NF14C
硬件平台:飞腾处理器(ArmV8 指令集)
零碎:河汉麒麟操作系统 V10 SP1(2303)

关键词:
信创,麒麟零碎,linux,c++,c,飞腾,arm,ocr,acdsee

1.背景

在咱们日常应用的过程中,特地是windows 11后,其自带的看图软件反对OCR(图片中间接复制出须要 的文本),给了咱们很大的便当。本文试图为大家在麒麟零碎下找到对应的看图软件,晋升大家日常工作的便利性。

2.gImageReader

gImageReader是一个GUI软件,实现利用tesseract OCR引擎(Tesseract自身是命令行工具)从Linux中的图像和PDF文档中辨认文本。

2.1.1 装置与设置

能够通过市场装置

也能够通过命令行装置

sudo apt install tesseract-ocr -y #装置语言反对引擎,最初失去的是在/usr/share/tesseract-ocr/4.00/tessdata ,其中4.00 为版本sudo apt install gimagereader -y

针对中文反对须要下载官网模型
A:https://github.com/tesseract-ocr/tessdata These language data files only work with Tesseract 4.0.0 and newer versions
网友自发的中文模型
B:https://github.com/gumblex/tessdata_chi 中文的非凡反对,下载https://github.com/gumblex/tessdata_chi/releases/tag/v20220621

sudo chmod 777 -R  /usr/share/tesseract-ocr/4.00/tessdata/ #更改读写权限

先将A的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,再将B的数据解压复制进/usr/share/tesseract-ocr/4.00/tessdata/,如提醒反复可间接笼罩。

2.1.2应用成果


切换辨认语言

能够选定一个区域,也能够全副辨认,辨认成果如下

能够看到对中文辨认成果并不现实,不晓得对英文的成果如何。

写在最初

本文尝试多许多网友举荐的eSearch,Uni-OCR等,都不反对ARM64,所以就未收录在本篇文章中。gImageReader成果尽管不好,但还有肯定的作用,在没有更好的之前仍会保留在本篇文章中。
接下来会持续尝试,尝试找到一个可用的,欠缺的产品或解决方案 。

麒麟零碎专栏:
地址一:https://segmentfault.com/blog/kylinos
邮箱:1179611323@qq.com
群:662512340
github:https://github.com/xiaohelong
twitter:https://twitter.com/xiaohelong
发行日志:
20230517 首发