纸质表格录入电脑图片转文字

一、你是否遇到过以下问题：

1.老板扔来一堆纸质的文件要你录入电脑

2.群里发来很多任务，要你下单或者写评论，多劳多得

3.领导安排任务把系统里的待办件全部处理完

4.给个网址让你把网页信息复制下来分析

5.多个手机要同时操作，屏幕小加手机换来换去效率低

6.公司强制要求每天的学习进度，要看多长时间的视频和资料

……

这些工作有个共同点，重复耗时且量大。

接下来的知识系列和大家谈谈怎么应对这样的工作。

二、如何解决

重复，耗时大的工作非常适合计算机处理

本文先和大家聊聊怎么快速的将纸质文件录入电脑

1.纯文字

相册-识别文字

先给纸质的文件拍照，如果能扫描纸质文件生成图片更好更清晰。

一般手机相册都增加了图片中文字识别功能，以作者的红米K30为例，点开图片，点击更多菜单，在弹出菜单中选择识别文字，确定开始自动识别。

图1图片中文字识别

识别效果如下：

图2图片文字识别结果

2.有表格

abbyyfinereader

对于有表格结构的纸质文档，作者用过很多文档识别器，如Abbyyfinereader（国外）、AdobeAcrobat（国外）、文通慧视（国内）。前2个需要购买授权，也有破解版，如果有经济实力推荐优先购买。文通慧视百度搜索后有免费下载链接。根据作者使用经验Abbyyfinereader识别效果最佳。

图3纸质表格文档照片

图4AbbyyOCR识别效果

打开软件后点击open-选择图片，即开始自动识别，需要微调的地方，可以在右上侧识别结果窗体中右击文字在弹出菜单中选择正确的字。在左上侧源文件窗体中右击图片选择read，可以重新识别图片。

3.程序批量处理

tesseract-ocr

Github代码平台上火热的开源项目

图5tesseract-ocrgithub开源介绍

tesseract-ocr安装和调用比较简单。有windows的一键安装版本，安装后提供命令给程序调用，而java、python、c++等都有方便的命令行调用API。

tesseract-ocr还可以使用jTessBoxEditor工具进行可视化的训练，可以人工指导tesseract-ocr识别个性化手写体文字图片。

下面是windows下tesseract-ocr安装使用及训练链接

最新文章