纸质表格录入电脑图片转文字

一、你是否遇到过以下问题:

1.老板扔来一堆纸质的文件要你录入电脑

2.群里发来很多任务,要你下单或者写评论,多劳多得

3.领导安排任务把系统里的待办件全部处理完

4.给个网址让你把网页信息复制下来分析

5.多个手机要同时操作,屏幕小加手机换来换去效率低

6.公司强制要求每天的学习进度,要看多长时间的视频和资料

……

这些工作有个共同点,重复耗时且量大。

接下来的知识系列和大家谈谈怎么应对这样的工作。

二、如何解决

重复,耗时大的工作非常适合计算机处理

本文先和大家聊聊怎么快速的将纸质文件录入电脑

1.纯文字

相册-识别文字

先给纸质的文件拍照,如果能扫描纸质文件生成图片更好更清晰。

一般手机相册都增加了图片中文字识别功能,以作者的红米K30为例,点开图片,点击更多菜单,在弹出菜单中选择识别文字,确定开始自动识别。

图1图片中文字识别

识别效果如下:

图2图片文字识别结果

2.有表格

abbyyfinereader

对于有表格结构的纸质文档,作者用过很多文档识别器,如Abbyyfinereader(国外)、AdobeAcrobat(国外)、文通慧视(国内)。前2个需要购买授权,也有破解版,如果有经济实力推荐优先购买。文通慧视百度搜索后有免费下载链接。根据作者使用经验Abbyyfinereader识别效果最佳。

图3纸质表格文档照片

图4AbbyyOCR识别效果

打开软件后点击open-选择图片,即开始自动识别,需要微调的地方,可以在右上侧识别结果窗体中右击文字在弹出菜单中选择正确的字。在左上侧源文件窗体中右击图片选择read,可以重新识别图片。

3.程序批量处理

tesseract-ocr

Github代码平台上火热的开源项目

图5tesseract-ocrgithub开源介绍

tesseract-ocr安装和调用比较简单。有windows的一键安装版本,安装后提供命令给程序调用,而java、python、c++等都有方便的命令行调用API。

tesseract-ocr还可以使用jTessBoxEditor工具进行可视化的训练,可以人工指导tesseract-ocr识别个性化手写体文字图片。

下面是windows下tesseract-ocr安装使用及训练链接



转载请注明地址:http://www.1xbbk.net/jwbfz/3918.html


  • 上一篇文章:
  • 下一篇文章:
  • 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权声明
    冀ICP备19027023号-7