一、你是否遇到过以下问题:
1.老板扔来一堆纸质的文件要你录入电脑
2.群里发来很多任务,要你下单或者写评论,多劳多得
3.领导安排任务把系统里的待办件全部处理完
4.给个网址让你把网页信息复制下来分析
5.多个手机要同时操作,屏幕小加手机换来换去效率低
6.公司强制要求每天的学习进度,要看多长时间的视频和资料
……
这些工作有个共同点,重复耗时且量大。
接下来的知识系列和大家谈谈怎么应对这样的工作。
二、如何解决
重复,耗时大的工作非常适合计算机处理
本文先和大家聊聊怎么快速的将纸质文件录入电脑
1.纯文字
相册-识别文字
先给纸质的文件拍照,如果能扫描纸质文件生成图片更好更清晰。
一般手机相册都增加了图片中文字识别功能,以作者的红米K30为例,点开图片,点击更多菜单,在弹出菜单中选择识别文字,确定开始自动识别。
图1图片中文字识别
识别效果如下:
图2图片文字识别结果
2.有表格
abbyyfinereader
对于有表格结构的纸质文档,作者用过很多文档识别器,如Abbyyfinereader(国外)、AdobeAcrobat(国外)、文通慧视(国内)。前2个需要购买授权,也有破解版,如果有经济实力推荐优先购买。文通慧视百度搜索后有免费下载链接。根据作者使用经验Abbyyfinereader识别效果最佳。
图3纸质表格文档照片
图4AbbyyOCR识别效果
打开软件后点击open-选择图片,即开始自动识别,需要微调的地方,可以在右上侧识别结果窗体中右击文字在弹出菜单中选择正确的字。在左上侧源文件窗体中右击图片选择read,可以重新识别图片。
3.程序批量处理
tesseract-ocr
Github代码平台上火热的开源项目
图5tesseract-ocrgithub开源介绍
tesseract-ocr安装和调用比较简单。有windows的一键安装版本,安装后提供命令给程序调用,而java、python、c++等都有方便的命令行调用API。
tesseract-ocr还可以使用jTessBoxEditor工具进行可视化的训练,可以人工指导tesseract-ocr识别个性化手写体文字图片。
下面是windows下tesseract-ocr安装使用及训练链接
转载请注明地址:http://www.1xbbk.net/jwbfz/3918.html