整理了OCR相关的资料,希望对您有帮助
简介:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
工具:
1,清华文通Th-OCR 9.0
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。
TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的六大优势:
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
原版地址: http://www.downxp.com/soft/4839.htm
破解下载: http://www.ihdown.com/soft/2252.htm 选择第三个链接下载即可
说明:把下载的winocr.exe文件放到安装的目录里面,运行即可winocr.exe即可,不要删除和运行winocr32.exe.如果你以前安装过其他的破解补丁,请卸载软件重新安装原始版本.因为程序有自校检功能所以不要把winocr32.exe文件删除和修改.运行补丁包的winocr.exe文件即可.修改快捷方式指向winocr.exe即可(原来指向winocr32.exe)没有字体限制,没有扫描限制,没有通用错误警告,完美破解
这是最新的破解版,据说没有任何限制了,我试了一下,在批量导出为RTF格式时仍会出错。
汉王和紫光各有千秋,喜欢紫光的就去下吧。
2,汉王文豪5800
文豪5800除了具备文本王经典版的各项功能,诸如操作简单快捷、一键即可实现扫描识别输出到Word文档外,它还能准确识别各种表格和图像,并新增加了批量工程处理、表格拼接、ACDSee图文索引和摘抄高手等人性化的功能设计。它配备了一台光学分辨率为1200dpi×2400dpi、48位色彩增强技术、USB2.0接口的超薄高速扫描仪,对印刷文稿的识别率能达到99.5%以上,能够轻松识别百余种印刷字体和各种图文混排格式的文本。
对于有批量录入需求的用户来说,文豪5800的“工程文件”能够解决批量录入中的很多问题,它能将工作进度自动进行保存,用户再次打开此项工程的时候它就能自动指向工作的断点,免去了重复查找、识别、校对的麻烦。
要提醒用户的是:如果想将扫描的文字或者表格直接转换为doc、rtf、txt等格式保存的话,一定要注意印刷品的放置方向,如果方向反了的话,识别出来的文字会全部都是乱码,虽然在扫描仪上有印刷品放置方向的提示,但是若非实际使用,用户很难把握怎样放置才能得到正确的扫描输出结果——这也在一定程度上反应出产品细节设计的不足。
总体而言,汉王文本王文豪5800在识别印刷品的时候识别率高,识别速度也比较快,对于有大量文字录入需求以及需要将传统印刷品转换为电子档的用户来说,汉王文本王文豪5800是一个非常不错的选择。不过整体来看,文豪5800的配套软件设计得还不够精致,界面不够美观,风格也不够统一,很多细微的地方应该加以改进。和汉王名片通的配套管理软件比较起来,汉王文本王文豪5800的配套软件显然要逊色得多。
汉王文本王文豪5800的使用比较简单,其配套的印刷版使用手册图文并茂,对硬件安装和软件使用进行了非常详尽的介绍;电子帮助文档比较简单。
简单描述:文稿表格快速录入
一键扫入
WORD输出
省去了传统扫描录入时的灰度调整
倾斜校正等很多步骤
可实现1000页稿件的批量识别录入
最高速度可达6000字/分钟
文表图只需按一键就"复印"入WORD!
下载地址:
汉王文豪5800: http://www.piaodown.com/down/soft/12609.htm
汉王文豪5300:http://www.ddooo.com/softdown/28133.htm
汉王OCR2.5:ftp://software@211.147.168.80/pic/hwdoc.rar
汉王OCR2.5安装说明:
下载的压缩包解压后应该有三个文件:hwdocSetup文件夹、HWDOC 升级2.5.exe、汉王文本王2.5扫描仪破解程序_crk.exe。
安装顺序:
1,先安装hwdocSetup文件夹中的汉王2.3主程序
2,运行“HWDOC 升级2.5.exe”进行升级
3,运行“汉王文本王2.5扫描仪破解程序_crk.exe”进行破解
一切OK!!!
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5。我喜欢用汉王,5300和5800的OCR核心似乎相同,破解也是相同的,据说是完全破解,但批量处理时仍会出错,所以我还是用2.5的。
3,ABBYY FineReader OCR Professional 7.0
ABBYY FineReader 7.0专业版是最新、最准确的ABBYY OCR软件版本。它可以为用户提供最高级别识字精确率,是一个非常节省时间的好方案。FineReader允许你将各种纸张和电子文件转换、编辑以及重新使用,包括:杂志、报纸、传真、复制和PDF文件。
下载地址: http://www.onlinedown.net/soft/24081.htm
慧视小灵鼠
屏幕文字识别系统,可以从数码相机等各种设备摄取的图片中识别文字信息;联机手写文字识别系统, 可以脱离手写板的限制,任意书写文字。慧视-小灵鼠(包括屏幕取字和鼠标手写输入等新技术)
将Disk1.rar至Disk6.rar下载后,解压缩到统一文件夹内, 然后运行Disk1目录下的Setup.exe
下载地址:
http://www.wintone.com.cn/html/service/downlist.asp?channelid=12&catid=21&id=341
下载地址1: http://www.wintone.com.cn/html/service/download/disk1.rar
下载地址2: http://www.wintone.com.cn/html/service/download/disk2.rar
下载地址3: http://www.wintone.com.cn/html/service/download/disk3.rar
下载地址4: http://www.wintone.com.cn/html/service/download/disk4.rar
下载地址5: http://www.wintone.com.cn/html/service/download/disk5.rar
下载地址6: http://www.wintone.com.cn/html/service/download/disk6.rar
我试用了一下,很好用,用于摘抄非常方便,对于那些不能直接COPY的文字,用“慧视”是最方便不过了,省去了文字的输入过程。但美中不足的是不能用于批量识别,校对也不是太方便。要用于批量文件识别,还是汉王好。
其它还有:尚书OCR、汉王OCR、蒙怡OCR、丹青OCR等。
OCR软件使用方法
请参见:
http://www.pconline.com.cn/pcedu/soft/gj/photo/10205/62741.html
http://www.enet.com.cn/eschool/inforcenter/A20040412301679_2.html
如何将PDF文件转为文本?
此问题需分为两部分来解决:
一、如果PDF文档本身由WORD转成:
网上巳有很多这方面的论述,请参阅:
http://www.knowsky.com/4419.html
也可用其它PDF转Word工具,如:“PDF转Word工具”
http://www.cqforest.com/soft/12136.htm
二、如果PDF文档本身由扫描文件转成,用上面的方法就无效了。那就需要分几步来完成:
1,先将PDF转为图片:
可用:“Galcott PDF Converter”软件将PDF转为图片格式
http://www.jfdown.com/SoftView/SoftView_17738.html
2,再用OCR软件识别、校对:
推荐使用“汉王OCR2.5”
ftp://software@211.147.168.80/pic/hwdoc.rar
虽然汉王巳出了5300、5800、6800,但真正完全破解的只有汉王OCR2.5,用它的批文件处理模式可进行自动识别,然后再校对。
3,输出到文本:
完成识别校对后,可用我先前发的“OCR助手”软件
http://www.czzyy.com/personal/wyx/download/OCRPlus.exe
删除多余的换行符并合并导出为单个文本文件。
4,在WORD中作最后的修饰。
如何将PDG(超星格式)文件转为文本?
最简单的办法就是用超星自带的OCR进行文字识别了,不过效果和效率嘛.........
推荐的方法:
总的原理就是先把PDG转为图片,再用专业软件识别、校对,最后输出为文本。
1,将PDG转为图片
首先安装抓图软件“SnagIt”
http://www.xyzdown.com/soft/2617.htm
让你安装此软件,不是要你用它来抓超星的图的~~~,我们需要的是它的“虚拟打印”功能(安装时一定要选中安装虚拟打印)。
使用方法:在“超星”中打开需要进行格式转换的书,然后“打印”,在弹出的窗口中选择打印机时,选择“SnagIt”即可,并设置输出图片为“黑白”(如为“彩色”,那输出的文件大的可怕。),等打印结束后自动弹出SnagIt程序主界面,保存即可。
2,文字识别和校对
3,...........
4.............
请参阅上面的说明。
通过学习如何将PDF或PDG文件转换为文本文件,我们可以发现,关键是如何将源文件转换为图象格式,然后再进行文字识别,本人推荐使用SnagIt和汉王OCR,通用、快捷、方便。
如果以后遇到中国期刊网的CAJ文件、国图的NLC文件......等等等等,就不用我再.......
其它说明:
如果是要OCR PDF文件,似乎文件的大小不应成为障碍,因为我们会将PDF文件的每一页输出为一个图象文件(只要你的磁盘空间允许即可)。
如果一本书就是一个PDF文件,那操作起来会方便得多;反之,如果一本书由多个PDF文件组成,就需要进行重复的操作了。
如果你只是想要OCR其中的一部分内容,可用“打印”的方法(请参阅 http://www.gtcm.info/cgi-bin/topic.cgi?forum=6&topic=289&show=0 ),并在打印时选择相应的页码即可以了。
如果你要分割或合并PDF文件,可以用PDF Split-Merge 软件,下载地址:
http://count.skycn.com/s0ftdownlOad.php?url=http://xj-http.skycn.net:8080/down/HB-PDFSM11-fxj.ZIP
另外:PDF Converter 1.4的Serial: 3861794
图形批量转PDF V4.0
http://www.91dd.com/down/SoftView/SoftView_6088.html
ScanPDF V1.5
该软件获国家版权局软件著作权证书,通过微软Verified for Windows Server 2003 Logo 认证并取得相关证书,目前已成功应用于浙江省交通系统、电力系统等行业市场,赢得了良好的声誉。欲了解更多信息,请登陆:http://www.htit.cn/
1、主要功能
ScanPDF 软件是通过图象输入设备(扫描仪、数码相机等)获取图像直接制作成 PDF 格式文件进行存储的软件。
2、技术特点
◆ 采用先进的压缩算法,压缩效率很高,一张A4纸的PDF大小只有20K左右;
◆ 采用 TWAIN 底层接口开发扫描速度很快;
◆ 支持TWAIN接口的所有扫描议和其它图像输入设备;
◆ 支持多页连续扫描;
◆ 支持 PDF 1.2-1.4(Acrobat 3.0-5.0) 版本;
◆ 支持页面重排;
◆ 支持图像旋转;
◆ 同时提供可执行文件、动态链接库、ActiveX等多种使用方式;
◆ 可选择是否采用扫描仪缺省界面支持;
◆ 支持多种分辨率;
◆ 支持黑白、彩色、灰度和套红几种方式,其中套红是专门为扫描红头文件设计的;
◆ 实时生成 PDF 格式文件;
◆ 支持断点保护;
◆ 图像可以任意缩放;
◆ 操作界面直观;
◆ 自动添加页码标签。
3、适用对象
本软件广泛适用于政府、企事业单位处理公文、档案、财务凭证、工程图纸等原始文档的电子化转存工作。同时使得电子文档使用业界规范的 PDF 文件格式进行存储,利于文档存储、保密、传阅等。
http://www.91dd.com/down/SoftView/SoftView_6083.html
大样文件转PDF专家(PS22PDF) V1.0
《大样文件转PDF专家》是将各种大样文件(又称为二扫文件)转换成PDF文件的工具软件。本软件不需要任何硬件支持,便可在中文MS-Windows9X、WindowsNT、Win2000和WindowsXP环境下显示、打印和转换二扫文件。
主要特性:
1、良好的平台无关性《大样文件转PDF专家》是一个完全独立的应用程序,不需要外挂任何软硬件产品,与Windows系列操作系统具有良好的兼容性。由于它的独特设计,完全可以兼容未来的Windows系统。随着操作系统发展日新月异,我们的所有产品将会兼容其它操作系统,例如Linux。
2、完备的文件格式兼容性《大样文件转PDF专家》不仅可以阅读老的方正二扫文件,如PS2、S72、S2,而且能阅读最新的大样文件格式:MPS和S92。
3、支持图片转换《大样文件转PDF专家》能支持JPG、GIF等图形文件格式。
4、完备的转换方式《大样文件转PDF专家》提供了两种转换方式:直接转换和使用虚拟打印软件转换。直接转换是指:使用《大样文件转PDF专家》打开大样文件,然后直接另存为PDF文件;使用虚拟打印技术转换是指:首先安装一个虚拟打印机(例如Acrobat的Adobe PDF打印机),然后使用《大样文件转PDF专家》将大样文件打印到虚拟打印机,即可得到PDF文件。
5、批量转换:《大样文件转PDF专家》为用户提供批量转换模式,用户可以一次选取一批大样文件,然后指定一种转换方式(分别转换或转换到一个PDF文件),即可得到转换结果。
6、转换速度快:一秒钟可转换50页文档。
7、完全支持GBK标准汉字和图形符号:《大样文件转PDF专家》完全支持GBK的标准汉字和符号,GBK标准定义的21008个汉字以及1038个符号在《大样文件阅读器》中都能显示和打印。
8、支持方正字库:《大样文件转PDF专家》不带任何字库,但它提供了两种显示字体方案。如果你的系统中安装了方正字库,你可以在“设置”菜单的“显示字体方案”中选择使用“方正字库”,此时所有字体均使用方正字库显示和打印。如果你的系统中没有安装了方正字库,你可以在“设置”菜单的“显示字体方案”中选择使用“系统字库”,此时文件使用的所有字体均会使用系统中的相似字体显示和打印。
9、支持大样文件打印。
http://www.365pc.com/soft/16744.htm
PDF Factory Pro 210
PDF制作工厂、这是相当好用的打印机驱动程序,它可以把单页或两页的东西,直接打列印为PDF文件。虚拟打印工具,制作PDF利器,强烈推荐。只要是能打印的东西,都能转成PDF格式。
我常用于超星转PDF(解除阅读限制)
http://www.egogoo.com/software/soft.asp?id=840
http://www.jetdown.com/down/soft/31430.htm
|