4个免费的在线OCR工具进行了最终测试

如果要将任何打印的文本转换为可以复制,粘贴,编辑和搜索的数字文本,则需要使用光学字符识别(OCR)扫描仪。

选择要扫描或拍摄文档的照片,将以JPEG或PDF等格式保存。然后,OCR软件可以识别这些文档中的字母和数字,并将它们转换为可搜索的PDF或可以在Microsoft Word等程序中编辑的文件。

问题是,某些OCR扫描仪可以工作

Omnipage18的价格为150美元,但是特别擅长识别不同的语言。 Adobe Acrobat Pro DC的价格高达400美元,但准确性令人难以置信。 ABBYY FineReader的价格为150美元,但对于将杂志和小册子等文档转换为可搜索的文本来说,却是很棒的选择。我们将在本文稍后的部分中测试ABBYY的在线产品。

但是,如果您想要免费的替代品,可以在Windows或OS X上下载并使用它们,则应该试用这些OCR工具。但是,如果您想使用免费的在线 OCR工具,请继续阅读,因为我们尝试了几种方法,结果如下。

测试

似乎大多数人现在都在使用智能手机进行扫描,所以我决定使用Evernote的Scannable应用程序(在iOS和Android上免费)。我浏览了理查德·道金(Richard Dawkin)的难以攀登的山峰的第一页,以了解使用非常基本的格式可以得到什么结果。我还扫描了蒂姆·费里斯(Tim Ferriss)的 4小时厨师页面,以尝试使用格式稍微复杂一些的扫描仪。我将每个文件另存为PDF。

然后,这些文档通过一些据称最好的在线OCR工具运行,以查看效果如何。

免费在线OCR [不再可用]

很高兴,无需注册即可使用免费在线OCR。当我看到他们声称保留我的文档的格式和布局时,我印象深刻。

该网站声称能够支持PDF,GIF,BMP,JPEG,TIFF和PNG作为输入。输出可以是DOC,PDF文本文档,RTF和TXT。不幸的是,我无法确定它们是否有文件大小限制。

基本文档为PDF
转换得非常完美。没什么可说的了!我们已经有了一个非常好的开始。

从DOC到DOC的基本文档
除了“拉什莫尔山"中的“ ount"以某种方式出现。格式是另外一个故事。下划线替换了许多逗号,并且在整个文档中的各个点插入了随机空格。当您稍后看到高级软件在此测试中的表现时,完全不是一件容易的事。

将文档复杂化为PDF
转换文档花费了120秒钟!完成后,所有文本都已以大约95%的准确度进行了转换,尽管页面右上方的单独框中的文本不可搜索。 PDF中的其他一些字符也不正确。

将文档复杂转换为DOC
这一次,转换只用了10秒钟,而文本又被转换为95%的准确性。有一些奇怪的间距问题,该软件在转换文档右上角的字体时遇到了麻烦,并且在这里和那里错过了一些字符。

判断
如果要将简单格式的文档转换为PDF,这是一个很棒的工具。就转换为DOC而言,没有什么值得写的内容。

i2OCR

i2OCR提出了一些令人印象深刻的主张。该工具可识别60多种语言,可以处理多列布局(通过删除格式),没有文件大小限制,可以从URL转换上传的文件。而且您也无需注册即可使用此工具。

该服务的工作原理是简单地从图像中提取文本,然后输出未格式化的文本。在将文本复制到其他程序或以DOC,PDF或HTML格式下载之前,您可以在并排视图中快速纠正任何错误。

注意:当我尝试上传时我的PDF文档被i2OCR拒绝了,所以我需要将它们转换为JPEG(通过截取它们的屏幕快照,然后上传文件)。

判决
>
对于基本文档,i2OCR很好用。下载之前可以编辑文本的功能也非常不错。但是,对于更复杂的文档,转换仍然非常准确,但是文本的输出方式不会使您的生活变得更轻松。

在线OCR

在线OCR当前支持46种不同的语言,并且可以将PDF,JPG,BMP,TIFF和GIF转换为Word,Excel或纯文本格式。该网站声称“转换后的文档看起来与原始文档完全一样-表格,列和图形"。

无需注册即可使用的版本允许您每小时最多转换15张图像(限制为5mb)。如果您注册了一个帐户,则可以购买此限制之外的更多页面,同时还可以转换多页文档和ZIP存档。

基本文档到DOC
基本文档进行了完美的转换,除了没有拾取罗马数字 I 。正如该网站所承诺的那样,格式与书中的格式完全相同。

将复杂文档转换为DOC
以前的OCR工具对转换复杂文档感到失望之后,在线OCR给我留下了深刻的印象。如上所见,布局几乎完美。再次,虽然食谱没有得到很好的解决,但是其他任何轻微的错误都可以忽略不计。

判决

在线OCR的结果绝对令人称奇。我看到的唯一缺点是,由于提到的输出格式仅包括DOCX,XLSX和TXT,因此无法将转换后的文档下载为PDF。

ABBYY FineReader Online(10页试用版)

如前所述,ABBYY是OCR软件的市场领导者之一,完整的可下载程序的价格约为150美元。不过,他们确实为在线工具提供了 10页免费试用版(需要注册)。对于$ 5的订阅费用,他们的在线工具将允许您每月转换200页。

可接受的文件最大为100mb,采用以下任何格式:PDF,JPG,JPEG,TIF,TIFF, PCX,DCX,BMP和PNG。 ABBYY还可以识别近200种语言。输出尤其令人印象深刻,您可以在DOCX,XLSX,RTF,TXT,PPTX,ODT,PDF,FB2和EPUB之间进行选择。

您甚至可以在试用期间试用一些BETA功能。第一种是将文档翻译成另一种语言的选项。另一种是将转换后的文档导出到您的云存储帐户,无论是Dropbox,Google Drive,Evernote,Microsoft OneDrive还是Box。

基本文档到DOCX
总体效果不错,但考虑到这是一款优质产品,并不令人惊讶。交换了多个逗号和句点,用星号替换了几个反逗号,缺少几个大写字母,并且一个单词(文学家)的拼写错误。

将文档复杂化为DOCX
转换后,文档中的文本几乎没有错误(除了OCR再次使用该配方的字体挣扎!),但格式设置还有很多不足之处。

这三列以某种方式占据了两页,中间的列仅出现在第二页上。如果您想对转换后的文档进行实际的任何操作,最终都会把头发拔出来。

基本文档为PDF
在查看转换后的PDF时,我根本找不到任何错误。也许我们发现了ABBYY的优势。很棒的结果。

将文档复制为PDF
同样,在此转换后的文件中我找不到任何错误。 ABBYY显然非常清楚如何转换为PDF。

Verdict
If you’re happy paying a few dollars, converting to PDF seems to work phenomenally well with this service, and being able to sync converted files to your cloud storage is especially useful if you’re scanning a large volume of documents. As with the other options though, ABBYY still hasn’t figured out how to flawlessly convert documents to DOC for easy editing.

最终结果

如果像大多数人一样,您只是想扫描一些杂志文章和一些家庭刊物,帐单,则无需编辑这些文档。因此,直接转换为PDF非常适合您,因为您仍然可以搜索这些文档。为此,免费在线OCR绝对是我们测试过的最好的免费工具。话虽如此,如果您愿意每月支付5美元以获取近乎完美的效果,那么ABBYY的《 FineReader Online》会更加准确。

在将文档转换为DOC时,我们没有找到任何完美的解决方案,但到目前为止,最好的结果来自在线OCR。转换并不是完美的,但是格式的完整性在很大程度上保持不变,并且错误可以忽略。当我们将这些结果与ABBYY提供的“高级"服务进行比较时,您会为之留下深刻的印象。

我们在这篇文章中没有提到Google云端硬盘的OCR功能;一点点说明了Google的无处不在,但更多的是因为我们想在那里测试其他一些免费的在线OCR服务。

为您服务:您建议您使用哪些其他在线OCR工具我们的读者?以及您尝试过不再使用的哪个工具?

标签: 文件转换 OCR