第一步:安装Microsoft Office Document Imaging
    要安装Microsoft Office Document Imaging,需要先下载该软件。其实Microsoft Office Document Imaging不需要下载,Microsoft Office 2003、2007都提供了该工具,我们可以在“开始”菜单的“Microsoft Office 工具”找到该软件。如果在“Microsoft Office 工具”没有该软件,可以插入Microsoft Office安装盘,选择“Office 工具”中的“Microsoft Office Document Imaging”安装该软件。
    第二步:把PDF文档“打印”为多页面的图像
    Microsoft Office Document Imaging安装后,会给Windows安装一个叫Microsoft Office Document Image Writer的虚拟打印机,该打印机能把任何文档,包括PDF文档打印为MDI或TIF格式的图像:
    1. 用Adobe Reader等PDF浏览器打开PDF文件;
    2. 选择“文件→打印”,打开“打印机”对话框;
    3. 在“名称”中选择“Microsoft Office Document Image Writer”打印机,打印范围可以选择全部页面或当前页面;
    4. 在正式打印前,还需要设置输出格式和图像的保存位置:点击“属性”,选择输出格式和保存文件夹,一般情况下,我们选择MDI格式即可;
    5. 点击“确定”,选择的页面就会被打印为MDI格式的文件
    提示:MDI和TIF是图像文件,它们共同的特点是一个文件中可以包含多页图像,因此我们可以把一个具有很多页的PDF文件打印为一个MDI或TIF文件。
    第三步:执行OCR,把图像中的文字识别为可编辑的文本
    默认设置下,打印完成后,生成的MDI文件会自动被Microsoft Office Document Imaging打开。在Microsoft Office Document Imaging中,我们可以使用“页面窗格”或工具栏上的“上一页”或“下一页”按钮,查看包含在MDI或TIF文件中的多页图像。定位到需要的页面,我们就可以执行OCR识别了。
    1. 选择需要识别的页面,然后点击工具栏上的OCR识别按钮,如图7所示,可以选择所有页面或当前页面进行识别;
    2. 点击“确定”,Microsoft Office Document Imaging启动OCR识别引擎开始对选择的页面进行识别;
    3. 点击工具栏上的框选工具,在需要提取的文字上画框,然后点击右键,选择“将文本发送到WORD”,即可将要提取的文字发送到WORD中;
    4. 如果要将整个页面或所有页面上的文字发送到WORD,可点击工具栏上的“将文本发送到WORD”按钮,在打开的对话框上选择“所有页面”或“当前页面”,即可将所选页面上的文字发送到WORD中。
    提示:MDI文件还有一个特性就是能将识别出的文本和原来的图像同时保存下来。这也就是说,我们下次打开MDI文件,不需要再执行OCR识别,就可把页面上文字发送到WORD中。
    第四步:在WORD中纠错,排版文本
    通过观察发送到WORD的文本,我们会发现很多文字被错误地识别成其它字。实际上,100%地识别图像上文字是不可能的,要提高识别率,我们可选用清晰度较高的PDF文件,另外,如果文件被打印成TIF格式,选择较高的分辨率也能提高识别率。不过还好,借助Word强大的文字编辑与排版功能,我们可以对照原版对识别后的文档进行校正。

文章如转载,请注明转载自:http://www.5iadmin.com/post/175.html