《PDF文件转DOC方法》不顶请勿进。认为不好请说理由！|【求学&教学心得互助】

只看楼主倒序阅读 0 发表于: 2006-07-28

— 本帖被妙手仁心从求医问药&学术交流移动到本区(2008-08-21) —

《PDF文件转DOC方法》不顶请勿进。认为不好请说理由！

方法一：使用Adobe Professional 7.0（也可以是6.0或5.0的，但必须是professional版），对于某些pdf的文件，可以选择“文件”——“另存为”，在“保存类型”里选择"Microsoft word文档（*.doc）"，输入新格式的文件名，或保持原文件名称不变，“确定”，即可实现将pdf文件转化为doc格式的文件了，也可以选择“rtf格式”，该格式也是用word打开的，而且和word的格式是没有什么差别的。
方法二：利用中文简体版的office2003中自带的一个插件工具Microsoft Office Document Imaging，
第一步：首先使用Adobe Reader打开待转换的PDF文件，接下来选择“文件→打印”菜单，在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”，确认后将该PDF文件输出为MDI格式的虚拟打印文件。
编辑提示：如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项，那证明你在安装Office 2003的时候没有安装该组件，请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件，如图4所示。
第二步：运行Microsoft Office Document Imaging，并利用它来打开刚才保存的MDI文件，选择“工具→将文本发送到Word”菜单，并在弹出的窗口中勾选“在输出时保持图片版式不变”，确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”，不管它，确认即可。
编辑提示：目前，包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美，而且转换后会丢失原来的排版格式，所以大家在转换后还需要手工对其进行后期排版和校对工作。
评论：（1）这种转化方法很方便而且由于是微软自己的，兼容性很好，而且速度也是挺快的，另外在第一步的时候将文件输出为高品质的TIFF文件效果会更好。
（2）但是这种方法仅仅对于文字内容为简体中文的pdf文件有效，在Microsoft Office Document Imaging这个工具的OCR语言选项只有简体中文和英文两种选项，即使把office2003的系统语言换成繁体中文，OCR语言选项里面依然只有简体中文和英文的选项，还是无法实现识别繁体中文的任务。上网寻找微软有没有提供识别繁体中文的插件，只是在台湾微软的下载页面下找到微软为繁体中文版office提供的一个简体中文OCR的辨认引擎，没有能够找到繁体中文的辨认引擎。就此推断，是不是繁体中文版的office2003会有这个繁体中文引擎自带，由于没有找到能用的繁体中文版office2003下载，留待以后再试。
方法三：微软简体中文版office2003没有自带繁体中文的OCR辨认引擎，但是由于它的虚拟打印机提供了TIFF文件的输出（在“打印机”旁边的“设置”里有个“高级”的选项卡可以设置文件输出格式），所以对于一部份繁体中文内容的pdf文件，我们可以采取先将其打印成TIFF格式的文件，然后通过其它OCR软件来进行识别，这些软件中我试用了几种，还是清华文通的OCR9.0比较好，相对识别率比较高，这个软件下载地址为ftp://ftp.math.nankai.edu.cn/pub/win32/tools/ocr/
（可能只有教育网用户才能连接，端口21，匿名就可以访问，用ftp工具下载最好，），还需要一个破解补丁OCR9.0补丁地址：http://www.ihdown.com/soft/2252.htm 。（最下面一个“清华OCR－－TH-OCR9.0完全破解”的链接有效。不过这个补丁可能是不完全补丁，所以有些功能还是有限制。）[另外网上也有很多地方提供下载这个软件的破解版的，可以用Google去找找]。安装好这个软件以后，就可以用这个软件打开刚才我们保存的TIFF格式的文件，选择好正确的识别语言（我们选着繁体多体）识别就可以得到txt格式的文件了。
评论：（1）这个软件比较好，你还可以对照原文进行校对，比较方便。需要注意的就是要选好识别语言，并且这个软件识别繁体pdf文件后出来的文本存在较多的错误，需要比较精细的校正一下。
(2)这个软件也有不足的地方，尤其是繁体中文，似乎和原始文件的分辨率有关系，比如益智斋主人给我发的几个文件，怎么也不能识别出来，还需要进一步研究一下。
方法四：这可能是最简单的方法了，就是网上有个免费识别的网站 http://www.netocr.com/ 可以帮你免费识别，具体可以去那里看看。

共1条评分

By chemman

威望 +1

| 理由: 谢谢提供信息

2006-07-28

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

离线flycell

大一

只看该作者 1 发表于: 2006-08-31

顶一下，以后用的着

离线dongdong

大一

只看该作者 2 发表于: 2006-09-03

先顶一下，转头试试。

离线杏仁

大一

只看该作者 3 发表于: 2006-09-03

支持～·

离线sunzhenhui

大一

只看该作者 4 发表于: 2006-09-04

太费力气了把，试试这个软件，爽死！
http://www.51ct.cn/search.asp
[文件处理] SolidConverterPDF PRO(超酷PDF转换WORD工具) v3.0 绿色特别版
SolidConverterPDF v3.0 PRO 绿色特别版 PDF转换为WORD,TXT,图片等格式工具对中文支持一级棒,是目前同类软件中最出色的基于11.13日发布的破解版肚朝前@cnfan.org原创提取绿化免安装,免注册. 直接解压就可用 (若第一次运行弹出注册界面,可..

共1条评分

By chemman

贡献值 +1

| 理由: 感谢您的意见

2006-09-04