昨天说到把Word转换为PDF,《用Python批量把Word转换为Pdf》。没想到还蛮受大家欢迎的，我们今天继续。我们经常在网络下载一些Pdf文件，Pdf非常好用，但是我们需要观看的时候；可能需要进行一些备注、或者修改就比较麻烦了。今天给大家介绍下，怎么用Python批量把Pdf转化为Word。

1环境准备

python3

pdfminer3k
python-docx

PDF转Word功能所需的依赖包如下：

PDFParser（文档分析器）

PDFDocument（文档对象）

PDFResourceManager（资源管理器）

PDFPageInterpreter（解释器）

PDFPageAggregator（聚合器）

LAParams（参数分析器）

2Python代码

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document
import os

document = Document()

def createWord(wordpath, pdfpath):
# rb以二进制读模式打开本地pdf文件
fn = open(pdfpath,’rb’)
# 创建一个pdf文档分析器
parser = PDFParser(fn)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器与文档对象
parser.set_document(doc)
doc.set_parser(parser)

# 提供初始化密码doc.initialize("lianxipython")
# 如果没有密码 就创建一个空的字符串
doc.initialize("")
# 检测文档是否提供txt转换，不提供就忽略
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed

else:
    # 创建PDf资源管理器
    resource = PDFResourceManager()
    # 创建一个PDF参数分析器
    laparams = LAParams()
    # 创建聚合器,用于读取文档的对象
    device = PDFPageAggregator(resource,laparams=laparams)
    # 创建解释器，对文档编码，解释成Python能够识别的格式
    interpreter = PDFPageInterpreter(resource,device)
    # 循环遍历列表，每次处理一页的内容
    # doc.get_pages() 获取page列表
    for page in doc.get_pages():
        # 利用解释器的process_page()方法解析读取单独页数
        interpreter.process_page(page)
        # 使用聚合器get_result()方法获取内容
        layout = device.get_result()
        # 这里layout是一个LTPage对象,里面存放着这个page解析出的各种对象
        for out in layout:
            # 判断是否含有get_text()方法，获取我们想要的文字
            if hasattr(out,"get_text"):
                # print(out.get_text(), type(out.get_text()))
                content = out.get_text().replace(u'\xa0', u' ')  # 将'\xa0'替换成u' '空格，这个\xa0就是&nbps空格
                # with open('test.txt','a') as f:
                #     f.write(out.get_text().replace(u'\xa0', u' ')+'\n')
                document.add_paragraph(
                    content, style='ListBullet'    # 添加段落，样式为unordered list类型
                )
            document.save(wordpath)  # 保存这个文档

遍历当前目录，并把Pdf文件转换为Word

def pdfToWord():
print(“转换中…”)
# 获取当前运行路径
path = os.getcwd()
# 获取所有文件名的列表
filename_list = os.listdir(path)
# 获取所有pdf文件名列表
pdfname_list = [filename for filename in filename_list \
if filename.endswith((“.pdf”))]
for pdfname in pdfname_list:
# 分离pdf文件名称和后缀，转化为word名称
wordname = os.path.splitext(pdfname)[0] + ‘.docx’
# 如果当前pdf文件对应的word文件存在，则不转化
if wordname in filename_list:
continue
# 拼接路径和文件名
wordpath = os.path.join(path, wordname)
pdfpath = os.path.join(path, pdfname)
createWord(wordpath,pdfpath)

if name == ‘main‘:
pdfToWord()

3使用方法

把Py文件放入Pdf文档的目录中，点击运行Py文件就会自动转换。当然了也可以用PyInstaller打包为exe文件，这样就不用安装Python环境，并且可以多平台使用。

好了，今天就分享到这边，大家有什么想法，欢迎给我留言讨论。觉得有用的，点击下{在看}。

阅读原文 >>

声明：来自编程乐趣，仅代表创作者观点。链接：https://eyangzhen.com/8482.html

Python自动化办公：批量Pdf转换Word

遍历当前目录，并把Pdf文件转换为Word

相关推荐