pymupdf 是一个用于处理 PDF 文件的 Python 库,提供了丰富的功能和灵活的接口,使得在 Python 环境中处理 PDF 文件变得简单而强大。该库建立在 MuPDF 渲染引擎的基础上,MuPDF 是一款高性能的 PDF 渲染器,pymupdf 将其封装成一个易于使用的 Python 模块。
主要功能:
打开和查看 PDF 文件:
使用 fitz.open 方法可以打开一个 PDF 文件,返回一个 fitz.Document 对象,通过这个对象可以进行后续的操作。
查看 PDF 中的页面数量,获取页面的尺寸和其他基本信息。
import fitz
pdf_path = "example.pdf"
pdf_document = fitz.open(pdf_path)
# 获取页面数量
num_pages = pdf_document.page_count
print(f"Total number of pages: {num_pages}")
# 获取第一页
first_page = pdf_document[0]
width, height = first_page.rect.width, first_page.rect.height
print(f"Page size: {width} x {height} points")
文本提取和搜索:
通过 get_text 方法可以提取页面上的文本内容,也可以进行基于关键词的搜索。
文本提取可以用于实现 PDF 文本内容的分析和搜索引擎的建立。
# 提取第一页的文本
text = first_page.get_text("text")
print("Text on the first page:", text)
# 搜索关键词
keyword = "Python"
keyword_instances = first_page.search_for(keyword)
print(f"Found {len(keyword_instances)} instances of '{keyword}' on the first page.")
图像提取:
通过 get_pixmap 方法可以获取页面上的图像,这为进一步的图像处理提供了可能性。
图像提取可用于分析 PDF 中的图表、图片等信息。
# 获取第一页的图像
pixmap = first_page.get_pixmap()
pixmap.writePNG("page_1_image.png")
print("Image extracted from the first page.")
PDF 修改和创建:
fitz.Document 对象支持页面的增删改操作,使得可以在现有 PDF 文件的基础上进行修改。
创建新的 PDF 文件,添加页面并设置内容,最后保存为新文件。
# 创建新的 PDF 文档
new_pdf = fitz.open()
# 添加页面并设置内容
new_page = new_pdf.new_page(width, height)
new_page.insert_text((100, 100), "Hello, PDF!")
# 保存为新的 PDF 文件
new_pdf.save("new_document.pdf")
print("New PDF document created.")
PDF 加密和解密:
fitz.Document 对象支持对 PDF 进行加密和解密,保护文档内容的安全性。
# 加密 PDF 文档
pdf_document.encrypt("password")
# 保存加密后的文档
pdf_document.save("encrypted_document.pdf")
print("PDF document encrypted.")
# 解密 PDF 文档
pdf_document.decrypt("password")
# 保存解密后的文档
pdf_document.save("decrypted_document.pdf")
print("PDF document decrypted.")
以上仅是 pymupdf 提供的一小部分功能,该库还支持更高级的特性,如注释的添加、旋转页面、获取链接等。由于 MuPDF 引擎的高效性能,pymupdf 在处理大型 PDF 文件时表现出色,适用于需要在 Python 中进行 PDF 文件处理的各种场景。