python读取doc文件作者,最后编辑人
这怎么实现呢,将doc改成docx会改变文件的属性信息
能否直接读出doc文件的属性信息呢
该回答引用chatgpt:
from docx import Document
# 将DOC文件转换为DOCX格式
def convert_doc_to_docx(doc_file, docx_file):
doc = Document(doc_file)
doc.save(docx_file)
# 读取DOCX文件的属性信息
def read_docx_properties(docx_file):
doc = Document(docx_file)
# 读取作者信息
author = doc.core_properties.author
# 读取最后编辑人信息
last_modified_by = doc.core_properties.last_modified_by
return author, last_modified_by
# 将DOC文件转换为DOCX格式
#convert_doc_to_docx('example.doc', 'example.docx')
# 读取转换后的DOCX文件的属性信息
author, last_modified_by = read_docx_properties('/Users/changzhenwei/Desktop/11.docx')
# 输出属性信息
print("作者:", author)
print("最后编辑人:", last_modified_by)
本文的需求是提取docx文档里面的数据信息,包括文本和Excel表格信息。
经过一上午的搜索,目前找到了一些文字,整理成自己需要的的代码。
可以使用python-docx这个包来读取doc文件的属性信息。安装该包后,可以使用Document对象的core_properties属性来获取文档的作者和最后编辑人信息。具体步骤如下:
1.安装python-docx包,可以使用pip命令:
pip install python-docx
2.导入需要的模块:
from docx import Document
3.创建一个Document对象:
doc = Document('example.doc')
其中example.doc是需要读取信息的doc文件的文件名。
4.获取文档的作者和最后编辑人信息:
author = doc.core_properties.author
last_modified_by = doc.core_properties.last_modified_by
5.将获取到的信息输出或进行其他操作。例如:
print('Author:', author)
print('Last modified by:', last_modified_by)
注意: - 如果doc文件被保存为docx格式,可以先将其转换为doc格式再读取属性信息。 - 如果在读取doc文件信息时遇到异常或错误,可以尝试使用第三方插件antiword或pywin32来处理doc文件。