最近在完成一个题库系统,需要用python将导入的pdf或word按题号拆分成多个文件
尝试了以下代码(用了python-docx库)
for paragraph in doc_obj.paragraphs:
# 开始新篇章
if paragraph.style.name.startswith('Heading 1') and len(temp_doc)!=0:
# todo 写入文件
# todo 清空temp_doc
write_doc(temp_doc, file_output_path)
docs_count +=1
write_txt(temp_doc, file_output_path, docs_count)
#write_doc(temp_doc, file_output_path, docs_count)
temp_doc = []
temp_doc.append(paragraph.text)
if len(temp_doc)!=0:
write_doc(temp_doc, file_output_path)
docs_count +=1
write_txt(temp_doc, file_output_path, docs_count)
#write_doc(temp_doc, file_output_path, docs_count)
print(f"完成文件拆分,共{docs_count}篇章")
但输出只有文本文件,题目中的图片都会消失,使题目不完整
我希望能实现pdf按题目号进行分割为pdf或word(保留图片),或直接对word进行拆分实现题目完整
请巨佬帮忙解决以下谢谢