通过python-docx只能获取章节文本,或者正文的段落文本,两者无法关联。
document = Document()
sections = document.sections #获取章节
paragraphs = document.paragraphs#获取正文段落
两者没法关联。
读取docx文档,能够获取章节对应的正文段落。
你指的关联是什么,它获取到后是个list嘛,顺序是对应的?那你可以用个字典装起来呀
你可以先读取整个文本内容,然后用正则表达式匹配,比如你想要第三章的内容,匹配第三章和第四章之间的内容即可
下面例子可以参考
import re
text = '第一章第二章第三章第四章 第一章 使用re模块正则表达式 第二章 \
使用re.findall()方法 第三章 如何读取word文档中章节对应的内容 第四章...请采纳!'
#正则.表示匹配任意字符,*表示匹配0次或多次,?表示非贪婪模式,尽可能少的匹配
#(?=第四章)表示不包含第四章
#所以下面这个表达式'第三章.*?(?=第四章)'表示匹配第三章和第四章之间的内容
# findall方法找出所有符合要求的,包括目录,返回的是一个列表
result = re.findall('第三章.*?(?=第四章)',text)
print(result)
#输出结果:['第三章', '第三章 如何读取word文档中章节对应的内容 ']
嗯......不太清楚
按照你的需求 ,应该一个for循环就可以把,for 循环sections ,然后在每个section中for循环paragraphs就好
文章:快速批量修改word文档内容 中也许有你想要的答案,请看下吧