首先,我想把网页保存为mht格式文件,其次,我想用python处理mht格式文件,提取里面的有用数据,最后,把这些数据写到word里。
mht可以直接通过修改后缀转换成doc文档(注意docx是不可以的)。但是python是没有直接读取doc文档的库的,所以还需要再将doc转换为docx,利用pydocx库可以实现,之后再用docx库进行读取就可以了。