如何用python将pdf转成网页html的格式

各位大神,如何用python将pdf转成网页html的格式,以便后面用bs4来提取内容。
起因是我发现直接从pdf转成txt,一句话会被拆断,这样提取的内容不会一句话一行。有时查词竟会显示查询不到,因为一个词被分了占txt的两行。谢谢大神路过,帮忙想想办法

我的pdf主要都是文字的(不是图片),也是直接网页打印保存下的pdf,应该是可以转的

用wkhtmltopdf就可以