如何用python将pdf转成网页html的格式

各位大神，如何用python将pdf转成网页html的格式，以便后面用bs4来提取内容。
起因是我发现直接从pdf转成txt，一句话会被拆断，这样提取的内容不会一句话一行。有时查词竟会显示查询不到，因为一个词被分了占txt的两行。谢谢大神路过，帮忙想想办法

我的pdf主要都是文字的（不是图片），也是直接网页打印保存下的pdf，应该是可以转的

用wkhtmltopdf就可以