为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？

我是做数据处理的，日常工作主要是根据pdf处理数据，有些数据会利用程序做解析，主要是把pdf格式转化为html格式，然后再对html进行解析入库。
想问一下大家，这种解析为啥要把pdf格式先转化为html格式后再做解析，而不是直接解析pdf呢？
另外pdf转化为html格式有什么好的方式进行，主要工具是python。
感谢大家。

1.Python处理数据最为常见的2种数据格式，html和json。
2.处理html格式的文档库bs4中API比较丰富方便，同时html结构比较规范与统一，能拿到所需数据格式。因此需要将PDF转为html在进行数据处理。
3.如果我们能写个库直接方便处理PDF那就不用转了哈。

把pdf格式转化为html格式更容易解析一些。

如何使用Python将PDF文件转换为HTML文件？ - 万兴PDF PDF文档在网络上不是一种响应式或交互式格式；那么HTML文件格式无非是一个更好的选择，因为它能够根据设备的屏幕大小和分辨率要求等进行调整。因此，您可以使用Python将PDF文件转换为HTML文件。

https://pdf.wondershare.cn/geshizhuanhuan/48626.html