为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?

我是做数据处理的,日常工作主要是根据pdf处理数据,有些数据会利用程序做解析,主要是把pdf格式转化为html格式,然后再对html进行解析入库。
想问一下大家,这种解析为啥要把pdf格式先转化为html格式后再做解析,而不是直接解析pdf呢?
另外pdf转化为html格式有什么好的方式进行,主要工具是python。
感谢大家。

1.Python处理数据最为常见的2种数据格式,html和json。
2.处理html格式的文档库bs4中API比较丰富方便,同时html结构比较规范与统一,能拿到所需数据格式。因此需要将PDF转为html在进行数据处理。
3.如果我们能写个库直接方便处理PDF那就不用转了哈。

把pdf格式转化为html格式更容易解析一些。