想通过python从PDF文件格式的测试报告中自动提取想要的特定数据。
碰到的问题是,因为PDF文件的测试报告,它的格式不是固定的。例如,我想提取的是"sum of error"这个项的数值结果。但是存放这个数据的位置不是固定的,有可能前面的数据量很大造成它的位置下移,也可能因为前面的数据量比较小它的位置比较靠上。
所以我想,如果不能坐标,而是通过“sum of error”这个字段的位置去确定要提取的数值的位置就好了。
即:
首先在PDF文档上查找到“sum of error”这个字段的位置;
然后根据查找到的位置,确定要提取的数据的具体位置;
提取数值;
请问大家是否可行?如果可行,要安装什么包?