python中字段提取

文件夹里很多pdf文件,里面包含很多名称。提取其中所有包含的字段,并输出。

比如pdf里包含很多含有yy 汉字的名词,如aayy,bbyy,cccyy,ddyy,fyy这样。我现在可以把pdf转换为df数据框。pdf所有内容都在content列里。

path                                        content

1.pdf                            aayy  111  bbyy  222 cccyy 3333

2.pdf                            ddyy  444  bbyy  55   gggyy   666

3.pdf                            eeyy   777   hhyy  8888   iiiiyy  999

类似这样的格式。输出 aayy bbyy cccyy 这样的。如果有办法去重就更好啦。pdf 随便处理成什么格式,如果df不好处理。其他格式也是可以的,只要能输出就行。content里内容可能有点乱。或许会出现 aa     yy的情况

用正则提取一下就行了

给你个伪代码

String text = "1.pdf                            aayy  111  bbyy  222 cccyy 3333"
// 1. 切分列,使用\s可以把空格、制表符分隔的列都分开来
String arr[] = text.split("\\s+")
// 2. 提取数据
String name = arr[0];
String value1 = arr[1];
String value2 = arr[2];


这用正则可以的