python中字段提取

文件夹里很多pdf文件，里面包含很多名称。提取其中所有包含的字段，并输出。

比如pdf里包含很多含有yy 汉字的名词，如aayy,bbyy,cccyy,ddyy,fyy这样。我现在可以把pdf转换为df数据框。pdf所有内容都在content列里。

path content

1.pdf aayy 111 bbyy 222 cccyy 3333

2.pdf ddyy 444 bbyy 55 gggyy 666

3.pdf eeyy 777 hhyy 8888 iiiiyy 999

类似这样的格式。输出 aayy bbyy cccyy 这样的。如果有办法去重就更好啦。pdf 随便处理成什么格式，如果df不好处理。其他格式也是可以的，只要能输出就行。content里内容可能有点乱。或许会出现 aa yy的情况

用正则提取一下就行了

给你个伪代码

String text = "1.pdf                            aayy  111  bbyy  222 cccyy 3333"
// 1. 切分列，使用\s可以把空格、制表符分隔的列都分开来
String arr[] = text.split("\\s+")
// 2. 提取数据
String name = arr[0];
String value1 = arr[1];
String value2 = arr[2];

这用正则可以的