文件夹里很多pdf文件,里面包含很多名称。提取其中所有包含的字段,并输出。
比如pdf里包含很多含有yy 汉字的名词,如aayy,bbyy,cccyy,ddyy,fyy这样。我现在可以把pdf转换为df数据框。pdf所有内容都在content列里。
path content
1.pdf aayy 111 bbyy 222 cccyy 3333
2.pdf ddyy 444 bbyy 55 gggyy 666
3.pdf eeyy 777 hhyy 8888 iiiiyy 999
类似这样的格式。输出 aayy bbyy cccyy 这样的。如果有办法去重就更好啦。pdf 随便处理成什么格式,如果df不好处理。其他格式也是可以的,只要能输出就行。content里内容可能有点乱。或许会出现 aa yy的情况
用正则提取一下就行了
给你个伪代码
String text = "1.pdf aayy 111 bbyy 222 cccyy 3333"
// 1. 切分列,使用\s可以把空格、制表符分隔的列都分开来
String arr[] = text.split("\\s+")
// 2. 提取数据
String name = arr[0];
String value1 = arr[1];
String value2 = arr[2];
这用正则可以的