已知PDF内的内容如上,每个PDF大约有100多页,有多种表格,我只要的是提取如上表格的字段和内容和对应的线路点位内容,存到数据库里,有没有大lao做过类似项目的,给个方案,最好能给具体细节,Thanks!
下图是不需要的数据,不必读取
你的PDF表格基本都在PDF页面的同一个位置吗?如果在的话,可以读取页面指定位置内的内容,spire.pdf库有可以读取指定矩形区域内的数据的方法,你可以试试
NuGet安装spire.pdf,添加下面的代码提取PDF页面指定区域文本:
//创建PdfDocument实例
PdfDocument pdf = new PdfDocument();
//加载PDF文档
pdf.LoadFromFile("Input.pdf");
//获取第一页
PdfPageBase page = pdf.Pages[0];
//从第一页的指定矩形区域内提取文本
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) ); //位置根据你自己的PDF调整
//将文本写入.txt文件
StringBuilder sb = new StringBuilder();
sb.AppendLine(text);
File.WriteAllText("Extract.txt", sb.ToString());