c#如何读取PDF文档里指定内容?

img

img

已知PDF内的内容如上,每个PDF大约有100多页,有多种表格,我只要的是提取如上表格的字段和内容和对应的线路点位内容,存到数据库里,有没有大lao做过类似项目的,给个方案,最好能给具体细节,Thanks!
下图是不需要的数据,不必读取

img

你的PDF表格基本都在PDF页面的同一个位置吗?如果在的话,可以读取页面指定位置内的内容,spire.pdf库有可以读取指定矩形区域内的数据的方法,你可以试试
NuGet安装spire.pdf,添加下面的代码提取PDF页面指定区域文本:

//创建PdfDocument实例  
PdfDocument pdf = new PdfDocument();  
//加载PDF文档  
pdf.LoadFromFile("Input.pdf");  
   
//获取第一页  
PdfPageBase page = pdf.Pages[0];  
   
//从第一页的指定矩形区域内提取文本  
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );  //位置根据你自己的PDF调整
   
//将文本写入.txt文件  
StringBuilder sb = new StringBuilder();  
sb.AppendLine(text);  
File.WriteAllText("Extract.txt", sb.ToString());