如题 vb.net 如何提取 PDF的文字内容?
我用System.IO.StreamReader读取,都是乱码
System.IO.StreamReader直接读取pdf?这是不行的,因为pdf是一种专有的文字格式。
可以用Process.Start调用pdf2txt(pdf2txt需要单独下载),转换为txt,再用 System.IO.StreamReader 读取
编码问题吧,试试其他的字符编码
可以设置编码格式,百度下常用的就那么几种。都试试,应该就可以解决。
老哥 给你看看这个链接 可以帮到你https://blog.csdn.net/aogufeixue/article/details/94431009
PDF是不能直接编辑的,用PDF2WORD先转换再试试