入门新手,上百页的文档txt或pdf怎么快速提取。如'a'后面的n个字符、a、b之间的字符。用什么方法,速度快?
这个只写一下个人思路,我知识有限,我的办法是:既然你提到你的文档数据量很大,那你可以每次只读取一部分,如果这部分出现了”a“,那就从这个”a“作为起点读取。因为我觉得你描述的问题不是你不会读取,而是因为你觉得一次性把一堆内容加载读取到内存中不太好。至于效率问题python就多用用封装好了东西吧比如正则,毕竟西语言写的比python切片应该快很多。
正则表达式,复杂度是O(N)
建议对文档中的行进行循环读取,通过将行视为一个“列表” 来对其进行具体的分割,更加复杂化的数据剥离提取,需要用到正则来完成。
怎么readpdf。。这个我解决不了
您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!