python提取文档中指定范围文字

入门新手,上百页的文档txt或pdf怎么快速提取。如'a'后面的n个字符、a、b之间的字符。用什么方法,速度快?

这个只写一下个人思路,我知识有限,我的办法是:既然你提到你的文档数据量很大,那你可以每次只读取一部分,如果这部分出现了”a“,那就从这个”a“作为起点读取。因为我觉得你描述的问题不是你不会读取,而是因为你觉得一次性把一堆内容加载读取到内存中不太好。至于效率问题python就多用用封装好了东西吧比如正则,毕竟西语言写的比python切片应该快很多。

正则表达式,复杂度是O(N)

建议对文档中的行进行循环读取,通过将行视为一个“列表” 来对其进行具体的分割,更加复杂化的数据剥离提取,需要用到正则来完成。

怎么readpdf。。这个我解决不了

您好,我是有问必答小助手,您的问题已经有小伙伴帮您解答,感谢您对有问必答的支持与关注!
PS:问答VIP年卡 【限时加赠:IT技术图书免费领】,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632