python提取文档中指定范围文字

入门新手，上百页的文档txt或pdf怎么快速提取。如'a'后面的n个字符、a、b之间的字符。用什么方法，速度快？

这个只写一下个人思路，我知识有限，我的办法是：既然你提到你的文档数据量很大，那你可以每次只读取一部分，如果这部分出现了”a“，那就从这个”a“作为起点读取。因为我觉得你描述的问题不是你不会读取，而是因为你觉得一次性把一堆内容加载读取到内存中不太好。至于效率问题python就多用用封装好了东西吧比如正则，毕竟西语言写的比python切片应该快很多。

正则表达式，复杂度是O（N）

建议对文档中的行进行循环读取，通过将行视为一个“列表” 来对其进行具体的分割，更加复杂化的数据剥离提取，需要用到正则来完成。

怎么readpdf。。这个我解决不了

您好，我是有问必答小助手，您的问题已经有小伙伴帮您解答，感谢您对有问必答的支持与关注！
PS：问答VIP年卡【限时加赠：IT技术图书免费领】，了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632