爬虫的本质思路是什么?

我是一名java,最近突然对爬虫感兴趣,但是不是特别理解爬虫的设计思路是什么。
是通过接口返回数据的逐级调用来实现?还是获得html页面,然后遍历页面元素找到按钮模拟点击?

就是模拟浏览器或者软件发出请求

爬虫的本质思路就是模拟大量用户或正常业务,获取你想要的信息。
是通过接口调用或者获取ntml页面,形式无所谓,关键在于你想要的信息,然后获取到信息之后,逐层解析,以获得你想要的最终信息。

通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。