想请问各位爬虫大佬,:首先,系统先读取存储在本地的配置文件,而后加载配置信息。下来系统根据上步加载的配置信息从模板库中匹配出一套模板。而后系统根据程序中预置的信息,继而最终匹配出一个模板。随后加载模板信息。再下来读出种子网址(入口地址),并抓取、解析、存储。将新解析的网址添加到主表(已抓取 URL 队列)、附表(待抓取 URL 队列)中。再读出即将抓取的 URL 队列,而后抓取、解析(上下页)、存储 Hbase。如遇异常,则进行异常处理。想请问这个模板咋理解?
应该就是不同网站爬虫,获取对应的数据,都有自己的规则,我们提前把这些规则设置好,爬虫的时候需求获取哪个网站的数据,直接匹配对应的模块就行。
您好,我是问答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632