基于模板化的网络爬虫

想请问各位爬虫大佬，：首先，系统先读取存储在本地的配置文件，而后加载配置信息。下来系统根据上步加载的配置信息从模板库中匹配出一套模板。而后系统根据程序中预置的信息，继而最终匹配出一个模板。随后加载模板信息。再下来读出种子网址（入口地址），并抓取、解析、存储。将新解析的网址添加到主表（已抓取 URL 队列）、附表（待抓取 URL 队列）中。再读出即将抓取的 URL 队列，而后抓取、解析（上下页）、存储 Hbase。如遇异常，则进行异常处理。想请问这个模板咋理解？

应该就是不同网站爬虫，获取对应的数据，都有自己的规则，我们提前把这些规则设置好，爬虫的时候需求获取哪个网站的数据，直接匹配对应的模块就行。

您好，我是问答小助手，你的问题已经有小伙伴为您解答了问题，您看下是否解决了您的问题，可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～

ps:问答VIP仅需29元，即可享受5次/月有问必答服务，了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632