Heritrix中CrawlURI类什么意思?

Heritrix中CrawlURI类什么意思?
最近在研究Heritrix源码,不明白Heritrix的CrawlURI类和CandidateURI啥意思?

CrawlURI类和CandidateURI类都是Heritrix对URL进行处理的核心类。
CrawlURI代表一个候选URL,CandidateURI也是一个URL,在被发现或检查通过后会被加到队列。
CrawlURI和CandidateURI的区别在于CrawlURI是由通过了调度器(Frontier)的CandidateURI转换而来的。
具体你可以看看这篇博客:
http://www.yun5u.com/articles/heritrix-1-crawluri.html

看下 liuxinglanyue的博客,是对Heritrix源码的分析,会给你启发的
http://liuxinglanyue.iteye.com/blog/818418