java 网站信息量分析

本人要做一个网站信息量分析,统计类的网站,到目前为止还没有思路,各位高人给指点指点。

例如 统计 http://news.ccidnet.com/col/945/945.html 这个栏目下所有文章数
统计 http://www.np.gov.cn/TemplateNew/zfxxgk/list.jsp?1&currCatalogID=20070513350124&pageIndex=1
这个网站栏目下的信息量。

求高人给点思路。 由于各网站构建思路不同,所以方法不能写死。

这种很难做到通用
不过你可以这样
1.输入一个待匹配的正则
2.输入一个要分析的网址
3.匹配,得出结果
不过第一步,要是不懂正则表达式,就没法进行了
PS:脚本类语言来做这东西比较合适

用他們提供的RSS?

你指的信息量是网站文章的数量吗?不是浏览访问量哈?

我以前做网站采集的时候好像统计过。不知道符合你的要求不。。

如果你想知道http://news.ccidnet.com/col/945/945.html 这个页面下的文章数目。
可以发现它们都是类似连到这样的url:
http://news.ccidnet.com/art/945/20091124/xxxxxx_1.html

你可以写一个正则来匹配一下这种url有多少个。。

然后以此类推。。