公司准备做一个关于搜索引擎方面的东西,但是本人对这块不是熟悉,都需要配备什么样的资源,比如人才,软件(开源或商业的,开源优先),硬件,网络等,请大家不吝赐教。
大致的要求是能有一个爬虫去一些网站爬数据抓取回来,然后存储在本地。在用搜素技术搜索这些数据和分析这个这些对这些数据进行加工处理,方便用户使用。我们只是要求搜索某一行业的数据,而不是像百度这样可以搜索全网的数据。
我以前做过信息检索,写过爬虫解析过网页,可能可以给您一些提示。
首先流程正如@y_x 所说,各个阶段需要用到的工具就如@mayufenga1 所说。
1、网络爬虫。这个有许多开源工具,spiderman,crawler,solar,nutch也可以用,轻量的话wget也可以用。基本上属于配置一些参数就可以开始抓取了。
2、索引工具。这个也有很多开源工具,著名的Lucene是其中之一。
3、索引完之后就有完整的数据库了,这个时候可以使用自己的工具对业务数据进行解析和进一步操作,爬虫的功能就完成了。
4、需要注意的是定期更新数据,因为网页链接是会经常更新的。
5、为了能更好地工作,linux系统是必须的。
你要写个爬虫程序去爬别人的网站。httpclient
然后要分析内容jsoup,提出你想要的东西。
原理基本一致,不过阁下要计划下爬行的深度算法。广度优先还是深度优先,一般一个网页的子集页面深度10个以内就差不多了。做好页面分析和你的业务数据提取。另外,可以参考开源软件,这块比较多的,Spiderman,jSpider等等
solar + nutch+ lunce +linux系统。。 完毕。。。
需要找个做过爬虫和搜索的人, 比如我这种, 呵呵.
1.写个爬虫把网页爬下来
2.页面解析,获取更多的链接
3.构建链接库
4.动态更新链接及抓取调度级别