新手提问，做一个Web 文本挖掘开源程序的选择 Heritrix？ WebLech？ Web-Harvest？......

[size=large]我以前是学嵌入式的，本专业还没学深呢，导师让搞数据挖掘，还是Web的文本挖掘......

要做一个小项目，比如同仁、协和、301之类的知名医院，把他们的主任医师的信息爬下来，分类为内科、儿科、耳鼻喉...... 然后按姓名、出生年月，毕业院校，擅长治疗方向，和大体的介绍分门别类的抽取、入库，然后搞个展示界面显示出来，方便患者选择。

个人感觉像我这样的新手，本身在程序方面悟性又差，时间又紧，自己从头写代码估计会被导师吃了，都怕所里不让我毕业了，心里很焦虑啊。

在open-open上看到了十几个开源项目，不知道选哪个好？Heritrix？ WebLech? Web-Harvest? 其他的？或者就不该从open-open的开源程序里选？

请有空理会这个没有营养的烂帖的好心前辈们根据[color=blue]新手易上手，开发门槛低，能满足我前面说的项目要求[/color]的角度给个推荐！

太谢谢了！！[/size]

jsoup 是一个java操作html的类库
[url]www.jsoup.org[/url]
有例子的
jsoup的引用直接把jsoup.jar拷贝到myeclipse中的项目目录下的web-inf/lib/下就可以了

Heritrix还不错，另外你的这个应该不是太复杂的，可以考虑httpclient+htmlparser的组合来爬取，效果非常好，api也非常方便。

[quote]非常感谢前辈的回答！只虽然前期简单，但是后期可能还有新的要求，所以不知道用httpclient+htmlparser的方法来做对功能的扩展性是不是有所限制，能否满足将来的新需求？ [/quote]
客气了，目前我所做的系统中有过挖掘抓取的功能，目前情况是可以胜任。
看你的代码是否本身写的可以扩展咯。

jsoup包括抓取和解析，用起来简单些，jsoup是java处理html和用jquery处理html一样简单，很容易上手的

新手提问，做一个Web 文本挖掘 开源程序的选择 Heritrix？ WebLech？ Web-Harvest？......

新手提问，做一个Web 文本挖掘开源程序的选择 Heritrix？ WebLech？ Web-Harvest？......