大牛们,小弟想开发一个自己的像google一样的搜索引擎,看了一本书“开发自己的搜索引擎---Lucene+Heritrix(第2版)”不知作为入门如何?还有没有其他推荐?万谢!
首先嘛 先搞清楚搜索引擎的架构
爬虫方面 比如你是用python的 看下urllib httplib
分词方面 就看Lucene 其实分词也蛮简单的 关键是词库。机器怎么发现新词
上面2个方面就是最基本的了
之后就是SERP页 SE怎么判断某个站的排名?
1展示率(符合什么条件可以上top10)
2点击率
3跳出率
链接分析算法 相关性分析算法 主题偏移算法等等 这些SE排名算法 一堆上吧
现在搜狗好像开始找自然语言处理工程师了,以后自然语言处理应该会是个趋势吧
当然还有SE如何判断黑帽
回归你的问题,我觉得你先锁定SE的里面一个小分支,先熟悉其中一块吧
《Lucene in action》第二版可能更好一些。基本上Lucene是很多系统内嵌的搜索引擎的核心。
《Lucene in action》第二版确实可以