想做一个类似团800的团购整合网站,想知道
1、是用户每次提交需求后系统调用各个团购网站的API接口,还是已经把数据存在系统自己的数据库了
2、如何实现获取信息分类的,如电影、饮食这种。
谢谢
数据库中本来就有数据了吧。
想做的是整合各类团购网站的网站,是把所有团购网站的信息汇总到自己的数据库吗,还是有需求后再现获取
参考百度搜索的原理,实时调用API取数据是不靠谱的,这意味着用户占用你多少带宽,你就要占用每家团购网站多少带宽,不仅自己服务器压力大,团购网站的压力也会过大,而他们必然的选择就是,禁掉你!
所以是采用爬虫调用API预先将数据提取到本地服务器上,为提高用户体验,还要对提取到本地的数据建立索引,这样用户在使用时先查索引然后找到本地数据库的数据。
分类的问题在提取数据到本地时用过滤器实现,可以通过文本挖掘的方式建模分类,也可以直接读取团购网站的分类标签进行分类,具体如何获取团购网站的分类信息得看对应的API。
采用文本挖掘的方式建模分类的话,主要问题在于准确率的问题,而且实际分类也会涉及大量计算,服务器是否能抗住?