有没有会做爬虫,还会在爬虫里加算法的大L呀,就当赚点外快,捞一下学术垃圾吧
需求:设计爬虫,爬取三个网站,爬取内容为图片、发布时间等。爬虫里加入2种判断主题相似度或者网页优先级的算法,与广度优先算法、深度优先算法对比,最终建立模型,将三种方式进行对比,证明本设计采用的方式准确率召回率更好。
ps:想赚外快直接私信我,或者评论指点一下哪里比较困难,修改需求也可以的
这个爬虫,你可以用 python 的 webdriver 等库实现,然后对源代码进行相似度的判断。
这种可能不是往爬虫里面加算法,而是先抓取数据,把数据抓下来,然后再调用算法分析数据.