1.第一个问题就和标题一样
2.搜索引擎搜索不出来,已知相关网站信息,如何通过相关信息找如对应想要的内容
爬虫?还是用什么方法查找 比如一个购物网站 其链接都是跳转到淘宝上,如何找出对应这样的购物网站也是跳转到淘宝上。
(1) 如果搜索引擎不收录,那么你就要自己去爬取数据,此时你相当于自己建搜索引擎,爬虫的目的就是你自己收录这些数据
在有了爬虫抓取的页面的基础上,可以做相似度分析,比如根据关键字/词频分析/用户一致性,就可以找到这种相关的网站。
特别地,如果你掌握一种入口,比如说你拥有一个很大的共有网络,一款用户数很多的app,你拥有很多客户端,你是广告联盟等,你实际上可以通过劫持用户的流量发现大量的网站,只要你的用户中有人访问它们。
这样一来你可以发现大量没有被搜索引擎收录的网站。
(2)这个你有链接,你就可以请求这个地址,服务器会返回给你重定向的地址,你就能找到真实跳转的网页了。这个你可以给我一个链接,我帮你写一个demo。