问题描述:
1.破解了亚马逊的验证码验证后,爬了一天就报了503的错误,一开始只是等一段时间就能爬了,后来等待的时间越来越长。
2.但是用浏览器直接打开amzon.com是可以打开的。
3.我用了快代理,使用快代理后用requests请求http://www.baidu.com/s?wd=ip页面然后保存,打开本地页面,ip地址还是我自己的,客服说是缓存问题,我清了缓存后还是一样。客服后来给了我这个网页https://dev.kdlapi.com/testproxy,打开ip是代理ip了。
4.但是我用了代理ip,继续爬,一样是不可以的,我感觉代理ip并没有生效。
5.我在家用同样的代码,是可以爬的。
请问,a .快代理那个ip代理是不是有问题。
b. 我在公司无论是用公司ip还是用代理ip都是不可以爬的,但是在家就可以,这是为什么?
我想问下,你在家里用代理时可以正常抓取吗
我用阿布云也是遇到503响应码,用浏览器开代理访问同样的URL又没问题,不知道为啥
亚马逊在反爬虫方面,常用的反爬手段基本都用了,譬如Cookie跟踪,IP跟踪,访问频率限制,访问轨迹跟踪,CSS 混淆等等。
使用浏览器自动化工具如 selenium, playwright, puppeteer 等采集亚马逊数据,也会被检测出来。像 puppeteer-extra, apify/crawlee 这样的工具,提供了 WebDriver 隐身特性,因此一定程度上缓解了这个问题,但仍然没有完全解决这个问题。
即使解决完上述问题,在大规模采集下,仍然面临诸多困难:
幸运的是,现在有了开放源代码的成熟解决方案。
Exotic Amazon 是采集整个 amazon.com 网站的完整解决方案,开箱即用,包含亚马逊大多数数据类型,它将永久免费提供并开放源代码。
得益于 PulsarR 提供的完善的 Web 数据管理基础设施,整个解决方案由不超过 3500 行的 kotlin 代码和不到 700 行的 X-SQL 组成,以提取 650 多个字段。
打开 System Glances 就可以一目了然地查看系统状态。
所有提取规则都是用 X-SQL 编写的。数据类型转换、数据清理也由强大的 X-SQL 内联处理,这也是我们需要 X-SQL 的部分原因。
一个很好的 X-SQL 例子是 https://github.com/platonai/exotic-amazon/blob/main/src/main/resources/sites/amazon/crawl/parse/sql/crawl/x-asin.sql,它从每个产品页面中提取 70 多个字段。
默认情况下,结果以 json 格式写入本地文件系统。
有几种方法可以将结果保存到数据库中: