Python入门不久的新手想问下做爬虫需要知道哪些前端的知识呢,本人完全前端白痴一个...
谢谢!!!
XML
Regular Expression
HTML
Javascript
CSS
Shell
Linux
能学的尽量都学,知识面广点。
pycurl,抓取网页
正则表达式匹配
递归算法,html和dom
http协议
熟练使用抓包神器fiddler
新手学习爬虫开发,推荐先学习下这个教程,讲地很通俗易懂:http://blog.csdn.net/youmumzcs/article/details/51373830
在爬虫中,有些网站可能为了防止爬虫或者DDOS等,会记录每个IP的访问次数,比如,有些网站允许一个IP在1s(或者别的)只能访问10次等,那么我们就需要访问一次换一个IP(具体什么策略,自己决定)。如何突破在爬取的过程中限制。比如,IP、JS、验证码等。爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁 IP 的问题,通常会使用以下两种方式:
1、放慢抓取速度,减小对于目标网站造成的压力。但会减少单位时间类的抓取量。
2、对于python爬虫来说,有时业务量繁重,分布式爬虫是最好的提升效率方式,而分布式爬虫又急切需要数目众多的IP资源,其IP可用率很低,使用还不确定ip来源是否安全和高匿。(ipidea)有足够多的IP可供用户选择,这很迎合爬虫的特性纯净!所以使用住宅IP能够帮助用户更好地获取哪些准确、无污染的数据,这是一种行业趋势。