新手关于Python爬虫的问题

Python入门不久的新手想问下做爬虫需要知道哪些前端的知识呢，本人完全前端白痴一个...
谢谢!!!

XML
Regular Expression
HTML
Javascript
CSS
Shell
Linux

能学的尽量都学，知识面广点。

pycurl，抓取网页
正则表达式匹配
递归算法，html和dom
http协议
熟练使用抓包神器fiddler

新手学习爬虫开发，推荐先学习下这个教程，讲地很通俗易懂：http://blog.csdn.net/youmumzcs/article/details/51373830

在爬虫中，有些网站可能为了防止爬虫或者DDOS等，会记录每个IP的访问次数，比如，有些网站允许一个IP在1s（或者别的）只能访问10次等，那么我们就需要访问一次换一个IP（具体什么策略，自己决定）。如何突破在爬取的过程中限制。比如，IP、JS、验证码等。爬虫多次爬取同一网站时，经常会被网站的IP反爬虫机制给禁掉，为了解决封禁 IP 的问题，通常会使用以下两种方式：
1、放慢抓取速度，减小对于目标网站造成的压力。但会减少单位时间类的抓取量。
2、对于python爬虫来说，有时业务量繁重，分布式爬虫是最好的提升效率方式，而分布式爬虫又急切需要数目众多的IP资源，其IP可用率很低，使用还不确定ip来源是否安全和高匿。（ipidea）有足够多的IP可供用户选择，这很迎合爬虫的特性纯净！所以使用住宅IP能够帮助用户更好地获取哪些准确、无污染的数据，这是一种行业趋势。