自学爬虫遇到瓶颈,希望得到一些建议

学习python已经将近两个月了,主要花时间在爬虫方面,也是我计划的日后主攻方向,很享受将数据网罗并收入囊中的感觉,但有经济价值的爬虫绕不开js逆向和安卓逆向,近期找了一些关于js逆向的视频和教程,并跟着练习,但感觉实在是太差了,第一各种五花八门的营销号的引流视频教程,发布日期比较久远,主讲人讲的很好,但是目标网站已经不知道改动多少次了,第二点是在学习的过程中很难做到理解java代码,甚至看不懂,和之前学习python基础的时候完全不一样的感觉。近来小半个月的学习过程可以说是几乎原地踏步,感受到了一种挫败感,所以请一路走过来的各位给点建议,怎样继续学习下去才更好。目前我的想法是:继续找找相对新鲜的视频教学,试图跟上步伐,如果实在不行,只能找个全套的java教程从头开始学了

主攻方向明确是件好事。但并不代表确定主攻方向了,就不需要学习其他方向了。了解web开发的常用技能,对你分析爬取别人数据是会有帮助的。

了解web开发的常用技能,对你分析爬取别人数据有帮助。

目前看起来是需要学习一些java的知识,有助于你理解并走下去

技多不压身,时间富裕有需要就学习,时间较紧看需要学习

建议你找个培训班学习python,两三千块差不多了,比你自己零散的学习,从效率和质量,投入和回报相比都比自己学习强。
爬虫主要是爬网站,跟java关系不大吧,很多网站用的是javascript,不是java,java和javascript语法相似,但是是两种语言。
爬虫不难啊,可能你是缺少一个系统的学习,及引路人,走了很多弯路,丧失了信心。爬虫最有优势的语言是python,首先要懂python基础,这种课程网上免费的一大把,随便都能找到,当你对python基础比较熟悉了,就开始学爬虫,如果你不懂基础,就直接学爬虫,我觉得不可取,到后面你还是要把基础补上才行,所以基础打好很重要。爬虫的话,先学习request库,BeautyfulSoup4,不必懂HTML语言,只需要看得懂HTML中的标签、元素、属性这些就行,做一些项目练习练习,等你觉得差不多了,可以提升一下自己,学习一些爬虫的框架,比如scrapy框架等,把这些东西学完了,你就能完成大部分的数据爬取了。然后可以再提升一下自己,学习HTML语言,这个很简单,几天就学会了,还有正则表达式等等,到后面你拥有了自学能力,自己都知道该 怎么走了。

兄弟 我本人去年七月开始学python爬虫、也是你这种想法、刚开始看的b站老男孩、这是我第一次接触编程语言、前期很困难、学了四个月差不多、能写代码了、基本的类能写出来、也是享受爬虫爬到数据的这种快感~后面觉得单单这点知识找不到工作的、起步最基本的=Js逆向、大部分公司都要求会而且精通、java不一定要回写、能看懂就行、当日会写更好、难度还是挺大的、得花时间、网上的视频五花八门很杂很乱、没必要刻意的去花钱去报班或者报课、套路都是一样的。。讲的内容也是很老的、建议你找好自己的主攻方向!java是必学的、看你个人理解了~只要愿意花时间、很好学的、再说说我自己、去年七月学到12月、在家过年待了两个月、啥也没学、自我感觉爬虫不会js逆向走不远、后面就转安全了、目前在某恒知名大厂实习、(本人挺喜欢安全的)建议你找好自己的方向、遇到瓶颈期很正常、我刚开学编程也难受、就是不会敲、能看懂、给你个建议!多动手多敲!这个瓶颈期这是个短期的、加油!
希望可以帮助到你!望采纳

看你你的意思是,想用python爬虫,找的学习资料是java的。
找个具体的软件,小程序等,去搜索教程。比如爬取抖音、大众点评爬虫,找最新的。总有一筐适合你。
https://search.bilibili.com/video?keyword=pyhon+%E7%88%AC%E8%99%AB&from_source=webtop_search&spm_id_from=333.1007

img

有兴趣学啥都好学。

爬虫基础不能差,工具也不能落下,kali的工具包就挺不错,基础的话要学一学AI,不过扫描别人的网页都是能被日志记录的,如果用爬虫爬到了机密文件那就不好玩了。(笑)有兴趣还能看看0day安全,了解黑客知识

python爬虫:
网页解析有个beatifulsoup库
爬虫框架有scrapy
模拟+自动化selenium
抓包工具fiddlerhe或者Charles
爬虫与反爬:
了解html、json等
页面爬取和api接口爬取
header校验——添加相关header
权限校验——模拟登录、token、cookie
验证码校验—— 第三方打码、人工智能处理
页面所见非所得——追根溯源
页面数据处理(css、文字图像化等)——对症处理
等等

最后:爬虫学的好,()少不了

js逆向爬虫绕不开的技术,教程都是告诉你思路,网站定期肯定会更换,你学不会推理思维没法弄