pyThon爬虫多进程报错

python爬虫selenium,启动带插件的浏览器后,不能启动多进程,单进程可以正常跑,多进程会报错:The process started from chrome location C:\Program Files\Google\Chrome\Application\chrome.exe is no longer running, so ChromeDriver is assuming that Chrome has crashed

带插件的浏览器,一个配置文件只能打开一个浏览器。想要多进程,需要有多个浏览器配置文件。利用生成器输出配置文件路径,避免多进程用到同一个路径。进程不能太多,不然程序会在某一个进程中卡死不动……没有具体的解决办法……

用一个案例来理解吧

我们先来看一个案例。
https://pic1.zhimg.com/80/v2-74637f93e583ffbd1540e25278a5526c_1440w.webp

在这里我们很容易能看懂代码的逻辑,在 __init__函数中我连接了redis,之后在 get_task函数中从redis获取数据,同时调用了po_task,并将获取的数据传入po_task函数,之后po_task 就是用来执行多进程的。当代码写好之后本以为能够毫无意外的实现多进程,结果代码运行之后发现根本没有执行 task1、task2、task3这三个函数。

此时的我一脸懵逼,代码都没错啊,怎么运行之后没有反应?此时我做了一个每个程序员在遇到问题时都会干的事情,那就是找度娘。然而,在百度搜了半天了之后才找到了一篇文章,这篇文章里面的大概意思就是说,在python的类当中无法使用多进程,否则会报错,在看完这篇文章之后,我就想,那不行啊,我代码都是用类写的,要是改成不用类多麻烦啊,之后我就没有继续百度了,直接自己测试,接下来就是我自己测试的过程了。

我首先想到的就是先不要从redis中取数据了,毕竟从redis中取数据哪有自己直接生成一些数据方便呢,所以我把key_list = self.r.smembers(self.main_queue)这个直接改成了列表推导式,用列表推导式生成参数,

https://pic1.zhimg.com/80/v2-6372369559cd82a9cfebdfc9f2ebde64_1440w.webp

之后代码就是这样了,此时我再次运行代码,发现多进程竟然成功了,到此我很快就否定了类中无法使用多进程,可能以前因为版本的原因确实无法使用多进程,但是现在版本更新过很多了,所以此时类中是可以使用多进程的,那么问题就不是出在使用类而导致多进程无法使用了。然后我将屏蔽的redis打开,代码再次回复到一开始的状态,然后运行发现,果然多进程还是无法使用,那么此时我就确定了是因为redis的原因导致了多进程无法使用,此时我就在想,那怎么弄啊,redis是必须要是用的啊,此时我就打算不在类中连接redis会怎么样,

https://pic4.zhimg.com/80/v2-e09547b9c08fc96a180b0fb8282e83e7_1440w.webp
于是我就将redis连接放到了外面,改成上图所示的代码之后,此时我再次运行代码,这次我发现竟然又可以使用了,所以经过这次的测试之后我发现了,redis连接不能放在__init__函数中,否则会导致多进程无法使用。之后我相继测试了将 mysql、mongodb放入__init__,发现都无法成功使用多进程,所以各位在python的类中无法使用多进程的原因可能就是这个,当然也不排除你们遇到的是其它的原因。
希望对你有帮助
求赏金
原文链接:https://zhuanlan.zhihu.com/p/131532339

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^