有没有大神用python爬取过今日头条的数据啊?
数据可以爬取下来,但是会受as,cp,_signature的影响,签名的影响还挺大的。。。
有没有大神可以指导一二???
感激不尽!!!
备注:as、cp用在google浏览器控制台里用ascp.getHoney()可以获取,源码还看得懂,
但是_signature 利用TAC.sign(),这个方法就看不懂了啊。。。。
解决方法:利用Python的selenium方法直接调用TAC.sign(参数)。
有需要的朋友可以尝试一下。
他url的方式挺多的,不知道你具体的抓哪一个
不是抓取数据,而是请求的的链接中有个signature的参数,例如这个:https://www.toutiao.com/api/pc/feed/?category=news_hot&utm_source=toutiao&widen=1&max_behot_time=0&max_behot_time_tmp=0&tadrequire=true&as=A1351A02D6E10A4&cp=5A26F1D01A841E1&_signature=AwJrKAAAWSmDKyhX9sC-kQMCaz _signature参数的生成方法
头条的表单现在花样越来越多了,as和cp这个生成方式网上有 我就不发了,剩下的一个时间戳和一个——signature,刚给你看了下:
解决部分代码如下:
from selenium import webdriver// 先导入selenium模块,没安装的自行百度安装就好
firefox = webdriver.Firefox()
firefox.get('https://www.toutiao.com/ch/news_fashion/')// 头条链接
ascp = firefox.execute_script('return ascp.getHoney()') // 获取连接中的as与cp的值
sinature = firefox.execute_script('return TAC.sign(' + str(user_id) + str(max_behot_time) + ')')// 获取链接中的sinature的值