用pycharm进行爬虫,结果显示“进程已结束,退出代码0”

img

img


我想爬取这个网址里面的表格数据
求大家解答呀
环境是statistics

emmm?这不是运行完了嘛

可能的原因
1、没有爬取到具体的内容,也就是代码里的
re.findall匹配失败,需要根据实际情况修改正则表达式来重新匹配
2、headers请求头不适用,被该网站所检测到导致无法获取网站内容
需要重新获取请求头。
具体操作为:
谷歌浏览器 F12 点击 Network 查看里面请求的请求头是否匹配


简单来说,

  • 在你把匹配到的内容输出到txt文本之前,先在
    re.findall下面一行用
    print(indexes)输出下查看下是否匹配成功,
  • 如果输出为空的话,说明正则表达式匹配失败,修改正则表达式即可
  • 如果匹配到的话,再在写入文本前再print一下看写入文本的是否是空

这样来一步步排查下

因为你这边没有放具体的代码文本,所以只能给你说下怎么排查,你这边自己来操作下。


如有问题及时沟通

看了下并在自己环境试了下你的代码,核心代码如下:

response = requests.get('https://stock.9fzt.com/list/sz_300368_2.html', headers=headers)
print(response.text)

打印出来不包含公告值的。