为什么python爬取B站api网址没有数据呢?

代码如图所示,打开该网址时是有很多中文数据的,不知为什么爬取后excel里并没有数据

将# coding=gbk删去,在html=...和word=...之间加一句html.encoding=html.apparent_encoding,会从网页的内容中分析网页编码的方式,就能输出中文了。

通过调整编码方式是一种方式。不过,像这种解析还是建议用xpath。你用正则的话你这个表达式只能提到中文,像评论中的数字是取不到的。如果一定要用正则的话,可以调整如下:

re.findall(r'<d.*?>(.+?)</d>', html.content.decode('utf-8'), flags=re.S)