如何爬取网页中带双引号的文本数据?(通过标签索引可以获得分数的,但是就是无法获取到北京、综合的文本)

img

for a in soup.find('tbody'):
div = a('a')
tds = a('td')
print(div[0].string,tds[2],tds[4].string)

是不是你获取的时候,这些标签没加载。你sleep一下试一试。

你是用 requests 和 BeautifulSoup爬取网页的吗?
你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。
requests只能获取网页的静态源代码,动态更新的内容取不到。
对于动态更新的内容要用selenium 来爬取。

或者是通过F12控制台分析页面数据加载的链接,找到真正json数据的地址进行爬取。

在页面上点击右键,右键菜单中选 "查看网页源代码"。

img


这样看到的才是网页的静态源代码。
如果这个网页的静态源代码中有你需要爬取的内容,就说明该页面没有动态内容,可以用requests爬取。
否则就说明该页面的内容是动态更新的,要用selenium 来爬取.