1.这是代码
from time import sleep
from selenium import webdriver
import time
import random
import csv
import pandas as pd
# 驱动文件路径
driverfile_path = r'C:\Users\cctcs\AppData\Local\Google\Chrome\Application\chromedriver.exe'
# driver=webdriver.Chrome()
# 启动浏览器
driver = webdriver.Chrome(executable_path=driverfile_path)
driver.maximize_window() # 浏览器窗口最大化
driver.get(r'https://voice.baidu.com/act/newpneumonia/newpneumonia?fraz=partner&paaz=gjyj')
text = driver.find_element_by_xpath('//div[@id="ptab-1"]')
print(text.text)
2.这是代码爬取出的数据
3.爬取的网页:
使用谷歌浏览器打开,网址是:https://voice.baidu.com/act/newpneumonia/newpneumonia?fraz=partner&paaz=gjyj
4.这是要爬取的数据
因为这网页本身数据没有展开所以爬取不到展开里面的内容。求大佬指教!!!
两个方法一个 是找到后端接口,直接请求后端接口
另一个是操作selenium点击加载
text = driver.find_element_by_xpath('//div[@id="ptab-1"]')
这句话的意思是通过xpath获取标签,
还有其他的 ,比如
continue_link = driver.find_element_by_link_text('Continue')
continue_link = driver.find_element_by_partial_link_text('Conti')
你的这个网页就是
element = driver.find_element_by_partial_link_text(''展开全部").click()
获取按钮的同时,直接点击。