python
用selenium打开一个网页,并返回该网页的源码
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
browser.get("https://www.xyzmnpq.com")
html = browser.page_source
return html
分析后发现,这个html中的源码 和 直接用浏览器打开网址 "https://www.xyzmnpq.com"后 f12 进入开发模式后查看的源码不同
(注:页面显示是相同的,但是源码不同。)
是我的selenium 版本与浏览器版本之间匹配方面的问题吗?
这是什么原因?有哪位朋友明白这个问题,请指教,谢谢。
一模一样,可能不存在, 但页面数据应该是基本一样的。 当然也不排除那种内容随机出现,比如广告。
关键是你要采集的数据是否一样。
谢谢楼上的回答。
我想要采集的数据内容是一样的,但是呈现方式不同。
比如内容是:
价格:10.00
重量:100g
.....
在网页模式下,这些数据是存在于一个表格table中,但是从page_source返回来的中,这些数据可能是存在于span标签中。不明白是为什么。
内容我通过正则表达式可以爬下来,但是不明白这种现象是什么原因造成的。