我刚接触python,目前正在学习爬虫制作。
我遇到了一个问题,请帮忙看看给予帮助。
使用手动搜索关键词“口腔医院”,结果如下:
而使用webdriver.Chrome()搜索关键词“口腔医院”,结果如下:
请帮忙看一下可能与什么相关,谢谢。
chrome_opt = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images":2}
chrome_opt.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(executable_path=“C:/chromedriver.exe”,chrome_options=chrome_opt)
browser.get(“https://www.oschina.net/blog”)
对于问题描述中提到的搜索结果的差异,可能与以下几个方面有关:
对于具体的解决方案,可以考虑如下步骤:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument('--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36')
driver = webdriver.Chrome(chrome_options=options)
from selenium import webdriver
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=http://myproxy:1234')
driver = webdriver.Chrome(options=chrome_options)
driver.set_network_conditions(
offline=False,
latency=5, # additional latency (ms)
download_throughput=500 * 1024, # maximal throughput
upload_throughput=500 * 1024) # maximal throughput
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.add_argument("--disable-infobars")
prefs = {"profile.managed_default_content_settings.images":2, 'plugins.plugins_disabled': ['Chrome PDF Viewer']}
options.add_experimental_option("prefs",prefs)
options.add_argument("--disable-javascript")
driver = webdriver.Chrome(chrome_options=options)
driver.get("https://www.google.com")
如果以上方案均不能解决问题,可以考虑对手动搜索和使用webdriver获取搜索结果时所请求的URL、请求头、请求参数等进行抓包分析,查看返回的结果是否有明显的差异。如果还不能确定问题所在,可以将分析结果提供出来,以便在进一步调查和解决问题。
上图是繁体字
上面手动搜索的大部分都是广告 手动搜索
你用代码去搜索 会干净很多没有浏览器历史和cookie,所以搜索结果会更加“干净
关键是我爬的目的就是抓这些广告链接
如何才能与手动结果保持一致呢?