如何用pycharm软件 爬网页?(语言-python)

新学的Python网络爬虫,布置的任务爬取一个网页,我选择了weibo的热搜榜,用的Edge浏览器,由于我不懂如何爬取网页,我在书上找了一个案例,照葫芦画瓢,如下:

img

img

img


请问各位,我该如何修改代码,可以正确爬出网页

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/7659461
  • 你也可以参考下这篇文章:基于Pycharm的文件批处理1(python脚本笔记记录)——复制所需文件到指定文件夹中,文件夹按照被试编号命名
  • 除此之外, 这篇博客: 在Pycharm中下载软件包遇到的问题及解决方法(适用小白)中的 对于一些看不懂错误信息的小白可以用下面的方法排错,最后实现下载软件包的目的 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

    1,打开命令行窗口,输入python看是否能出现python的运行界面,如果提示python不是内部的命令,说明没有正确安装python,需要将python添加到环境变量里,最简单的方法就是重新安装,在重新安装的时候,在安装界面勾选添加到环境变量的框即可

    2,接下来还是在命令行窗口用(pip install 需要下载的软件包的全名)此命令下载即可,如果还不能完成,可能是pip的版本过低,可使用(python -m pip install –upgrade pip)命令更新pip软件包,更新完毕后尝试重新下载,到这里,大多数错误已经排除了,可以成功下载软件包了。

    3,如果还没有成功的,可以到国内的镜像网站下载,然后导入到Pycharm.


  • 以下回答来自chatgpt:

    答案:

    要使用Python爬取微博热搜榜,需要用到requests和beautifulsoup4这两个库。以下是一个简单的爬取微博热搜榜的代码示例:

    import requests
    from bs4 import BeautifulSoup
    
    url = 'https://s.weibo.com/top/summary?cate=realtimehot'
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    items = soup.select('#pl_top_realtimehot table tbody tr')
    
    for item in items:
        name = item.select_one('.td-02 a').text
        hot = item.select_one('.td-02 span').text
        print(name, hot)
    

    代码分析:

    首先导入requests和beautifulsoup4库,然后指定微博热搜榜的URL地址,并使用requests库发起请求。接着将响应内容传递给beautifulsoup4库,生成一个解析器对象soup。然后通过解析器对象选择定位页面中包含热搜信息的元素,最后循环遍历每个元素,把热搜关键词和热度信息打印出来。

    至于如何在pycharm中编写代码,可以新建一个Python文件,然后将代码复制粘贴进去。使用pycharm自带的解释器即可。不需要使用特定的浏览器。

    参考资料中的其他段落介绍了一些pycharm的使用技巧和一些Python基础的知识,对于学习Python编程可能有所帮助。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

回答部分参考、引用ChatGpt以便为您提供更准确的答案:

使用RLHF训练一个chatGPT模型可以通过以下步骤来实现按照设计者要求形成某种偏好:

  1. 收集人类反馈数据:设计者需要与chatGPT模型进行对话,并记录下设计者提供的问题和对话的上下文。同时,记录设计者认为是正确或合适回答的标签。
  2. 构建强化学习环境:将设计者提供的对话数据转化为强化学习的环境。可以将问题作为状态,模型的回答作为动作,标签作为奖励信号。
  3. 定义奖励函数:根据设计者的偏好,定义奖励函数来指导模型的训练。奖励函数可以根据回答的准确性、相关性、语法正确性等方面进行评估,并给予相应的奖励或惩罚。
  4. 使用强化学习算法进行训练:将chatGPT模型与强化学习算法结合,使用RLHF方法进行训练。该方法可以通过模拟对话并根据设计者的反馈进行模型参数的更新,以优化模型的性能。
  5. 迭代优化:进行多次训练迭代,并根据每次训练的结果进行模型的调整和改进。设计者可以根据实际需求和模型表现进行适当的调整和优化。

通过以上步骤,设计者可以使用RLHF方法训练chatGPT模型,使其能够根据设计者的要求形成某种偏好的回答能力。