有关Python的爬取数据问题

请问这图上的两个问题怎么解决?
缺少符号是缺了什么?要在那里添加?

img

这个你要调试下返回的数据,这是一个爬虫,数据是从网站获取的,是不是没有获取到,导致 split 出错

  • 帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7599905
  • 这篇博客也不错, 你可以看下字符串格式化表达式与占位符和类型码有什么关系?用python的程序员都不一定知道
  • 你还可以看下python参考手册中的 python- 走向编程的第一步
  • 除此之外, 这篇博客: Python图像处理是没有任何一门编程语言能比得上的!为什么这么说呢?看完这篇你就知道了!中的 什么是图像处理? 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 图像处理在数字环境中,💻通过一些算法对某些编程语言进行图像处理。我们可以对图像进行分析,也可以对颜色和尺寸等特性进行变换。除此之外,我们还可以对图像进行分类,比如RGB和灰度图像。也看这里

    好了,是时候来看看我们如何处理这个过程了。此时,我们将使用python。Python是图像处理的最佳编程语言之一,因此我们将使用python语言的一些模块。

    我们将使用的模块列表是;
    📋

    • PIL
    • OpenCV
    • NumPy
    • Sckit-图像

    请注意,其中一些模块的使用将比其他模块少。
    让我们开始上面的第一个列表。

  • 您还可以看一下 刘顺祥老师的Python数据分析与挖掘课程中的 爬虫的套路有哪些?小节, 巩固相关知识点
  • 以下回答由chatgpt基于相关博客总结生成:

    问题标题: 使用Python爬取数据的问题 问题内容: 我在进行数据爬取时遇到了什么问题?请提供相关的背景信息,包括涉及的图表以及需要解决的两个问题的具体内容。另外,请说明您希望使用Python爬取哪些数据。

    背景信息: 我正在进行数据爬取的任务,目标是从指定网页上获取特定信息并保存到文档中。我已经找到了目标网页,并确定了需要爬取的数据项。现在需要解决两个问题:

    问题1:如何获取当前页面的网页数据并进行解析? 问题2:如何获取并保存图片?

    需要爬取的数据: 1. 姓名 2. 学历 3. 职业 4. 婚约状况 5. 工作地址 6. 要求

    解决方案: 问题1:如何获取当前页面的网页数据并进行解析? 使用Python的requests库发送GET请求,获取到指定网页的原始HTML数据。然后,使用XPath或其他合适的方法从HTML中提取出需要的数据。

    代码示例:

    import requests
    from lxml import etree
    
    def get_data(url):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        data = etree.HTML(response.text)
        # 使用XPath提取数据
        name = data.xpath('//div[@class="team-e"]/h2/text()')[0]
        edu = data.xpath('//div[@class="team-e"]/p[1]/text()')[0]
        profession = data.xpath('//div[@class="team-e"]/p[2]/text()')
        sponsa = data.xpath('//div[@class="team-e"]/p[3]/text()')[0]
        children = data.xpath('//div[@class="team-e"]/p[4]/text()')[0]
        house = data.xpath('//div[@class="team-e"]/p[5]/text()')[0]
        add = data.xpath('//div[@class="team-e"]/p[6]/text()')[0]
        ask_for = data.xpath('//div[@class="hunyin-1-2"]/p[2]/span/text()')[0]
        # 返回提取的数据
        return name, edu, profession, sponsa, children, house, add, ask_for
    

    问题2:如何获取并保存图片? 通过爬取的数据中找到图片的URL,使用requests库下载图片并保存到本地。

    代码示例:

    def save_image(url, filename):
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        with open(filename, 'wb') as f:
            f.write(response.content)
    

    最后,将爬取到的数据和图片保存到docx文档中,可以使用Python的python-docx库来操作docx文件。

    代码示例:

    from docx import Document
    
    def save_to_docx(data, image_filename, output_filename):
        document = Document()
        document.add_heading('甜蜜蜜婚介', level=1)
        # 添加爬取的数据
        document.add_paragraph("姓名:" + data[0])
        document.add_paragraph("学历:" + data[1])
        document.add_paragraph("职业:" + ', '.join(data[2]))
        document.add_paragraph("婚约状况:" + data[3])
        document.add_paragraph("工作地址:" + data[4])
        document.add_paragraph("要求:" + data[5])
        # 添加图片
        document.add_picture(image_filename)
        # 保存文档
        document.save(output_filename)
    

    以上是解决问题的具体方案,问题1解决了如何获取当前页面的网页数据并进行解析,问题2解决了如何获取并保存图片。根据您的需求,可以使用以上方案来爬取指定数据并保存到docx文档中。如果还有其他问题,请具体说明。