接到一个任务,我们有一个网页。我们从网页端输入不同的事件编号,会展示出来不同的事件的状态,内容等等。我现在要做的是写一个python程序,可以从本地导入一个excel表格(里面有事件的编号),然后可以自动去网站上一个个爬取我需要的相关信息并且整理导出到一个excel表格里,大概的设计流程是怎样的?每个流程需要用到哪些知识?稍微详细点
需要的知识:使用 Python 读取Excel中的数据
需要的知识:1.使用 Python 发送网络请求。
首先需要分析目标网页输入事件编号这一请求具体的请求地址,携带参数等,使用第三方库模拟请求发送
2.或者是使用 Python Selenium 控制浏览器进行各项操作
如果是模拟发送请求,可以分析该请求的响应内容,是否可以提取出需要的数据。相关知识:Json 解构
而使用 selenium 控制浏览器的方法,可以直接使用库内置方法提取网页任意位置的数据,相关知识:Python Selenium 爬虫
需要的知识:Python 写入Excel
将你的程序交付于给用户操作,使用户可以选择导入哪一个Excel,导出到哪一个Excel等等,相关知识:Python GUI
流程:
前端与后端
前端可以让用户自己导入一个excel
后端流程应为读取excel成功后打开网页,根据读取内容在网页进行搜索并且读取所需内容,并将内容返回excel
知识:
前端可以使用pyqt、wxpython、tkinter、pysimplegui 等(取其一)
读取excel可以考虑xlrd 和 win32com ,前者速度快,后者可以少用一个库。
填写excel 可以使用 win32com
对于网页的操作 可以 考虑 selenium
主要难点在于post的参数设置
从本地导入一个excel表格(里面有事件的编号),
自动去网站上一个个爬取我需要的相关信息
整理导出到一个excel表格里,
网站是外网还是内网,感觉像不怎么难
流程 : 读取Excel > 构造网页请求连接> 请求网页内容> 读取内容 > 内容转存excel