你这哪是python,明明是java
1.return x;
2.extends
3.this
4.SubClass
你这是python???
1、return x;
2、extends
3、this
4、SubClass
import urllib.request,re #urllib 包 re正则表达式python3自带包不需要导入 urlib.request模块 re正则表达式
import xlwt #需要PIP安装导入包
'''def getdata():#请求网页内容 拿到静态网站源代码 函数不调用就无法print出数据 原始版本是这样
url = 'http://www.risfond.com/case/fmcg/47977'
html = urllib.request.urlopen(url).read()
print(html)'''
def getdata():#请求网页内容 拿到静态网站源代码 我想一次获得多个网页 就将47977改为变量 并进行字符串格式化 % format都是可以字符串格式化的
url_list = []
for i in range(47977,47997):
url = 'http://www.risfond.com/case/fmcg/{}'.format(i) #字符串格式化.format
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)
#接下来用正则表达式解析源代码
page_list = re.findall(r'<div class="sc_d_c">.*?:<span class="sc_d_con">(.*?)</span></div>',html)#html表示源码
print(page_list)
url_list.append(page_list)
return url_list
#存储数据 excel. 创建excel 数据的存储
#创建excel表格
def excel_write(items):#将上一个函数的数据进行一个传递
newTable = 'text2020.xls'
wb = xlwt.Workbook(encoding='utf-8')
ws = wb.add_sheet('sheet1')#保存这个表格 实际是保存wb
headData = ['职位名称', '职位低点', '时间', '行业','招聘时间','人数','顾问']
for colnum in range(0,7):
ws.write(0,colnum,headData[colnum],xlwt.easyxf('font:bold on'))# 0代表第一列 colnum代表有七列数据 headData【colnum】列表取值效果字体加粗
index = 1
for j in range(0,len(items)):#len计算长度
for i in range(0,7): #往sheet1写入
ws.write(index,i,items[j][i])#j行i列
index +=1
wb.save(newTable)
items = getdata()
excel_write(items)