csv文件上有三个sheet表,我想使用'pd.read_csv'读取第三个表,有没有办法啊。
获取表单名称以后你直接利用下标呗。
sheet_names = excel_file.sheet_names
df = excel_file.parse(sheet_names[2])
示例代码如下
from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import re
import time
# 创建 Chrome 浏览器驱动
driver = webdriver.Chrome()
# 读取 Excel 文件中的链接(指定 Sheet 表)
df = pd.read_excel('舆情_副本.xlsx', sheet_name='CSDN')
links = df['链接'].tolist()
# 创建一个新的 DataFrame 用于存储爬取的结果
result_df = pd.DataFrame(columns=['标题', '时间', '浏览量', '点赞', '收藏', '评论'])
# 遍历链接并爬取数据
for link in links:
print(link)
# 导航到链接
driver.get(link)
time.sleep(5)
# 爬取文章标题
title_element = driver.find_element(By.ID, 'articleContentId')
time_element = driver.find_element(By.CLASS_NAME, 'bar-content').find_element(By.CLASS_NAME, "time")
read_element = driver.find_element(By.CLASS_NAME, 'bar-content').find_element(By.CLASS_NAME, "read-count")
zan_element = driver.find_element(By.ID, "spanCount")
collection_element = driver.find_element(By.ID, "get-collection")
comment_element = driver.find_element(By.CLASS_NAME, "tool-item-comment").find_element(By.CLASS_NAME, "count")
title = title_element.text.strip()
times = time_element.text.strip()
read = read_element.text.strip()
zan = zan_element.text.strip()
collection = collection_element.text.strip()
comment = comment_element.text.strip()
print(f"title{title},time{times}, read{read} , zan{zan}, collection{collection}, comment{comment}")
# 将结果添加到 DataFrame
result_df = result_df.append({'标题': title, '时间': times, '浏览量': read, '点赞': zan, '收藏': collection, '评论': comment},
ignore_index=True)
# 关闭浏览器驱动
driver.quit()
# 保存结果到一个新的 CSV 文件
result_df.to_csv('标题结果.csv', index=False)
其中
df = pd.read_excel('舆情_副本.xlsx', sheet_name='CSDN')
可以设置你指定的sheel
因为部分原因我的运行结果不能拿出来,见谅
如有帮助给个采纳谢谢
data=pd.read_csv(r'D:\Users\Administrator\Desktop\data.txt',sep='\001',header=None,names=['id','title','content','summary','label'])
常见错误
data = pd.read_csv('人效日报-20180701.csv', skiprows=1, header=None, engine='python')
参考:
import pandas as pd
df = pd.read_excel('file_name.xlsx', sheet_name=2)
索引从 0 开始,所以第三个工作表的索引是 2