最近需要做项目需要参考小说书名,怎么爬取啊,能不能教我怎么爬取或者直接帮我爬取(女频小说书名),书名越多越好
算了看了一下爬的话好复杂,能不能直接帮我爬取,放在文档里,需要2万个以上女频
哪个网站的
先给你一些女频书名,大部分是我自己亲手整理的,你需要文档我也有,你先看看:
快穿之我只想种田
医仙小猫妖
快穿之炮灰女配逆袭记
末日乐园
炮灰修仙
仙炖
退下,让朕来
妙手生香
网恋对象是小甜包
穿进无限游戏后成为反派大佬
抱着只垃圾桶在无限游戏里当冤种
御兽从零分开始
朕的爱妃太能卷了
玄门大佬在惊悚游戏卡BUG
逆天废材:腹黑邪王心尖宠
天才小毒妃
医毒双绝:鬼王的嗜血狂妃
至尊狂妻
一胎二宝,帝少的千亿娇妻
渣女图鉴
鬼手神医,王妃请上位
邪王盛宠
暴九龄
慕南枝
倾城之恋
嫡女重生记
权谋宫斗
豪门总裁的独宠妻
穿越之爱情万岁
都市情感纠葛
玛丽苏的逆袭之路
宫廷秘史
绝世仙女的逆袭之路
婚姻契约
我的校园甜心
重生豪门千金
古代言情故事集
穿越异能者的奇遇
都市职场女强人
嫡妃归来
穿越之爱恋时光
商业帝国的崛起
修仙女帝的传奇人生
穿越医女归来
长月无烬
首辅桥娘
农家小福女
重生之将门毒后
大帝姬
春日宴
权宠天下
黑莲花攻略手册
落花时节又逢君
半城风月
花重锦官城
玻璃美人熬
女配不参合
戏精穿进古城戏
快穿之女配完事随心
皇城第一娇
反派BOSS有毒
攻略不下来的男人
快穿之反派又黑化了
快穿女主真大佬
看完这几篇博客,你应该99%都会了:
// An highlighted block
import requests
from bs4 import BeautifulSoup # Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
def fillUnivList(soup,keyword):
#查找所有class=name的<a>
titles = soup.find_all('a', 'name')
# 在G盘中打开/创建一个名为 keyword 的txt文件
f=open(r'G:\\'+keyword+'.txt', "w",encoding='utf-8')
#写入,一个{}对应后面的一个format值,:^10 意思是 东西在10个字符中居中显示
f.write("{:^10}\t{:^20}\t\t{:^20}".format("编号","书名","地址",chr(12288)) + '\n')
#i用来写编号计数
i=1
for title in titles: #遍历titles中的每个title
#向文件中写入i,title的字符串(即文章的标题),title中的链接,添加空字符,并换行
f.write("{:^10}\t{:^20}\t\t{:^20}".format(i,title.string,title.get('href'),chr(12288))+ '\n')
i=i+1
f.close()
print ("输出完成。")
if __name__ == '__main__':
# 构造头文件,模拟浏览器访问,否则访问个别网页会出现403错误
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
word = input('请输入您需要的小说类型:')
try:
print ("正在连接,")
result = requests.get('http://www.qidian.com/'+word)
result.encoding='utf-8'
# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
soup=BeautifulSoup(result.text,'html.parser')
#调用函数,带入两个参数
fillUnivList(soup,word)
except:
#出现任何报错就失败
print ("连接失败。")
只要书名吗?找个小说网站直接复制粘贴,说不定比写代码爬虫都快,
看我博客, 我记得我写过
1、首先需要找到你爬取的小说网站。
2、分析小说网站的html结构,找到需要的信息。
3、使用python或者Java爬取对应的页面,使用dom4j解析html内容结构。
4、将提取出来的小说数据,保存到你自己的数据库或者其他地方。
python爬取可以参考:https://blog.csdn.net/Mr_Ohahah/article/details/107597333。
CSDN
链接:www.csdn.netCSDN
是1999年创建的,致力于知识共享的大型网站,其中的技术种类繁多,既可以搜索到测试相关的知识,还有各种技术解决方案,工具提供,强力推荐。
博客园
链接:www.cnblogs.com
博客园是2004年1月创建的,起初只用于纯粹的技术交流,但是由于博客园的技术专家越来越多,其影响力也越来越大,最后现在也成为了知名的IT技术博客交流网站,每天都有大量更新,其中可以搜索到大量测试的知识。也有很多测试名人,名师在其中发表过很多学习文章,可以帮助我们快速进阶学习
TesterHome
链接:https://testerhome.com/TesterHome
顾名思义就知道是测试者之家,哪有不关注的道理。之前的统计数据就是从TesterHome中得到的!
根据问题的描述,你希望获取大量女频小说的书名,并且你愿意支付费用来获取相关的工具、技巧或者提供爬取服务。下面我将提供一种基本的解决方案来实现你的需求。
首先,确定小说的来源网站或者平台。一般来说,女频小说会在各大小说阅读网站上发布,比如起点中文网、纵横中文网等。请确定你所需小说的来源网站或者平台,并获取相关的网站链接。
使用Python编程语言,结合爬虫框架Scrapy,来实现对小说书名的爬取。以下是一个示例代码,用于演示如何使用Scrapy来爬取网站上的书名:
import scrapy
class NovelSpider(scrapy.Spider):
name = "novel"
start_urls = [
"http://www.example.com" # 替换为你所需小说的来源网站链接
]
def parse(self, response):
book_titles = response.css('h1.title::text').getall() # 使用CSS选择器提取书名
for title in book_titles:
yield {
'title': title
}
请根据你所需小说的来源网站的HTML结构,修改上述代码中的CSS选择器,以正确提取书名信息。
scrapy runspider novel_spider.py -o book_titles.json
上述命令将把爬取结果保存在名为book_titles.json
的文件中。
以上是一个简单的爬取小说书名的方案,你可以根据你的具体需求进行调整和扩展。如果你觉得编写爬虫代码比较困难,你也可以寻找专业的爬虫服务提供商,来帮助你爬取所需的书名。
看我的下载资源,python爬取任何你想要的资源
如果你只是需要书名,有很多方式,可以不用代码的形式。找到书城,点击女频,这样列表下的书名都是你要的。你可以借助OCR截图一键识别,然后一键复制书名
还两万个,你这个很刑容易进去包三餐,你可以考虑用我个人亲自写的自动化爬取招聘信息的代码获得灵感,然后自己写一个代码
链接在这你自行下载查看代码案例,https://download.csdn.net/download/qq_22593423/88017045
希望能帮到你
什么网站,给网站就能爬
可以用“零点看书”里面有专区的
可以爬
可以先说是哪个网站
可以参考下
问题点:需要大量小说书名
分析思路:由于题主代码能力欠缺,换一种方式解决问题.
直接将众多小说网站手工截图.结合市面上免费的图文识别软件,将文字提取出来,可以直接获取大量的小说名。
爬取小说数据的实现思路。首先自己人为的收集到需要爬取哪些书籍网站。将要爬取的书籍网页放在一个文件或数据库中然后使用python中的爬虫对那些网站进行抓取,然后解析书籍名称内容等信息,因为每个网站的结构不一样,因此,需要考虑分析每个网站的结构,对于不同的结构使用不同的解析方法。具体代码可以网上找找,挺多的教程的。如果自己来做的话,爬虫不懂的话,可以看我的博客。有爬虫学习的专栏。
用python写就可以了
很多方式可以,比如用python写个脚本