Python爬虫:要求程序能接受至少2个网址的输入,并使用urllib模块从这些提供的网址上下载20张以上包含猫、狗、熊猫等动物图片,将其中是猫的图片保存在磁盘上。以表格的形式输出一共下载了多少图片,保存了多少张猫的图片、保存的图片位置等统计数据。
判断是猫不得还要来个分类模型
爬虫首先要分析网址的网页结构,然后写对应的爬取方式,如果要做通用爬虫,这个要有一个通用逻辑,以表格形式输出写入csv文件就行了
思路是爬虫加图片分类,在图片获取部分,用urllib库获取,用lxml.etree或bs4解析出图片链接并下载,数据保存为csv便于用pandas数据处理。在解析下载图片的中,如果能从网页标签或者图片名称来区分的话,任务就相对简单些,否则要用opencv来辨识并进行分类。
爬虫+计算机图像识别把
图像识别用opencv