https://book.jd.com/booktop/0-0-0.html?category=3287-0-0-0-10001-1 这个页面的的书名作者出版社
https://blog.csdn.net/qq_42830971/category_10168938.html
# 未处理细节 测试可以获取 from lxml import etree import urllib.request url='https://book.jd.com/booktop/0-0-0.html?category=3287-0-0-0-10001-1' response=urllib.request.urlopen(url=url) html=response.read().decode('GBK') # 指定网页编码 obj=etree.HTML(html) # 书名 name_list=obj.xpath('//div/ul/li/div[3]/a/text()') # print("获取到---",len(name_list))# 查看获取的数量 for name in name_list: print(name) # # 作者 # 作者存在多个情况 dl_list=obj.xpath('/html/body/div[8]/div[2]/div[3]/div/ul/li/div[3]/dl[1]/dd') # print("获取到---",len(dl_list))# 查看获取的数量 for authors in dl_list: # 当前节点 author=authors.xpath('string()').strip() # 细节未处理 print(author) # # 出版社 press_list=obj.xpath('//div/ul/li/div[3]/dl[2]/dd/a/text()') # print("获取到---",len(author_list))# 查看获取的数量 for press in press_list: print(press)