使用urllib+xpath爬虫工具爬取

https://book.jd.com/booktop/0-0-0.html?category=3287-0-0-0-10001-1 这个页面的的书名作者出版社

https://blog.csdn.net/qq_42830971/category_10168938.html

# 未处理细节 测试可以获取

from lxml import etree
import urllib.request

url='https://book.jd.com/booktop/0-0-0.html?category=3287-0-0-0-10001-1'
response=urllib.request.urlopen(url=url)
html=response.read().decode('GBK') # 指定网页编码

obj=etree.HTML(html)

# 书名
name_list=obj.xpath('//div/ul/li/div[3]/a/text()')
# print("获取到---",len(name_list))# 查看获取的数量

for name in name_list:
    print(name)

# # 作者
# 作者存在多个情况
dl_list=obj.xpath('/html/body/div[8]/div[2]/div[3]/div/ul/li/div[3]/dl[1]/dd')

# print("获取到---",len(dl_list))# 查看获取的数量
for authors in dl_list:
    # 当前节点
    author=authors.xpath('string()').strip()
    # 细节未处理 
    print(author)


# # 出版社
press_list=obj.xpath('//div/ul/li/div[3]/dl[2]/dd/a/text()')
# print("获取到---",len(author_list))# 查看获取的数量
for press in press_list:
    print(press)