想运用rvest包进行人民日报标题爬取。但是结合谷歌开源软件selectorgadget和包进行当前页爬取时,爬出的文本是乱码,只能爬取出标题的跳转文章链接
代码如下
install.packages('rvest')
library(rvest)
library("stringr")
url0<-"http://paper.people.com.cn/rmrb/html/2022-01/18/nbs.D110000renmrb_01.htm"
web<-read_html(url0,encoding = "UTF-8")
title<- web %>%html_nodes(".news-list a") %>% html_text()
运行结果如下
但是改成爬取链接就正常爬取出链接了。
我以为是UTF-8的问题,但是并不是,尝试了其他方法也没解出来
爬取出当前页的标题,最终目的是爬取出过去一年人民日报的各个板块的所有标题。
你好,我是有问必答小助手,非常抱歉,本次您提出的有问必答问题,技术专家团超时未为您做出解答
本次提问扣除的有问必答次数,将会以问答VIP体验卡(1次有问必答机会、商城购买实体图书享受95折优惠)的形式为您补发到账户。
因为有问必答VIP体验卡有效期仅有1天,您在需要使用的时候【私信】联系我,我会为您补发。