在尝试运行R语言对京东商品进行文本爬虫 电商产品评论数据情感分析这个实验的代码
# 设置工作目录
setwd("C:\\Users\\xiao\\Desktop\\机器学习\\作业第四part")
# 对一个URL进行测试
url <- 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv80998&productId=1106432&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&rid=0&fold=1'
# 加载需要的包
library(RCurl) # 需要使用getURL函数
library(jsonlite) # Version:1.5 需要使用fromJSON函数
# 读取网页源码
web <- getURL(url, .encoding = 'GBK')
# 代码 2-2
# 由于读取到的源码不是标准的JSON格式,因此需要将符合JSON格式的内容提取出来
web <- substr(web,
nchar("fetchJSON_comment98vv80998") + 2,
nchar(web) - 2)
# 将JSON格式数据转为R语言列表格式
result <- jsonlite::fromJSON(web)
前面一切正常,但进行到将JSON格式数据转为R语言列表格式的代码时遇到了以下报错:
Error: parse error: premature EOF
(right here) ------^
我尝试替换成:
result <- do.call(rbind,
lapply(paste(web,
collapse=""),
jsonlite::fromJSON))
依然报错:
Error: parse error: premature EOF
(right here) ------^
一直卡在这个地方,求大家 指点
大概率是解析jsonp字符串替换提取到的json格式不正确,截取多了或者少了,把web的json文本输出放json格式化工具检查下格式
编码设置可能有问题