iconv,node 爬虫,中文乱码

想爬一些免费小说,但是发现第一章乱码,第二章不乱码。所爬取网页的字符集类型为gb18030。想请问一下各位怎么解决乱码的问题。
是第一章有什么特殊字符所以乱码了吗?

    request(
      options,
      encoding: null
    },
      (err, res, body) => {
        let buffer = Buffer.from(body);
        let html = iconv.decode(buffer, 'gbk');
        resolve(html);
      }
     )

以下内容部分参考ChatGPT模型:


乱码问题可能是因为编码格式不匹配所导致的。可以使用iconv模块来解决这个问题。iconv可以将不同编码格式的数据进行转换,使其变成可读的字符。具体使用方法如下:

1.安装iconv

在命令行输入以下命令进行安装:

npm install iconv --save

2.引入iconv模块

在代码中引入iconv模块:

const iconv = require('iconv');

3.使用iconv进行编码转换

在爬取网页内容后,使用iconv将内容进行编码转换。例如,将gb18030编码格式的字符串转换为utf-8编码格式:

let content = iconv.decode(body, 'gb18030');
content = iconv.encode(content, 'utf-8').toString();

4.使用转换后的内容进行后续操作

将转换后的内容用于后续操作,比如解析HTML文档或者写入文件等。

完整代码示例:

const request = require('request');
const iconv = require('iconv');

request({
  url: 'http://example.com',
  encoding: null // 设置为null,返回buffer类型的数据
}, (err, res, body) => {
  if (err) {
    console.error(err);
    return;
  }
  // 将gb18030编码格式的内容转换为utf-8编码格式
  let content = iconv.decode(body, 'gb18030');
  content = iconv.encode(content, 'utf-8').toString();
  // 使用转换后的内容进行后续操作
  console.log(content);
});

注意:在使用iconv转换编码格式时,一定要先将数据解码为buffer类型,然后再进行编码转换。


如果我的建议对您有帮助、请点击采纳、祝您生活愉快

同一个网站,又换一篇小说又乱码了……
发现这个网站pc端的网页总是各种乱码,但是移动端的网页一切顺利。
其实问题还没有解决〒▽〒