python抓取gb2312编码的网页日文乱码

      爬取一个网页的内容，该网页是gb2312的编码格式，浏览网页程序，其中的日文显示姑且算是正常的。
      シン&#12539;エヴァンゲリオン劇場版:│▌这是网页程序显示的
    （シン&#12539;エヴァンゲリオン乱码霭乱码:│乱码）这是我抓取的，抓取格式也是gb2312，保存为CSV文件格式是UTF-8，别的格式会报错（'gb2312' codec can't encode character '\uFFFd' in position 18: illegal multibyte sequence），只能用这个格式。setting设置的格式也是gb2312，所以我保存下来的样子是这样的。
    我都猜想是这样的，网页整体格式是gb2312，这几个日文会不会是别的编码格式。一整个页面都是统一格式，几个日文单独使用其他格式，是怎么实现的？

这几个日文是在网页源代码中的吗??有日文是不应该用gb2312编码的。
还是说日文是用ajax加载的外部数据。这个外部数据不是gb2312编码。

应该与网页或抓取数据没有关系，是文档保存后再打开出现的乱码。utf-8编码格式保存的csv文档，用excel打开会出现乱码，这是因为excel等默认编码方式为ansi。解决办法，用记事本打开csv,选择编码方式为ansi另存一下，然后用excel打开，这样试一下。

你这明显不是日文乱码，是中文繁体字乱码