正则表达式删除包含日语的文段

问题遇到的现象和发生背景

做一个深度学习的数据处理,在xlsl数据中,包括大量的中文、英文、日文等语言的评论,每一条评论占用一行
希望通过筛选只留下中文评论

我的解答思路和尝试过的方法

使用正则表达式匹配含有日文、英文的段落,但是有些中文文字里也有英文,不能直接去除。

我想要达到的结果

希望通过筛选只留下中文评论,使用日语、英语的评论直接删除

uncode 编码 可以试试

匹配包含日语的文字正则:.[\u0800-\u4e00]+.
匹配包含中文文字的正则:.[\u4e00-\u9fa5]+.

就可以先判断是否包含中文,包含就保留,包含日语就剔除。但是有概率日文识别为中文或者中文识别为日文。看编码怎么处理了