正则表达式删除包含日语的文段

做一个深度学习的数据处理，在xlsl数据中，包括大量的中文、英文、日文等语言的评论，每一条评论占用一行
希望通过筛选只留下中文评论

使用正则表达式匹配含有日文、英文的段落，但是有些中文文字里也有英文，不能直接去除。

希望通过筛选只留下中文评论，使用日语、英语的评论直接删除

uncode 编码可以试试

匹配包含日语的文字正则：.[\u0800-\u4e00]+.
匹配包含中文文字的正则：.[\u4e00-\u9fa5]+.

就可以先判断是否包含中文，包含就保留，包含日语就剔除。但是有概率日文识别为中文或者中文识别为日文。看编码怎么处理了