做一个深度学习的数据处理,在xlsl数据中,包括大量的中文、英文、日文等语言的评论,每一条评论占用一行
希望通过筛选只留下中文评论
使用正则表达式匹配含有日文、英文的段落,但是有些中文文字里也有英文,不能直接去除。
希望通过筛选只留下中文评论,使用日语、英语的评论直接删除
uncode 编码 可以试试
匹配包含日语的文字正则:.[\u0800-\u4e00]+.
匹配包含中文文字的正则:.[\u4e00-\u9fa5]+.
就可以先判断是否包含中文,包含就保留,包含日语就剔除。但是有概率日文识别为中文或者中文识别为日文。看编码怎么处理了