给定一个文本文件test.txt,如何统计该文件包含的词总数,以及词型个数。(Linux)
楼主是想用代码实现呢?还是编程来实现?
如果用命令:直接使用 wc 命令即可统计出来,具体wc后终端显示的每个数字意义见博客:
如果是编程统计,也是很简单的。
package io;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
public class ISRDemo {
public static void main(String[] args) throws IOException {
FileInputStream fis
= new FileInputStream("./src/io/ISRDemo.java");
// FileInputStream fis
// = new FileInputStream("fos.txt");
InputStreamReader isr
= new InputStreamReader(fis,"UTF-8");
//一组字符输出
// char[] data = new char[2000];
// int len = isr.read(data);
// String str = new String(data,0,len);
// System.out.println(str);
// isr.close();
//单字符输出
//char[] data = new char[1];
int len = -1;
//计数
int count = 0;
while((len = isr.read())!=-1) {
//System.out.print(len);
System.out.print((char)len);
count++;
}
isr.close();
}
}
提供参考代码
wc -l text.txt 统计文件中词的行数
wc -w text.txt 统计文件中单词的个数
wc -c text.txt 统计文件中的字符数