请教如何解析mht文件

本人最近在写一个程序将单位每天的日报(mht文件)导入数据库中,文件里面有很多报表。就是把表格中一行行的数据导入到数据库中。请问有好的方法不?
因为我们要处理的mht文件里面就是表格,我将它另存为xls格式,然后用poi可以正确解析并导入数据库。目前就是存在一个问题。mht格式中,有一行是日期,比如“2013年01月30日”,另存为xls文件后,就变成了数字“41304”了。
请问这是何解。或者说“2013年01月30日”与41304存在何种换算关系。

[quote]或者说“2013年01月30日”与41304存在何种换算关系。[/quote]

2013年01月30日距离1900年1月1日的天数。

可以使用Jsoup,它可以解析html的格式。可以查看文档:http://www.open-open.com/jsoup/