使用POI来处理Excel和Word文件格式 - 图文
更新时间:2024-04-06 00:51:01 阅读量: 综合文库 文档下载
- poi日期处理推荐度:
- 相关推荐
7.3 使用POI来处理Excel和Word文件格式 Microsoft的Office系列产品拥有大量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。 POI包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。 表7-2 POI子项目介绍 子项目名 POIFS(POI File System) 说明 POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。 HSSF(Horrible Spreadsheet Format) HWPF(Horrible Word Processing Format) HPSF(Horrible Property Set Format) HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能 HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持 HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。 7.3.1 对Excel的处理类 下面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http://apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。 ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。其代码如下。 代码7.6 public class ExcelReader { // 创建文件输入流 private BufferedReader reader = null; // 文件类型 private String filetype; // 文件二进制输入流
private InputStream is = null; // 当前的Sheet private int currSheet; // 当前位置
private int currPosition; // Sheet数量
private int numOfSheets; // HSSFWorkbook
HSSFWorkbook workbook = null; // 设置Cell之间以空格分割
private static String EXCEL_LINE_DELIMITER = \\ // 设置最大列数
private static int MAX_EXCEL_COLUMNS = 64; // 构造函数创建一个ExcelReader
public ExcelReader(String inputfile) throws IOException, Exception { // 判断参数是否为空或没有意义
if (inputfile == null || inputfile.trim().equals(\{ throw new IOException(\input file specified\ }
// 取得文件名的后缀名赋值给filetype
this.filetype = inputfile.substring(inputfile.lastIndexOf(\+ 1); // 设置开始行为0 currPosition = 0; // 设置当前位置为0 currSheet = 0; // 创建文件输入流
is = new FileInputStream(inputfile);
// 判断文件格式
if (filetype.equalsIgnoreCase(\{
// 如果是txt则直接创建BufferedReader读取
reader = new BufferedReader(new InputStreamReader(is)); }
else if (filetype.equalsIgnoreCase(\{
// 如果是Excel文件则创建HSSFWorkbook读取 workbook = new HSSFWorkbook(is); // 设置Sheet数
numOfSheets = workbook.getNumberOfSheets(); }
else {
throw new Exception(\Type Not Supported\ } }
// 函数readLine读取文件的一行
public String readLine() throws IOException { // 如果是txt文件则通过reader读取 if (filetype.equalsIgnoreCase(\{ String str = reader.readLine(); // 空行则略去,直接读取下一行 while (str.trim().equals(\{ str = reader.readLine(); }
return str; }
// 如果是XLS文件则通过POI提供的API读取文件 else if (filetype.equalsIgnoreCase(\{
// 根据currSheet值获得当前的sheet
HSSFSheet sheet = workbook.getSheetAt(currSheet); // 判断当前行是否到但前Sheet的结尾 if (currPosition > sheet.getLastRowNum()) { // 当前行位置清零 currPosition = 0; // 判断是否还有Sheet
while (currSheet != numOfSheets - 1) { // 得到下一张Sheet
sheet = workbook.getSheetAt(currSheet + 1); // 当前行数是否已经到达文件末尾
if (currPosition == sheet.getLastRowNum()) { // 当前Sheet指向下一张Sheet currSheet++; continue; } else {
// 获取当前行数 int row = currPosition; currPosition++; // 读取当前行数据
return getLine(sheet, row); } }
return null; }
// 获取当前行数 int row = currPosition; currPosition++;
// 读取当前行数据
return getLine(sheet, row); }
return null; }
// 函数getLine返回Sheet的一行数据
private String getLine(HSSFSheet sheet, int row) { // 根据行数取得Sheet的一行
HSSFRow rowline = sheet.getRow(row); // 创建字符创缓冲区
StringBuffer buffer = new StringBuffer(); // 获取当前行的列数
int filledColumns = rowline.getLastCellNum(); HSSFCell cell = null; // 循环遍历所有列
for (int i = 0; i < filledColumns; i++) { // 取得当前Cell
cell = rowline.getCell((short) i); String cellvalue = null; if (cell != null) { // 判断当前Cell的Type switch (cell.getCellType()) { // 如果当前Cell的Type为NUMERIC case HSSFCell.CELL_TYPE_NUMERIC: { // 判断当前的cell是否为Date
if (HSSFDateUtil.isCellDateFormatted(cell)) { // 如果是Date类型则,取得该Cell的Date值 Date date = cell.getDateCellValue();
// 把Date转换成本地格式的字符串
cellvalue = cell.getDateCellValue().toLocaleString(); }
// 如果是纯数字 else {
// 取得当前Cell的数值
Integer num = new Integer((int) cell .getNumericCellValue()); cellvalue = String.valueOf(num); } break; }
// 如果当前Cell的Type为STRIN case HSSFCell.CELL_TYPE_STRING: // 取得当前的Cell字符串
cellvalue = cell.getStringCellValue().replaceAll(\\ break; // 默认的Cell值 default:
cellvalue = \\ } } else { cellvalue = \ }
// 在每个字段之间插入分割符
buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER); }
// 以字符串返回该行的数据
return buffer.toString(); }
// close函数执行流的关闭操作 public void close() {
// 如果is不为空,则关闭InputSteam文件输入流 if (is != null) { try { is.close();
} catch (IOException e) { is = null; } }
// 如果reader不为空则关闭BufferedReader文件输入流 if (reader != null) { try {
reader.close();
} catch (IOException e) { reader = null; } } } }
7.3.2 ExcelReader的运行效果
下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。
代码7.7
public static void main(String[] args) { try{
ExcelReader er=new ExcelReader(\ String line=er.readLine(); while(line != null){ System.out.println(line); line=er.readLine(); }
er.close(); }catch(Exception e){ e.printStackTrace(); } }
main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。
图7-12 处理前的XLS文件内容
运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。
图7-13 输出结果
可以看到,Excel文件中的内容已经被成功的输出了出来。
7.3.3 POI中Excel文件Cell的类型
在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。 表7-3 Cell的类型 CellType CELL_TYPE_BLANK CELL_TYPE_BOOLEAN CELL_TYPE_ERROR CELL_TYPE_FORMULA CELL_TYPE_STRING CELL_TYPE_NUMERIC 说明 空值 布尔型 错误 公式型 字符串型 数值型 本例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,因为在Excel文件中只有字符串和数字。如果Cell的Type为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。 实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。 图7-14 Excel的单元格格式 图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。 HSSFDataFormat是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号,static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。 在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。 表7-4 HSSFDataFormat的数据格式 内置数据类型 \\\\\\\\\\\\\\\\\\\\\\\保留为过国际化用 \\\\\\\\\ \\\ \编号 0 1 2 3 4 5 6 7 8 9 0xa 0xb 0xc 0xd 0xe 0xf 0x10 0x11 0x12 0x13 0x14 0x15 0x16 0x17 - 0x24 0x25 0x26 0x27 0x28 0x29 0x2a 0x2b 0x2c 0x2d 0x2e 0x2f 0x30 0x31 在上面表中,字符串类型所对应的是数据格式为\(最后一行),也就是HSSFDataFormat中定义的值为0x31(49)的那行。Date类型的值的范围是0xe-0x11,本例子中的Date格式为\,在HSSFDataFormat定义的值为0xe(14)。
需要注意的一点是,所创建的Excel必须是在Microsoft Excel 97到Excel XP的版本上的,如果在Excel 2003中创建文件后,在使用POI进行解析时,可能会出现问题。它会把Date类型当作自定义类型。POI目前只提供对Microsoft Excel XP以下的版本的支持,在以后的版本中,希望会提供对Microsoft Excel 2003更好的支持。
7.3.4 对Word的处理类
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是tm-extractors-0.4_zip。
下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。
代码7.8
public static String readDoc(String doc) throws Exception { // 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc)); WordExtractor extractor = null; String text = null; // 创建WordExtractor
extractor = new WordExtractor(); // 对DOC文件进行提取 text = extractor.extractText(in); return text; }
在同一个类里创建一个main函数,测试WordReader,该main函数代码如下。
代码7.9
public static void main(String[] args) { try{
String text = WordReader.readDoc(\ System.out.println(text); }catch(Exception e){
e.printStackTrace(); } }
处理前的Doc文件如图7-15所示。
图7-15 处理前的Word文档
使用代码处理后的文本如图7-16所示。
图7-16 处理后的结果
可以看到Word文档内的文本已经全部被提取了出来。
7.4 使用Jacob来处理Word文档
Word或Excel程序是以一种COM组件形式存在的。如果能够在Java中调用Word的COM组件,就能使用它的方法来获取Word文档中的文本信息。目前网上有许多提供这样的工具。
7.4.1 Jacob的下载
Jacob 是Java-COM Bridge的缩写,它在Java与微软的COM组件之间构建一座桥梁。使用Jacob自带的DLL动态链接库,并通过JNI的方式实现了在Java平台上对COM程序的调用。Jacob下载的地址为:
http://sourceforge.net/project/showfiles.php?group_id=109543&package_id=118368。本书采用的是jacob_1.11_zip。解压下载的Jacob_1.11_zip文件后,如图7-17所示。
图7-17 Jacob包解压后的内容
7.4.2 在Eclipse中配置
(1)将jacob.jar导入工程的Build Path,然后确认自己机器的CPU类型(X86或AMD64),并选择不同目录下的jacob.dll文件。
(2)将jacob.dll放到%JAVA_HOME%\\jre\\bin目录下,其中,%JAVA_HOME%就是JDK的安装目录。注意这个的jre目录必须是Eclipse当前正在使用的目录,在Eclipse中选择“window->Preferences”菜单,在弹出的对话框中选择“Java->Installed JREs”项,如图7-18所示。
图7-18 Eclipse中JRE设置的对话框
(3)当前选择的JRE是“C:\\Program Files\\Java\\jdk1.5.0_07\\jre”目录下的,所以需要把jacob.dll复制到“C:\\Program Files\\Java\\jdk1.5.0_07\\jre\\bin”目录下面。
(4)在工程中新建一个ch7.jacob包,并在包中创建WordReader类。该类将提供一个静态的extractDoc()方法。它接收两个参数,一个是要处理的DOC文件名,另一个则是输出的文件名,然后通过JNI调用Word的API转换内容,该函数的代码如下。
代码7.10
public static void extractDoc(String inputFIle, String outputFile) { boolean flag = false;
// 打开Word应用程序
ActiveXComponent app = new ActiveXComponent(\
try {
// 设置word不可见
app.setProperty(\new Variant(false)); // 打开word文件
Dispatch doc1 = app.getProperty(\ Dispatch doc2 = Dispatch.invoke( doc1, \
Dispatch.Method,
new Object[] { inputFIle, new Variant(false), new Variant(true) }, new int[1]).toDispatch(); // 作为txt格式保存到临时文件
Dispatch.invoke(doc2, \Dispatch.Method, new Object[] { outputFile, new Variant(7) }, new int[1]); // 关闭word
Variant f = new Variant(false); Dispatch.call(doc2, \f); flag = true;
} catch (Exception e) { e.printStackTrace(); } finally {
app.invoke(\new Variant[] {}); }
if (flag == true) {
System.out.println(\Successfully\ } else {
System.out.println(\Failed\ }
}
(5)创建一个main函数来测试WordReader类,该main函数代码如下。
public static void main(String[] args) {
WordReader.extractDoc(\}
(6)新生成的txt文件被保存到c:\\jacob.txt下,如图7-19所示。
图7-19 使用Jacob处理的效果
在使用Jacob时,很重要的一点是,用户本地系统中必须安装有Word的应用程序。否则也就无法建立Java-COM桥,进而无法解析了。
7.5 小结
本章向读者详细介绍了Word、Excel和PDF文件的文本提取工具。有关这些文本提取工具的使用问题是任何一个Lucene论坛上都会被提出的问题。不过,一直没有任何一篇资料把这些工具集合在一起进行详细的讲解。希望本篇的内容能够对读者有所帮助,以解决大家在遇到这些格式的文件时,能提取出想要的文本。
正在阅读:
使用POI来处理Excel和Word文件格式 - 图文04-06
自然地理学名词解释105-19
教学先进个人述职(精选多篇)09-27
liminary1138学习手记04-18
酶解速溶保健南瓜粉加工技术研究08-20
我与小树共成长作文800字06-21
天津市2019年公需课“不忘初心,牢记使命”的理论与实践逻辑——弘扬爱国奋斗精神,建功立业新时代(答案)06-05
通过亨利的形象分析解读《永别了,武器》中的反战思想07-08
游霍山作文500字06-22
图书管理系统模板05-13
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 格式
- 图文
- 处理
- 文件
- 使用
- Excel
- Word
- POI
- 差倍问题例题及练习
- 2015-2022年中国航空运输及机场行业分析及发展趋势预测报告 - 图
- 2016年趣味运动会
- 2016年秋季教研工作计划
- 铁塔组立作业指导书 - 图文
- 扭矩传感器设计说明书 - 图文
- 数学建模-工厂最优生产计划模型
- 极昼地区太阳运动分析
- 对债务重组问题及对策的探讨
- S7-200 通过SIMATIC NET OPC Server 建立S7连接与WinCC 之间进行
- 当代美国文化研究
- 注册信息安全人员考试及注册申请表-2016.5(发布版)
- SM2300--V1故障代码 - -系统故障代码表
- 第二次无领导小组讨论心得体会
- 关于我市三产服务业发展情况的调研报告(一稿)
- 第9章:企业合并会计作业题及答案
- 辩论赛资料 女性比男性更重要
- MMS3110 用户手册 - 图文
- 津价房地2008 235号关于建设工程档案技术服务收费
- 二年级品德与生活上册复习题