Java讀取Excel、docx、pdf和txt等文件萬能方法舉例
前言
在 Java 開發(fā)中,我們經(jīng)常需要讀取不同類型的文件,包括 Excel 表格文件、"doc" 和 "docx" 文檔文件、PDF 文件以及純文本文件。
其中最常用的是 Apache POI 庫(kù)。Apache POI 是一個(gè)流行的 Java 庫(kù),提供了許多 API 來讀取和寫入 Microsoft Office 文檔,包括 Excel、Word 和 PowerPoint 等。
本文將介紹如何使用 Java 讀取這些不同類型的文件。(本文的方法可供參考,還有其它方法讀者自行查閱。)
1.舉個(gè)栗子
以下是本人在開發(fā)過程中,讀取"doc"、"docx"、"pdf" 和 "txt" 文件的代碼例子,后面將詳細(xì)解釋。
txt文件讀取不多說,用流讀取。
import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import org.apache.poi.xwpf.usermodel.XWPFDocument; //fileExtension文件后綴名 private String readFileContent(MultipartFile file, String fileExtension) throws IOException { byte[] fileBytes = file.getBytes(); if (fileBytes.length == 0){ throw new BusinessException(ResultCodeEnum.FILE_CONTENT_IS_EMPTY); } switch (fileExtension) { case "txt": return new String(fileBytes, StandardCharsets.UTF_8); case "pdf": try (PDDocument doc = PDDocument.load(file.getInputStream())) { PDFTextStripper textStripper = new PDFTextStripper(); return textStripper.getText(doc); } case "docx": try (InputStream stream = file.getInputStream()) { XWPFDocument xdoc = new XWPFDocument(stream); XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc); return extractor.getText(); } case "doc": try (InputStream stream = file.getInputStream()) { WordExtractor extractor = new WordExtractor(stream); return extractor.getText(); } default: log.error("不支持的文件格式"); return null; } }
2.導(dǎo)入依賴包
<dependencies> <!-- Apache POI 讀取和寫入 Microsoft Office 文檔 --> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>5.0.0</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>5.0.0</version> </dependency> <!-- Apache PDFBox 處理 PDF 文件 --> <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.24</version> </dependency> <!-- Apache Tika 自動(dòng)檢測(cè)和提取元數(shù)據(jù)和文本內(nèi)容 --> <dependency> <groupId>org.apache.tika</groupId> <artifactId>tika-core</artifactId> <version>2.1.0</version> </dependency> <!-- iText 處理 PDF 文件 --> <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <version>5.5.13</version> </dependency> </dependencies>
1.讀取pdf
讀取 PDF 文件可以使用 Apache PDFBox 庫(kù)。以下是一個(gè)示例代碼,用于讀取 PDF 文件的文本內(nèi)容:
import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import java.io.File; import java.io.IOException; public class PdfReaderExample { public static void main(String[] args) { try { // 1. 加載 PDF 文檔 File file = new File("path_to_your_pdf_file.pdf"); PDDocument document = PDDocument.load(file); // 2. 創(chuàng)建 PDFTextStripper 對(duì)象,并提取文本內(nèi)容 PDFTextStripper textStripper = new PDFTextStripper(); String content = textStripper.getText(document); // 3. 輸出文本內(nèi)容 System.out.println(content); // 4. 關(guān)閉 PDF 文檔 document.close(); } catch (IOException e) { e.printStackTrace(); } } }
請(qǐng)確保將 path_to_your_pdf_file.pdf
替換為實(shí)際的 PDF 文件路徑。通過調(diào)用 PDDocument.load()
方法加載 PDF 文件,然后創(chuàng)建一個(gè) PDFTextStripper
對(duì)象,并使用 getText()
方法提取文本內(nèi)容。最后,使用 document.close()
方法關(guān)閉 PDF 文檔。
PDDocument.load()
方法接受多種類型的參數(shù)來加載 PDF 文檔。以下是常用的參數(shù)類型:
File 對(duì)象: 可以傳遞一個(gè) java.io.File 對(duì)象,指向要加載的 PDF 文件。例如:
PDDocument.load(new File("path_to_your_pdf_file.pdf"))
。文件路徑字符串: 可以直接傳遞一個(gè)字符串,表示要加載的 PDF 文件的路徑。例如:
PDDocument.load("path_to_your_pdf_file.pdf")
。InputStream 對(duì)象: 可以傳遞一個(gè)
java.io.InputStream
對(duì)象,從中讀取 PDF 內(nèi)容。例如:PDDocument.load(inputStream)
。RandomAccessRead 對(duì)象: 可以傳遞一個(gè)
org.apache.pdfbox.io.RandomAccessRead
對(duì)象,用于隨機(jī)訪問和讀取 PDF 內(nèi)容。例如:PDDocument.load(randomAccessRead)
。
使用不同的參數(shù)類型,可以根據(jù)你的需求來加載 PDF 文檔。請(qǐng)注意,無論使用哪種方式,都需要正確處理可能拋出的 IOException
異常,并在使用完 PDDocument 對(duì)象后調(diào)用 close()
方法關(guān)閉文檔以釋放資源。
2.讀取docx
讀取 DOCX 文件,可以使用 Apache POI 庫(kù)。
import org.apache.poi.xwpf.usermodel.XWPFDocument; import org.apache.poi.xwpf.usermodel.XWPFParagraph; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStream; public class DocxReaderExample { public static void main(String[] args) { try { // 1. 加載 DOCX 文檔 File file = new File("path_to_your_docx_file.docx"); InputStream fis = new FileInputStream(file); XWPFDocument document = new XWPFDocument(fis); // 2. 提取文本內(nèi)容 StringBuilder content = new StringBuilder(); for (XWPFParagraph paragraph : document.getParagraphs()) { content.append(paragraph.getText()); content.append("\n"); } // 3. 輸出文本內(nèi)容 System.out.println(content.toString()); // 4. 關(guān)閉 DOCX 文檔 document.close(); fis.close(); } catch (IOException e) { e.printStackTrace(); } } }
通過創(chuàng)建一個(gè) FileInputStream
對(duì)象,并將其傳遞給 XWPFDocument
構(gòu)造函數(shù),來加載 DOCX 文件。然后,通過遍歷文檔中的段落,使用 getText()
方法提取文本內(nèi)容,并將其存儲(chǔ)在一個(gè) StringBuilder
中。最后,輸出文本內(nèi)容。
提取文本內(nèi)容,提供另外一種方法。
XWPFDocument document = new XWPFDocument(fis); // 2. 提取文本內(nèi)容 XWPFWordExtractor extractor = new XWPFWordExtractor(document); String text = extractor.getText();
XWPFWordExtractor
是 Apache POI 庫(kù)中的一個(gè)類,用于從 XWPFDocument
對(duì)象中提取文本。
然后,調(diào)用 getText()
方法,通過 extractor
對(duì)象提取文本內(nèi)容。該方法會(huì)返回一個(gè)包含整個(gè)文檔純文本的字符串。
3.讀取doc
讀取 DOC(.doc)文件,可以使用 Apache POI 庫(kù)中的 HWPF 模塊
import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.WordExtractor; import java.io.File; import java.io.FileInputStream; import java.io.IOException; public class DocTextExtractor { public static String extractTextFromDoc(String filePath) { try { // 1. 加載 DOC 文檔 File file = new File(filePath); FileInputStream fis = new FileInputStream(file); HWPFDocument document = new HWPFDocument(fis); // 2. 提取文本內(nèi)容 WordExtractor extractor = new WordExtractor(document); String text = extractor.getText(); // 3. 關(guān)閉 DOC 文檔和提取器 extractor.close(); document.close(); fis.close(); // 4. 返回提取的文本內(nèi)容 return text; } catch (IOException e) { e.printStackTrace(); } return null; } public static void main(String[] args) { String filePath = "path_to_your_doc_file.doc"; String extractedText = extractTextFromDoc(filePath); System.out.println(extractedText); } }
4.讀取Excel
1.使用 Apache POI 庫(kù)讀取 Excel 文件
import java.io.File; import java.io.FileInputStream; import java.io.IOException; import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.ss.usermodel.Row; import org.apache.poi.ss.usermodel.Sheet; import org.apache.poi.xssf.usermodel.XSSFWorkbook; public class ExcelReader { public static void main(String[] args) throws IOException { File file = new File("path/to/excel/file"); FileInputStream inputStream = new FileInputStream(file); XSSFWorkbook workbook = new XSSFWorkbook(inputStream); Sheet sheet = workbook.getSheetAt(0); for (Row row : sheet) { for (Cell cell : row) { System.out.print(cell.toString() + "\t"); } System.out.println(); } workbook.close(); } }
首先創(chuàng)建了一個(gè) File 對(duì)象來表示要讀取的 Excel 文件,然后創(chuàng)建了一個(gè) FileInputStream
對(duì)象來讀取文件。接著,我們使用 XSSFWorkbook
類創(chuàng)建了一個(gè) workbook 對(duì)象來表示整個(gè) Excel 文檔,并獲取了第一個(gè)工作表(即索引為 0 的工作表)。
在循環(huán)中,我們首先遍歷每一行 (Row),然后再遍歷每一列 (Cell)。我們可以使用 cell.toString()
方法獲取單元格的值,并打印出來。最后,我們調(diào)用 workbook.close()
方法關(guān)閉工作簿,釋放資源。
2.使用easyExcel
EasyExcel 是一款開源的 Java Excel 操作工具,它提供了簡(jiǎn)單易用的 API 來讀取、寫入和操作 Excel 文件。
<dependency> <groupId>com.alibaba</groupId> <artifactId>easyexcel</artifactId> <version>2.4.3</version> </dependency>
讀取excel文件
import com.alibaba.excel.EasyExcel; import com.alibaba.excel.read.builder.ExcelReaderBuilder; import com.alibaba.excel.read.listener.ReadListener; public class ExcelReader { public static void main(String[] args) { String filePath = "path_to_your_excel_file.xlsx"; // 創(chuàng)建 Excel 讀取器 ExcelReaderBuilder readerBuilder = EasyExcel.read(filePath); // 注冊(cè)讀取監(jiān)聽器 ReadListener<Object> listener = new YourReadListener(); readerBuilder.registerReadListener(listener); // 執(zhí)行讀取操作 readerBuilder.sheet().doRead(); } }
通過 EasyExcel.read(filePath)
創(chuàng)建了一個(gè) Excel 讀取器,然后通過 registerReadListener()
方法注冊(cè)了一個(gè)讀取監(jiān)聽器,你需要自己實(shí)現(xiàn)一個(gè) ReadListener
的子類,并在其中重寫相應(yīng)的方法來處理讀取到的數(shù)據(jù)。最后,通過 sheet().doRead()
方法執(zhí)行讀取操作。
總結(jié)
到此這篇關(guān)于Java讀取Excel、docx、pdf和txt等文件萬能方法的文章就介紹到這了,更多相關(guān)Java讀取Excel、docx、pdf和txt文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Java實(shí)戰(zhàn)之實(shí)現(xiàn)用戶登錄
這篇文章主要介紹了Java實(shí)戰(zhàn)之實(shí)現(xiàn)用戶登錄,文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)習(xí)java的小伙伴們有非常好的幫助,需要的朋友可以參考下2021-04-04struts2 validation.xml 驗(yàn)證規(guī)則代碼解析
這篇文章主要介紹了struts2 validation.xml 驗(yàn)證規(guī)則代碼解析,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01Java?SE循環(huán)一些基本練習(xí)題總結(jié)
循環(huán)語句可以在滿足循環(huán)條件的情況下,反復(fù)執(zhí)行某一段代碼,這段被重復(fù)執(zhí)行的代碼被稱為循環(huán)體語句,下面這篇文章主要給大家總結(jié)介紹了關(guān)于Java?SE循環(huán)一些基本練習(xí)題,需要的朋友可以參考下2024-03-03線程池之newCachedThreadPool可緩存線程池的實(shí)例
這篇文章主要介紹了線程池之newCachedThreadPool可緩存線程池的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06關(guān)于Linux服務(wù)器配置java環(huán)境遇到的問題小結(jié)
這篇文章主要介紹了關(guān)于Linux服務(wù)器配置java環(huán)境遇到的問題小結(jié),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-12-12對(duì)SpringBoot項(xiàng)目Jar包進(jìn)行加密防止反編譯的方案
最近項(xiàng)目要求部署到其他公司的服務(wù)器上,但是又不想將源碼泄露出去,要求對(duì)正式環(huán)境的啟動(dòng)包進(jìn)行安全性處理,防止客戶直接通過反編譯工具將代碼反編譯出來,本文介紹了如何對(duì)SpringBoot項(xiàng)目Jar包進(jìn)行加密防止反編譯,需要的朋友可以參考下2024-08-08Groovy動(dòng)態(tài)語言使用教程簡(jiǎn)介
這篇文章主要為大家介紹了Groovy動(dòng)態(tài)語言使用教程簡(jiǎn)介,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-09-09java開發(fā)SpringBoot參數(shù)校驗(yàn)過程示例教程
這篇文章主要為大家介紹了SpringBoot如何進(jìn)行參數(shù)校驗(yàn)的過程示例詳解教程,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-10-10