亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

Java實(shí)現(xiàn)讀取不同格式的文件的示例詳解

 更新時(shí)間:2024年01月26日 08:08:20   作者:不歸SUN  
在?Java?開發(fā)中,我們經(jīng)常需要讀取不同類型的文件,包括?Excel?表格文件、"doc"?等,本文將介紹如何使用?Java?讀取這些不同類型的文件,需要的可以參考下

如何使用 Java 讀取 Excel、"doc"、"docx"、"pdf" 和 "txt" 文件。

在 Java 開發(fā)中,我們經(jīng)常需要讀取不同類型的文件,包括 Excel 表格文件、"doc" 和 "docx" 文檔文件、PDF 文件以及純文本文件。

其中最常用的是 Apache POI 庫(kù)。Apache POI 是一個(gè)流行的 Java 庫(kù),提供了許多 API 來(lái)讀取和寫入 Microsoft Office 文檔,包括 Excel、Word 和 PowerPoint 等。

本文將介紹如何使用 Java 讀取這些不同類型的文件。(本文的方法可供參考,還有其它方法讀者自行查閱。)

舉個(gè)栗子

以下是本人在開發(fā)過(guò)程中,讀取"doc"、"docx"、"pdf" 和 "txt" 文件的代碼例子,后面將詳細(xì)解釋。

txt文件讀取不多說(shuō),用流讀取。

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.apache.poi.xwpf.usermodel.XWPFDocument;


//fileExtension文件后綴名
private String readFileContent(MultipartFile file, String fileExtension) throws IOException {  
    byte[] fileBytes = file.getBytes();  
    if (fileBytes.length == 0){  
        throw new BusinessException(ResultCodeEnum.FILE_CONTENT_IS_EMPTY);  
    }  
    switch (fileExtension) {  
        case "txt":  
            return new String(fileBytes, StandardCharsets.UTF_8);  
        case "pdf":  
            try (PDDocument doc = PDDocument.load(file.getInputStream())) {  
            PDFTextStripper textStripper = new PDFTextStripper();  
            return textStripper.getText(doc);  
            }  
        case "docx":  
            try (InputStream stream = file.getInputStream()) {  
            XWPFDocument xdoc = new XWPFDocument(stream);  
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);  
            return extractor.getText();  
            }  
        case "doc":  
            try (InputStream stream = file.getInputStream()) {  
            WordExtractor extractor = new WordExtractor(stream);  
            return extractor.getText();  
            }  
        default:  
            log.error("不支持的文件格式");  
            return null;  
    }
}

導(dǎo)入依賴包

<dependencies>
  <!-- Apache POI 讀取和寫入 Microsoft Office 文檔 -->
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.0.0</version>
  </dependency>
  <dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.0.0</version>
  </dependency>

  <!-- Apache PDFBox 處理 PDF 文件 -->
  <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
  </dependency>

  <!-- Apache Tika 自動(dòng)檢測(cè)和提取元數(shù)據(jù)和文本內(nèi)容 -->
  <dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.1.0</version>
  </dependency>

  <!-- iText 處理 PDF 文件 -->
  <dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>5.5.13</version>
  </dependency>
</dependencies>

1.讀取pdf

讀取 PDF 文件可以使用 Apache PDFBox 庫(kù)。以下是一個(gè)示例代碼,用于讀取 PDF 文件的文本內(nèi)容:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfReaderExample {
    public static void main(String[] args) {
        try {
            // 1. 加載 PDF 文檔
            File file = new File("path_to_your_pdf_file.pdf");
            PDDocument document = PDDocument.load(file);

            // 2. 創(chuàng)建 PDFTextStripper 對(duì)象,并提取文本內(nèi)容
            PDFTextStripper textStripper = new PDFTextStripper();
            String content = textStripper.getText(document);

            // 3. 輸出文本內(nèi)容
            System.out.println(content);

            // 4. 關(guān)閉 PDF 文檔
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

請(qǐng)確保將 path_to_your_pdf_file.pdf 替換為實(shí)際的 PDF 文件路徑。通過(guò)調(diào)用 PDDocument.load() 方法加載 PDF 文件,然后創(chuàng)建一個(gè) PDFTextStripper 對(duì)象,并使用 getText() 方法提取文本內(nèi)容。最后,使用 document.close() 方法關(guān)閉 PDF 文檔。

PDDocument.load() 方法接受多種類型的參數(shù)來(lái)加載 PDF 文檔。以下是常用的參數(shù)類型:

File 對(duì)象:可以傳遞一個(gè) java.io.File 對(duì)象,指向要加載的 PDF 文件。例如:PDDocument.load(new File("path_to_your_pdf_file.pdf"))。

文件路徑字符串:可以直接傳遞一個(gè)字符串,表示要加載的 PDF 文件的路徑。例如:PDDocument.load("path_to_your_pdf_file.pdf")。

InputStream 對(duì)象:可以傳遞一個(gè) java.io.InputStream 對(duì)象,從中讀取 PDF 內(nèi)容。例如:PDDocument.load(inputStream)。

RandomAccessRead 對(duì)象:可以傳遞一個(gè) org.apache.pdfbox.io.RandomAccessRead 對(duì)象,用于隨機(jī)訪問(wèn)和讀取 PDF 內(nèi)容。例如:PDDocument.load(randomAccessRead)。

使用不同的參數(shù)類型,可以根據(jù)你的需求來(lái)加載 PDF 文檔。請(qǐng)注意,無(wú)論使用哪種方式,都需要正確處理可能拋出的 IOException 異常,并在使用完 PDDocument 對(duì)象后調(diào)用 close() 方法關(guān)閉文檔以釋放資源。

2.讀取docx

讀取 DOCX 文件,可以使用 Apache POI 庫(kù)。

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class DocxReaderExample {
    public static void main(String[] args) {
        try {
            // 1. 加載 DOCX 文檔
            File file = new File("path_to_your_docx_file.docx");
            InputStream fis = new FileInputStream(file);
            XWPFDocument document = new XWPFDocument(fis);

            // 2. 提取文本內(nèi)容
            StringBuilder content = new StringBuilder();
            for (XWPFParagraph paragraph : document.getParagraphs()) {
                content.append(paragraph.getText());
                content.append("\n");
            }

            // 3. 輸出文本內(nèi)容
            System.out.println(content.toString());

            // 4. 關(guān)閉 DOCX 文檔
            document.close();
            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

通過(guò)創(chuàng)建一個(gè) FileInputStream 對(duì)象,并將其傳遞給 XWPFDocument 構(gòu)造函數(shù),來(lái)加載 DOCX 文件。然后,通過(guò)遍歷文檔中的段落,使用 getText() 方法提取文本內(nèi)容,并將其存儲(chǔ)在一個(gè) StringBuilder 中。最后,輸出文本內(nèi)容。

提取文本內(nèi)容,提供另外一種方法。

XWPFDocument document = new XWPFDocument(fis); 
// 2. 提取文本內(nèi)容 
XWPFWordExtractor extractor = new XWPFWordExtractor(document); 
String text = extractor.getText();

XWPFWordExtractor 是 Apache POI 庫(kù)中的一個(gè)類,用于從 XWPFDocument 對(duì)象中提取文本。

然后,調(diào)用 getText() 方法,通過(guò) extractor 對(duì)象提取文本內(nèi)容。該方法會(huì)返回一個(gè)包含整個(gè)文檔純文本的字符串。

3.讀取doc

讀取 DOC(.doc)文件,可以使用 Apache POI 庫(kù)中的 HWPF 模塊

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class DocTextExtractor {
    public static String extractTextFromDoc(String filePath) {
        try {
            // 1. 加載 DOC 文檔
            File file = new File(filePath);
            FileInputStream fis = new FileInputStream(file);
            HWPFDocument document = new HWPFDocument(fis);

            // 2. 提取文本內(nèi)容
            WordExtractor extractor = new WordExtractor(document);
            String text = extractor.getText();

            // 3. 關(guān)閉 DOC 文檔和提取器
            extractor.close();
            document.close();
            fis.close();

            // 4. 返回提取的文本內(nèi)容
            return text;
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;
    }

    public static void main(String[] args) {
        String filePath = "path_to_your_doc_file.doc";
        String extractedText = extractTextFromDoc(filePath);
        System.out.println(extractedText);
    }
}

4.讀取Excel

1.使用 Apache POI 庫(kù)讀取 Excel 文件

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;

public class ExcelReader {
    
    public static void main(String[] args) throws IOException {
        File file = new File("path/to/excel/file");
        FileInputStream inputStream = new FileInputStream(file);
        XSSFWorkbook workbook = new XSSFWorkbook(inputStream);
        Sheet sheet = workbook.getSheetAt(0);
        for (Row row : sheet) {
            for (Cell cell : row) {
                System.out.print(cell.toString() + "\t");
            }
            System.out.println();
        }
        workbook.close();
    }
}

首先創(chuàng)建了一個(gè) File 對(duì)象來(lái)表示要讀取的 Excel 文件,然后創(chuàng)建了一個(gè) FileInputStream 對(duì)象來(lái)讀取文件。接著,我們使用 XSSFWorkbook 類創(chuàng)建了一個(gè) workbook 對(duì)象來(lái)表示整個(gè) Excel 文檔,并獲取了第一個(gè)工作表(即索引為 0 的工作表)。

在循環(huán)中,我們首先遍歷每一行 (Row),然后再遍歷每一列 (Cell)。我們可以使用 cell.toString() 方法獲取單元格的值,并打印出來(lái)。最后,我們調(diào)用 workbook.close() 方法關(guān)閉工作簿,釋放資源。

2.使用easyExcel

EasyExcel 是一款開源的 Java Excel 操作工具,它提供了簡(jiǎn)單易用的 API 來(lái)讀取、寫入和操作 Excel 文件。

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>easyexcel</artifactId>
    <version>2.4.3</version>
</dependency>

讀取excel文件

import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.read.builder.ExcelReaderBuilder;
import com.alibaba.excel.read.listener.ReadListener;

public class ExcelReader {
    public static void main(String[] args) {
        String filePath = "path_to_your_excel_file.xlsx";

        // 創(chuàng)建 Excel 讀取器
        ExcelReaderBuilder readerBuilder = EasyExcel.read(filePath);

        // 注冊(cè)讀取監(jiān)聽器
        ReadListener<Object> listener = new YourReadListener();
        readerBuilder.registerReadListener(listener);

        // 執(zhí)行讀取操作
        readerBuilder.sheet().doRead();
    }
}

通過(guò) EasyExcel.read(filePath) 創(chuàng)建了一個(gè) Excel 讀取器,然后通過(guò) registerReadListener() 方法注冊(cè)了一個(gè)讀取監(jiān)聽器,你需要自己實(shí)現(xiàn)一個(gè) ReadListener 的子類,并在其中重寫相應(yīng)的方法來(lái)處理讀取到的數(shù)據(jù)。最后,通過(guò) sheet().doRead() 方法執(zhí)行讀取操作。詳細(xì)的使用說(shuō)明和更多示例可以在 EasyExcel 的官方文檔中找到:www.yuque.com/easyexcel/doc/easyexcel。

到此這篇關(guān)于Java實(shí)現(xiàn)讀取不同格式的文件的示例詳解的文章就介紹到這了,更多相關(guān)Java讀取文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Spring?cache源碼深度解析

    Spring?cache源碼深度解析

    緩存用于提升系統(tǒng)的性能,特別適用于一些對(duì)資源需求比較高的操作,下面這篇文章主要給大家介紹了關(guān)于Spring?cache源碼的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-03-03
  • Java 關(guān)系運(yùn)算符詳情及案例(下)

    Java 關(guān)系運(yùn)算符詳情及案例(下)

    這篇文章主要介紹了Java 關(guān)系運(yùn)算符詳情及案例的實(shí)現(xiàn),主要續(xù)上篇文章,上一篇文章我們講到“等于”運(yùn)算符 (==)、“不等于”運(yùn)算符(!=)、“大于”運(yùn)算符(>) ,這篇文章繼續(xù)給大家講解相關(guān)知識(shí),需要的朋友可以參考一下
    2021-12-12
  • Java中I/O輸入輸出的深入講解

    Java中I/O輸入輸出的深入講解

    Java的I/O技術(shù)可以將數(shù)據(jù)保存到文本文件、二進(jìn)制文件甚至是ZIP壓縮文件中,以達(dá)到永久性保存數(shù)據(jù)的要求,下面這篇文章主要給大家介紹了關(guān)于Java中I/O輸入輸出的相關(guān)資料,需要的朋友可以參考下
    2022-08-08
  • java中this的用法示例(關(guān)鍵字this)

    java中this的用法示例(關(guān)鍵字this)

    這篇文章主要介紹了java中this的用法示例(關(guān)鍵字this),需要的朋友可以參考下
    2014-03-03
  • mybatis存在更新不存在新增問(wèn)題

    mybatis存在更新不存在新增問(wèn)題

    這篇文章主要介紹了mybatis存在更新不存在新增問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-08-08
  • 使用maven整合Spring+SpringMVC+Mybatis框架詳細(xì)步驟(圖文)

    使用maven整合Spring+SpringMVC+Mybatis框架詳細(xì)步驟(圖文)

    這篇文章主要介紹了使用maven整合Spring+SpringMVC+Mybatis框架詳細(xì)步驟(圖文),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2019-05-05
  • Java深入淺出說(shuō)流的使用

    Java深入淺出說(shuō)流的使用

    這篇文章主要介紹了Java深入淺出說(shuō)流的使用,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-09-09
  • Spring中的循環(huán)依賴詳解

    Spring中的循環(huán)依賴詳解

    這篇文章主要介紹了Spring中的循環(huán)依賴詳解,  Spring 框架是一個(gè)流行的Java應(yīng)用程序框架,它提供了許多強(qiáng)大的功能,如依賴注入和面向切面編程,然而在使用 Spring 框架時(shí),我們可能會(huì)遇到循環(huán)依賴的問(wèn)題,需要的朋友可以參考下
    2023-09-09
  • mybatis中返回多個(gè)map結(jié)果問(wèn)題

    mybatis中返回多個(gè)map結(jié)果問(wèn)題

    這篇文章主要介紹了mybatis中返回多個(gè)map結(jié)果問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-06-06
  • springboot整合swagger3報(bào)Unable to infer base url錯(cuò)誤問(wèn)題

    springboot整合swagger3報(bào)Unable to infer base&nbs

    這篇文章主要介紹了springboot整合swagger3報(bào)Unable to infer base url錯(cuò)誤問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-05-05

最新評(píng)論