使用Java將DOCX文檔解析為Markdown文檔的代碼實現(xiàn)

更新時間：2025年04月18日 11:20:07 作者：格子先生Lab

在現(xiàn)代文檔處理中,Markdown（MD）因其簡潔的語法和良好的可讀性,逐漸成為開發(fā)者、技術寫作者和內容創(chuàng)作者的首選格式,然而,許多文檔仍然以Microsoft Word的DOCX格式保存,本文將介紹如何使用Java和相關庫將DOCX文檔解析為Markdown文檔,需要的朋友可以參考下

引言

在現(xiàn)代文檔處理中，Markdown（MD）因其簡潔的語法和良好的可讀性，逐漸成為開發(fā)者、技術寫作者和內容創(chuàng)作者的首選格式。然而，許多文檔仍然以Microsoft Word的DOCX格式保存。為了將DOCX文檔轉換為Markdown格式，我們可以使用Java和相關庫來實現(xiàn)自動化解析。

本文將介紹如何使用Java和相關庫將DOCX文檔解析為Markdown文檔，并提供一個完整的代碼示例。

1. 工具和庫介紹

為了實現(xiàn)DOCX到Markdown的轉換，我們需要以下工具和庫：

Java：一種廣泛使用的編程語言，適合處理文本和文檔轉換任務。
Apache POI：一個用于處理Microsoft Office文檔（如DOCX、XLSX）的Java庫。
CommonMark：一個用于處理Markdown格式的Java庫，支持Markdown的解析和生成。
Pandoc（可選）：一個強大的文檔轉換工具，支持多種格式之間的轉換?？梢酝ㄟ^Java調用命令行工具來實現(xiàn)轉換。

本文將重點介紹使用Apache POI解析DOCX文檔，并將其轉換為Markdown格式。

2. 安裝依賴庫

在開始之前，我們需要在項目中引入所需的依賴庫。如果使用Maven構建項目，可以在pom.xml中添加以下依賴：

<dependencies>
    <!-- Apache POI for DOCX parsing -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.3</version>
    </dependency>
    <!-- CommonMark for Markdown generation -->
    <dependency>
        <groupId>org.commonmark</groupId>
        <artifactId>commonmark</artifactId>
        <version>0.21.0</version>
    </dependency>
</dependencies>

3. 使用Apache POI解析DOCX文檔

Apache POI是一個強大的Java庫，可以讀取和寫入Microsoft Office文檔。我們可以使用XWPFDocument類來解析DOCX文件中的內容，包括段落、標題、表格、圖片等。

以下是一個簡單的示例，展示如何使用Apache POI讀取DOCX文件中的文本內容：

import org.apache.poi.xwpf.usermodel.XWPFDocument;
import org.apache.poi.xwpf.usermodel.XWPFParagraph;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.List;

public class DocxParser {

    public static String parseDocx(String filePath) throws IOException {
        StringBuilder text = new StringBuilder();
        try (FileInputStream fis = new FileInputStream(filePath);
             XWPFDocument document = new XWPFDocument(fis)) {

            // 遍歷文檔中的段落
            List<XWPFParagraph> paragraphs = document.getParagraphs();
            for (XWPFParagraph paragraph : paragraphs) {
                text.append(paragraph.getText()).append("\n");
            }
        }
        return text.toString();
    }

    public static void main(String[] args) {
        try {
            String docxText = parseDocx("example.docx");
            System.out.println(docxText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

4. 將解析的內容轉換為Markdown格式

在解析DOCX文檔后，我們需要將其內容轉換為Markdown格式。Markdown的語法相對簡單，例如：

標題：# 標題1，## 標題2
段落：直接寫入文本
列表：- 列表項
表格：使用|和-符號
圖片：![alt text](image-url)

我們可以根據(jù)Apache POI解析的內容，手動將其轉換為Markdown格式。以下是一個示例：

import org.apache.poi.xwpf.usermodel.*;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.List;

public class DocxToMarkdown {

    public static String convertToMarkdown(String filePath) throws IOException {
        StringBuilder markdown = new StringBuilder();
        try (FileInputStream fis = new FileInputStream(filePath);
             XWPFDocument document = new XWPFDocument(fis)) {

            // 遍歷文檔中的段落
            List<XWPFParagraph> paragraphs = document.getParagraphs();
            for (XWPFParagraph paragraph : paragraphs) {
                String text = paragraph.getText();
                if (text.isEmpty()) {
                    continue;
                }

                // 判斷段落樣式（標題、列表等）
                String style = paragraph.getStyle();
                if (style != null && style.toLowerCase().contains("heading")) {
                    // 標題
                    int level = Integer.parseInt(style.replaceAll("\\D", ""));
                    markdown.append("#".repeat(level)).append(" ").append(text).append("\n");
                } else {
                    // 普通段落
                    markdown.append(text).append("\n");
                }
            }
        }
        return markdown.toString();
    }

    public static void main(String[] args) {
        try {
            String markdown = convertToMarkdown("example.docx");
            System.out.println(markdown);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

5. 處理復雜格式（表格、圖片等）

DOCX文檔中可能包含表格、圖片等復雜格式。Apache POI提供了相應的類來處理這些內容：

表格：使用XWPFTable類解析表格內容，并將其轉換為Markdown表格格式。
圖片：使用XWPFPictureData類提取圖片，并將其保存為文件，然后在Markdown中插入圖片鏈接。

以下是一個處理表格的示例：

import org.apache.poi.xwpf.usermodel.*;

import java.io.FileInputStream;
import java.io.IOException;
import java.util.List;

public class DocxToMarkdown {

    public static String convertToMarkdown(String filePath) throws IOException {
        StringBuilder markdown = new StringBuilder();
        try (FileInputStream fis = new FileInputStream(filePath);
             XWPFDocument document = new XWPFDocument(fis)) {

            // 處理表格
            List<XWPFTable> tables = document.getTables();
            for (XWPFTable table : tables) {
                for (XWPFTableRow row : table.getRows()) {
                    for (XWPFTableCell cell : row.getTableCells()) {
                        markdown.append("| ").append(cell.getText()).append(" ");
                    }
                    markdown.append("|\n");
                }
                markdown.append("\n");
            }
        }
        return markdown.toString();
    }

    public static void main(String[] args) {
        try {
            String markdown = convertToMarkdown("example.docx");
            System.out.println(markdown);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

6. 使用Pandoc進行高級轉換（可選）

如果需要更復雜的格式轉換（如支持數(shù)學公式、腳注等），可以使用Pandoc工具。Pandoc支持通過命令行將DOCX轉換為Markdown。我們可以通過Java調用命令行工具來實現(xiàn)轉換：

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

public class PandocConverter {

    public static void convertDocxToMarkdown(String docxPath, String mdPath) {
        try {
            String command = String.format("pandoc -s %s -t markdown -o %s", docxPath, mdPath);
            Process process = Runtime.getRuntime().exec(command);
            process.waitFor();

            // 讀取命令輸出
            BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
            String line;
            while ((line = reader.readLine()) != null) {
                System.out.println(line);
            }
        } catch (IOException | InterruptedException e) {
            e.printStackTrace();
        }
    }

    public static void main(String[] args) {
        convertDocxToMarkdown("example.docx", "output.md");
    }
}