快捷導(dǎo)航

使用Apache Spark處理Excel文件的方法

更新時(shí)間：2024年01月22日 11:39:27 作者：i查拉圖斯特拉如是

Excel作為功能強(qiáng)大的數(shù)據(jù)處理軟件,廣泛應(yīng)用于各行各業(yè),從企業(yè)管理到數(shù)據(jù)分析,可謂無處不在,本文介紹使用Apache Spark處理Excel文件的簡易指南,感興趣的朋友一起看看吧

前言

在日常的工作中，表格內(nèi)的工具是非常方便的x，但是當(dāng)表格變得非常多的時(shí)候，就需要一些特定的處理。Excel作為功能強(qiáng)大的數(shù)據(jù)處理軟件，廣泛應(yīng)用于各行各業(yè)，從企業(yè)管理到數(shù)據(jù)分析，可謂無處不在。然而，面對大型且復(fù)雜的數(shù)據(jù)，Excel的處理能力可能力不從心。

對此，我們可借助Apache Spark這一分布式計(jì)算框架，憑借其強(qiáng)大的計(jì)算與數(shù)據(jù)處理能力，快速有效地處理Excel數(shù)據(jù)。這些數(shù)據(jù)進(jìn)行一個(gè)分析，整理，篩選，排序。分析整理有用的內(nèi)容。

操作

創(chuàng)建一個(gè)spark項(xiàng)目，在IntelliJ IDEA中創(chuàng)建Spark項(xiàng)目時(shí)，默認(rèn)的目錄結(jié)構(gòu)如下：

project-root/
│
├── src/
│   ├── main/
│   │   ├── java/
│   │   │   └── (Java source files)
│   │   └── scala/
│   │       └── (Scala source files)
│   └── test/
│       ├── java/
│       │   └── (Test Java source files)
│       └── scala/
│           └── (Test Scala source files)
├── resources/
│   └── (Resource files)
└── target/
    └── (Compiled output and build artifacts)

導(dǎo)入包

在build.sbt中添加操作文件的包

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % sparkVersion,
  "org.apache.spark" %% "spark-sql" % sparkVersion,
  "org.apache.spark" %% "spark-mllib" % sparkVersion,
  "org.apache.spark" %% "spark-streaming" % sparkVersion,
  "com.norbitltd" %% "spoiwo_2.12" % "1.4.1",
  "com.crealytics" %% "spark-excel" % "0.13.7",
  "com.monitorjbl" %% "xlsx-streamer" % "2.1.0"
)

測試數(shù)據(jù)

name	age
Mic	1
Andy	3
Steven	1

首先

使用Spark讀取Excel文件十分簡便。只需在DataFrame API中指定文件路徑及格式，Spark即可自動(dòng)導(dǎo)入Excel文件并將其轉(zhuǎn)成DataFrame，進(jìn)而展開數(shù)據(jù)處理和分析。

代碼示例

Spark不但提供多樣的數(shù)據(jù)處理方式，更在DataFrame API中支持篩選、聚合和排序等操作。此外，內(nèi)置豐富的數(shù)據(jù)處理函數(shù)和操作符使處理Excel數(shù)據(jù)更為便捷。

package com.example.spark
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
object SparkTest {
  def main(args: Array[String]): Unit = {
    //scala版本
    val sparkConf = new SparkConf()
    sparkConf.setMaster("local")   //本地單線程運(yùn)行
    sparkConf.setAppName("testJob")
//    val sc = new SparkContext(sparkConf)
    val spark = SparkSession.builder().config(sparkConf)
      .appName("Excel Demo")
      .getOrCreate()
    // 讀取 Excel 文件
    val df = spark.read
      .format("com.crealytics.spark.excel")
      .option("dataAddress", "'Sheet2'!A1:B2") // 可選,設(shè)置選擇數(shù)據(jù)區(qū)域 例如 A1:C2。
      .option("useHeader", "false") // 必須，是否使用表頭，false的話自己命名表頭（_c0）,true則第一行為表頭
      .option("treatEmptyValuesAsNulls", "true") // 可選, 是否將空的單元格設(shè)置為null ,如果不設(shè)置為null 遇見空單元格會(huì)報(bào)錯(cuò) 默認(rèn)t: true
      .option("inferSchema", "true") // 可選, default: false
      //.option("addColorColumns", "true") // 可選, default: false
      //.option("timestampFormat", "yyyy-mm-dd hh:mm:ss") // 可選, default: yyyy-mm-dd hh:mm:ss[.fffffffff]
      //.option("excerptSize", 6) // 可選, default: 10. If set and if schema inferred, number of rows to infer schema from
      //.option("workbookPassword", "pass") // 可選, default None. Requires unlimited strength JCE for older JVMs====
      //.option("maxRowsInMemory", 20) // 可選, default None. If set, uses a streaming reader which can help with big files====
      .schema(schema) // 可選, default: Either inferred schema, or all columns are Strings
//      .option("header", "true")
      .load("path/to/excel/file.xlsx")
    // 顯示 DataFrame 的內(nèi)容
    df.show()
    // +-------+---+
    // |   name|age|
    // +-------+---+
    // |    Mic| 1|
    // |   Andy| 3|
    // | Steven| 1|
    // +-------+---+
    // 將 DataFrame 寫入 Excel 文件
    df.write
      .format("com.crealytics.spark.excel")
      .option("dataAddress", "'Sheet'!A1:B2")
      .option("useHeader", "true")
      //.option("dateFormat", "yy-mmm-d") // Optional, default: yy-m-d h:mm
      //.option("timestampFormat", "mm-dd-yyyy hh:mm:ss") // Optional, default: yyyy-mm-dd hh:mm:ss.000
      .mode("append") // Optional, default: overwrite.
      .option("header", "true")
      .save("path/to/save/excel/file.xlsx")
  }
}

數(shù)據(jù)處理結(jié)束后，可將結(jié)果保存在全新Excel文件或其他格式文件中。借助DataFrame API，無論保存在本地文件系統(tǒng)還是云端，均能輕松實(shí)現(xiàn)。保留數(shù)據(jù)亦可依照需求選擇不同輸出格式，如CSV，XLSX等。

總結(jié)一下

雖然僅處理基礎(chǔ)數(shù)據(jù)，但在集群環(huán)境下，Spark展現(xiàn)出優(yōu)秀的大規(guī)模數(shù)據(jù)處理能力。無論海量Excel數(shù)據(jù)還是復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)，都在Spark協(xié)助下，能輕松應(yīng)對并滿足各種數(shù)據(jù)處理與分析任務(wù)。

借助Apache Spark處理Excel文件，充分發(fā)揮分布式計(jì)算潛能，可讓數(shù)據(jù)處理與分析過程更為高效出色，同時(shí)也極大提升數(shù)據(jù)處理效率和準(zhǔn)確性。希望本文能讓您對Spark處理Excel有更深入了解，在實(shí)踐中更好地應(yīng)用。