Python?Pipeline處理數(shù)據(jù)工作原理探究

更新時間：2024年01月19日 11:03:43 作者：harvey的網(wǎng)絡日志

如果你是一個Python開發(fā)者,你可能聽過"pipeline"這個術語,但?pipeline?到底是什么,它又有什么用呢？在這篇文章中,我們將探討?Python?中的?pipeline?概念,它們是如何工作的,以及它們?nèi)绾螏椭憔帉懜逦⒏咝У拇a

什么是 Pipeline？

Pipeline 是一種組織一系列操作或函數(shù)來處理數(shù)據(jù)的方式。一個操作的輸出成為下一個操作的輸入，依此類推，直到得到最終結(jié)果。Pipeline 可以被視為一系列管道，數(shù)據(jù)從一個管道流向另一個管道，在此過程中進行一些轉(zhuǎn)換或操作。

舉個例子，假設你有一個數(shù)字列表，你想對它們執(zhí)行以下操作：

過濾出奇數(shù)
將每個數(shù)字乘以10
每個數(shù)字加5
計算結(jié)果數(shù)字的平均值

一種方法是編寫一個循環(huán)，迭代列表并逐個應用每個操作，將中間結(jié)果存儲在一個新列表中。例如：

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
filtered = []
for n in numbers:
    if n % 2 == 0:
        filtered.append(n)
multiplied = []
for n in filtered:
    multiplied.append(n * 10)
added = []
for n in multiplied:
    added.append(n + 5)
total = 0
count = 0
for n in added:
    total += n
    count += 1
average = total / count
print(average)

這段代碼可以工作，但不夠優(yōu)雅和高效。它創(chuàng)建了三個新列表，占用內(nèi)存，使代碼難以閱讀。它還需要編寫四個循環(huán)，這可能會很繁瑣且容易出錯。

更好的方法是使用 pipeline。Pipeline 允許你將操作鏈接在一起，而無需創(chuàng)建中間列表或循環(huán)。你可以使用內(nèi)置的 map 和 filter 函數(shù)，它們接受一個函數(shù)和一個可迭代對象作為參數(shù)，并返回一個將函數(shù)應用于原始可迭代對象的每個元素的新可迭代對象。你還可以使用 sum 和 len 函數(shù)，分別計算可迭代對象的總和和長度。例如：

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
average = sum(map(lambda n: n + 5, map(lambda n: n * 10, filter(lambda n: n % 2 == 0, numbers)))) / len(numbers)
print(average)

這段代碼比之前的代碼要短和簡單得多。它不創(chuàng)建任何新列表或循環(huán)，并且很容易看出數(shù)據(jù)從一個操作流向下一個操作。然而，它仍然不夠可讀，因為它使用了嵌套的 map 和 filter 調(diào)用，這可能會令人困惑且難以理解。

一個更易讀的的方法是使用 toolz 庫中的 pipe 函數(shù)編寫 pipeline 。pipe函數(shù)接受一個初始值和一系列函數(shù)，并將每個函數(shù)應用于前一個函數(shù)的輸出，返回最終結(jié)果。例如：

from toolz import pipe
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
average = pipe(numbers, 
               filter(lambda n: n % 2 == 0), 
               map(lambda n: n * 10), 
               map(lambda n: n + 5), 
               lambda x: sum(x) / len(x))
print(average)

這段代碼比之前的代碼更可讀和優(yōu)雅。它清楚地展示了應用于數(shù)據(jù)的操作序列，而且沒有使用任何嵌套調(diào)用或中間列表。pipe 函數(shù)使代碼看起來像一個流水線，數(shù)據(jù)從一個函數(shù)流向下一個函數(shù)。

為什么使用 Pipeline？

Pipeline 相對于其他代碼組織方式有幾個優(yōu)點，其中一個是：

可讀性：Pipeline 使代碼更易讀和理解，因為它展示了數(shù)據(jù)從一個操作流向下一個操作的流程，而不會在代碼中引入中間變量或循環(huán)。Pipeline 還使代碼更模塊化和可重用，因為每個操作可以定義為一個獨立的函數(shù)，可以輕松測試并在不同的上下文中重用。
效率：Pipeline 可以提高代碼的效率，因為它避免了創(chuàng)建占用內(nèi)存并減慢執(zhí)行速度的中間列表或可迭代對象。Pipeline 還允許惰性求值，這意味著只有在需要數(shù)據(jù)時才執(zhí)行操作，而不是提前執(zhí)行。這可以節(jié)省時間和資源，特別是在處理大量或無限數(shù)據(jù)源時。

+靈活性：Pipeline 可以輕松修改或擴展，因為它允許添加、刪除或更改操作的順序，而不影響其他部分的代碼。Pipeline 還支持不同類型的操作，例如過濾、映射、歸約、聚合、分組、排序等，可以以各種方式組合以達到不同的結(jié)果。

如何在Python中使用Pipeline？

在 Python 中，有多種創(chuàng)建和使用 Pipeline 的方法，其中一些包括：

使用內(nèi)置函數(shù)：Python 提供了幾個內(nèi)置函數(shù)，可以用于創(chuàng)建Pipeline，例如 map、filter、reduce、zip、enumerate、sorted、reversed 等。這些函數(shù)接受一個函數(shù)和一個可迭代對象作為參數(shù)，并返回一個將函數(shù)應用于原始可迭代對象的每個元素的新可迭代對象。
使用列表推導式：列表推導式是一種簡潔和表達力強的方式，在 Python中創(chuàng)建列表，它使用類似數(shù)學表示的語法。列表推導式也可以用于創(chuàng)建 Pipeline，通過將一系列操作應用于可迭代對象的每個元素，并將結(jié)果收集到一個新列表中。
使用生成器表達式：生成器表達式類似于列表推導式，但它們返回一個生成器對象，而不是列表。生成器對象是一個按需產(chǎn)生元素的可迭代對象，而不是在內(nèi)存中存儲它們。生成器表達式也可以用于創(chuàng)建 Pipeline，通過將一系列操作應用于可迭代對象的每個元素，并將結(jié)果作為生成器產(chǎn)生。