使用Python進(jìn)行穩(wěn)定可靠的文件操作詳解

更新時(shí)間：2013年12月31日 15:09:33 作者：

在本文中，主要分享一些如何在Python代碼中改善I/O可靠性的見解,大家參考使用吧

考慮下述Python代碼片段。對文件中的數(shù)據(jù)進(jìn)行某些操作，然后將結(jié)果保存回文件中：

with open(filename) as f:
   input = f.read()
output = do_something(input)
with open(filename, 'w') as f:
   f.write(output)

看起來很簡單吧？可能看起來并不像乍一看這么簡單。我在產(chǎn)品服務(wù)器中調(diào)試應(yīng)用，經(jīng)常會(huì)出現(xiàn)奇怪的行為。
這是我看過的失效模式的例子：
失控的服務(wù)器進(jìn)程溢出大量日志，磁盤被填滿。write()在截?cái)辔募髵伋霎惓＃募?huì)變成空的。
應(yīng)用的幾個(gè)實(shí)例并行執(zhí)行。在各個(gè)實(shí)例結(jié)束之后，因?yàn)榛旌狭硕鄠€(gè)實(shí)例的輸出，文件內(nèi)容最終變成了天書。
在完成了寫操作之后，應(yīng)用會(huì)觸發(fā)一些后續(xù)操作。幾秒鐘后斷電。在我們重啟了服務(wù)器之后，我們再一次看到了舊的文件內(nèi)容。已經(jīng)傳遞給其它應(yīng)用的數(shù)據(jù)與我們在文件中看到的不再一致。
下面沒有什么新的內(nèi)容。本文的目的是為在系統(tǒng)編程方面缺少經(jīng)驗(yàn)的Python開發(fā)者提供常見的方法和技術(shù)。我將會(huì)提供代碼例子，使得開發(fā)者可以很容易的將這些方法應(yīng)用到自己的代碼中。
“可靠性”意味著什么？
廣義的講，可靠性意味著在所有規(guī)定的條件下操作都能執(zhí)行它所需的函數(shù)。至于文件的操作，這個(gè)函數(shù)就是創(chuàng)建，替換或者追加文件的內(nèi)容的問題。這里可以從數(shù)據(jù)庫理論上獲得靈感。經(jīng)典的事務(wù)模型的ACID性質(zhì)作為指導(dǎo)來提高可靠性。
開始之前，讓我們先看看我們的例子怎樣和ACID4個(gè)性質(zhì)扯上關(guān)系：
原子性(Atomicity)要求這個(gè)事務(wù)要么完全成功，要么完全失敗。在上面的實(shí)例中，磁盤滿了可能導(dǎo)致部分內(nèi)容寫入文件。另外，如果正當(dāng)在寫入內(nèi)容時(shí)其它程序又在讀取文件，它們可能獲得是部分完成的版本，甚至?xí)?dǎo)致寫錯(cuò)誤
一致性(Consistency) 表示操作必須從系統(tǒng)的一個(gè)狀態(tài)到另一個(gè)狀態(tài)。一致性可以分為兩部分：內(nèi)部和外部一致性。內(nèi)部一致性是指文件的數(shù)據(jù)結(jié)構(gòu)是一致的。外部一致性是指文件的內(nèi)容與它相關(guān)的數(shù)據(jù)是相符合的。在這個(gè)例子中，因?yàn)槲覀儾涣私膺@個(gè)應(yīng)用，所以很難推斷是否符合一致性。但是因?yàn)橐恢滦孕枰有?，我們至少可以說沒有保證內(nèi)部一致性。
隔離性(Isolation)如果在并發(fā)的執(zhí)行事務(wù)中，多個(gè)相同的事務(wù)導(dǎo)致了不同的結(jié)果，就違反了隔離性。很明顯上面的代碼對操作失敗或者其它隔離性失敗都沒有保護(hù)。
持久性(Durability)意味著改變是持久不變的。在我們告訴用戶成功之前，我們必須確保我們的數(shù)據(jù)存儲(chǔ)是可靠的并且不只是一個(gè)寫緩存。上面的代碼已經(jīng)成功寫入數(shù)據(jù)的前提是假設(shè)我們調(diào)用write()函數(shù)，磁盤I/O就立即執(zhí)行。但是POSIX標(biāo)準(zhǔn)是不保證這個(gè)假設(shè)的。
盡可能使用數(shù)據(jù)庫系統(tǒng)
如果我們能夠獲得ACID 四個(gè)性質(zhì)，那么我們增加可靠性方面取得了長遠(yuǎn)發(fā)展。但是這需要很大的編碼功勞。為什么重復(fù)發(fā)明輪子？大多數(shù)數(shù)據(jù)庫系統(tǒng)已經(jīng)有ACID事務(wù)了。
可靠性數(shù)據(jù)存儲(chǔ)已經(jīng)是一個(gè)已解決的問題。如果你需要可靠性存儲(chǔ)，請使用數(shù)據(jù)庫。很可能，沒有幾十年的功夫，你自己解決這方面的能力沒有那些已經(jīng)專注這方面好些年的人好。如果你不想安裝一個(gè)大數(shù)據(jù)庫服務(wù)器，那么你可以使用sqlite,它具有ACID事務(wù)，很小，免費(fèi)的，而且它包含在Python的標(biāo)準(zhǔn)庫中。
文章本該在這里就結(jié)束的，但是還有一些有根有據(jù)的原因，就是不使用數(shù)據(jù)。它們通常是文件格式或者文件位置約束。這兩個(gè)在數(shù)據(jù)庫系統(tǒng)中都不好控制。理由如下：
我們必須處理其它應(yīng)用產(chǎn)生的固定格式或者在固定位置的文件，
我們必須為了其它應(yīng)用的消耗而寫文件（和應(yīng)用了同樣的限制條件）
我們的文件必須方便人閱讀或者修改。

如果我們自己動(dòng)手實(shí)現(xiàn)可靠的文件更新，那么這里有一些編程技術(shù)供參考。下面我將展示四種常見的操作文件更新模式。在那之后，我會(huì)討論采取哪些步驟在每個(gè)文件更新模式下滿足ACID性質(zhì)。
文件更新模式
文件可以以多種方式更新，但是我認(rèn)為至少有四種常見的模式。這四種模式將做為本文剩余部分的基礎(chǔ)。
截?cái)?寫
這可能是最基本的模式。在下述例子中，假設(shè)的域模型代碼讀數(shù)據(jù)，執(zhí)行一些計(jì)算，然后以寫模式重新打開存在的文件：

使用Python進(jìn)行穩(wěn)定可靠的文件操作詳解

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具