LZ77壓縮算法原理的理解

更新時間：2017年08月11日 11:07:25 投稿：lqh

這篇文章主要介紹了LZ77壓縮算法原理的理解的相關資料,數(shù)據(jù)壓縮是一個減小數(shù)據(jù)存儲空間的過程，目前被應用在軟件工程的各個地方，了解其一些原理，方便我們更好的甄選壓縮方案,需要的朋友可以參考下

LZ77壓縮算法原理的理解

數(shù)據(jù)壓縮是一個減小數(shù)據(jù)存儲空間的過程，目前被應用在軟件工程的各個地方，了解其一些原理，方便我們更好的甄選壓縮方案。

壓縮方案有很多種，常見的就是有損和無損壓縮?；舴蚵幋a和LZ77(Lempel-Ziv-1977)都是無損壓縮，其中霍夫曼是采用最小冗余編碼的算法進行壓縮，而LZ77是采用字典的方式進行壓縮。關于霍夫曼編碼的算法，網(wǎng)上有很多對其詳細的講解，我們本篇幅不在細說，主要圖解一下LZ77壓縮算法的方式，看看其有哪些優(yōu)缺點。

信息熵

數(shù)據(jù)為何是可以壓縮的，因為數(shù)據(jù)都會表現(xiàn)出一定的特性，稱為熵。絕大多數(shù)的數(shù)據(jù)所表現(xiàn)出來的容量往往大于其熵所建議的最佳容量。比如所有的數(shù)據(jù)都會有一定的冗余性，我們可以把冗余的數(shù)據(jù)采用更少的位對頻繁出現(xiàn)的字符進行標記，也可以基于數(shù)據(jù)的一些特性基于字典編碼，代替重復多余的短語。

LZ77算法原理

LZ77壓縮算法采用字典的方式進行壓縮，是一個簡單但十分高效的數(shù)據(jù)壓縮算法。其方式就是把數(shù)據(jù)中一些可以組織成短語(最長字符)的字符加入字典，然后再有相同字符出現(xiàn)采用標記來代替字典中的短語，如此通過標記代替多數(shù)重復出現(xiàn)的方式以進行壓縮。要理解這種算法，我們先了解3個關鍵詞:短語字典，滑動窗口和向前緩沖區(qū)。

關鍵詞：

1.前向緩沖區(qū)

每次讀取數(shù)據(jù)的時候，先把一部分數(shù)據(jù)預載入前向緩沖區(qū)。為移入滑動窗口做準備

2.滑動窗口

一旦數(shù)據(jù)通過緩沖區(qū)，那么它將移動到滑動窗口中，并變成字典的一部分。

3.短語字典

從字符序列S1...Sn，組成n個短語。比如字符(A,B,D) ,可以組合的短語為{(A),(A,B),(A,B,D),(B),(B,D),(D)},如果這些字符在滑動窗口里面，就可以記為當前的短語字典，因為滑動窗口不斷的向前滑動，所以短語字典也是不斷的變化。

LZ77的主要算法邏輯就是，先通過前向緩沖區(qū)預讀數(shù)據(jù)，然后再向滑動窗口移入（滑動窗口有一定的長度），不斷的尋找能與字典中短語匹配的最長短語，然后通過標記符標記。我們還以字符ABD為例子，看如下圖: