Python實現異常檢測LOF算法的示例代碼
大家好,我是東哥。
本篇和大家介紹一個經典的異常檢測算法:局部離群因子(Local Outlier Factor),簡稱LOF算法。
背景
Local Outlier Factor(LOF)是基于密度的經典算法(Breuning et. al. 2000), 文章發(fā)表于 SIGMOD 2000, 到目前已經有 3000+ 的引用。
在 LOF 之前的異常檢測算法大多是基于統計方法的,或者是借用了一些聚類算法用于異常點的識別(比如 ,DBSCAN,OPTICS)。這些方法都有一些不完美的地方:
- 基于統計的方法:通常需要假設數據服從特定的概率分布,這個假設往往是不成立的。
- 聚類方法:通常只能給出 0/1 的判斷(即:是不是異常點),不能量化每個數據點的異常程度。
相比較而言,基于密度的LOF算法要更簡單、直觀。它不需要對數據的分布做太多要求,還能量化每個數據點的異常程度(outlierness)。
下面開始正式介紹LOF算法。
LOF 算法
首先,基于密度的離群點檢測方法有一個基本假設:非離群點對象周圍的密度與其鄰域周圍的密度類似,而離群點對象周圍的密度顯著不同于其鄰域周圍的密度。
什么意思呢?看下面圖片感受下。
集群 C1 包含了 400 多個點,集群 C2 包含 100 個點。C1 和 C2 都是一類集群點,區(qū)別是 C1 位置比較集中,或者說密度比較大。而像 o1、o2點均為異常點,因為基于我們的假設,這兩個點周圍的密度顯著不同于周圍點的密度。
LOF 就是基于密度來判斷異常點的,通過給每個數據點都分配一個依賴于鄰域密度的離群因子 LOF,進而判斷該數據點是否為離群點。 如果LOF>=1 ,則該點為離群點,如果LOF≈1 ,則該點為正常數據點。
那什么是LOF呢?
了解LOF前,必須先知道一下幾個基本概念,因為LOF是基于這幾個概念而來的。
1. k鄰近距離
在距離數據點P最近的幾個點中,第K個最近的點跟點P之間的距離稱為點P的 K-鄰近距離,記為 k-distance (p),公式如下:
點O為距離點P最近的第k個點。
比如上圖中,距離點P最近的第4個點是點6。
這里的距離計算可以采用歐式距離、漢明距離、馬氏距離等等。比如用歐式距離的計算公式如下:
這里的重點是找到第k個最近的那個點,然后帶公式計算距離。
2. k距離領域
以點P為圓心,以k鄰近距離dk(P)為半徑畫圓,這個圓以內的范圍就是k距離領域,公式如下:
還是上圖所示,假設k=4,那么點 1-6 均是鄰域范圍內的點。
3. 可達距離
這個可達距離大家需要留意點,點P到點O的第k可達距離:
這里計算P到點O的第k可達距離,但是要以點O為中心,取一個最大值,也就是在點P與O的距離、距離點O最近的第k個點距離中取較大的一個,如圖下所示。
p2距離o遠,那么兩者之間的可達距離就是它們的實際距離。如果距離足夠近,如點p1,實際距離將被o的k距離代替。所有p接近o的統計波動d(p,o)可以顯著減少,這可以通過參數k來控制,k值越高,同一鄰域內的點的可達距離越相似。
4. 局部可達密度
先給出公式。
數據點P的局部可達密度就是基于P的最近鄰的平均可達距離的倒數。距離越大,密度越小。
5. 局部異常因子
根據局部可達密度的定義,如果一個數據點跟其他點比較疏遠的話,那么顯然它的局部可達密度就小。但LOF算法衡量一個數據點的異常程度,并不是看它的絕對局部密度,而是看它跟周圍鄰近的數據點的相對密度。
這樣做的好處是可以允許數據分布不均勻、密度不同的情況。局部異常因子即是用局部相對密度來定義的。數據點p的局部相對密度(局部異常因子)為點p鄰域內點的平均局部可達密度跟數據點p的局部可達密度的比值,即:
LOF算法流程
了解了 LOF 的定義以后,整個算法也就顯而易見了:
- 對于每個數據點,計算它與其它所有點的距離,并按從近到遠排序;
- 對于每個數據點,找到它的 k-nearest-neighbor,計算 LOF 得分;
- 如果LOF值越大,說明越異常,反之如果越小,說明越趨于正常。
LOF優(yōu)缺點
優(yōu)點
LOF 的一個優(yōu)點是它同時考慮了數據集的局部和全局屬性。異常值不是按絕對值確定的,而是相對于它們的鄰域點密度確定的。當數據集中存在不同密度的不同集群時,LOF表現良好,比較適用于中等高維的數據集。
缺點
LOF算法中關于局部可達密度的定義其實暗含了一個假設,即:不存在大于等于 k 個重復的點。
當這樣的重復點存在的時候,這些點的平均可達距離為零,局部可達密度就變?yōu)闊o窮大,會給計算帶來一些麻煩。在實際應用時,為了避免這樣的情況出現,可以把 k-distance 改為 k-distinct-distance,不考慮重復的情況。或者,還可以考慮給可達距離都加一個很小的值,避免可達距離等于零。
另外,LOF 算法需要計算數據點兩兩之間的距離,造成整個算法時間復雜度為O(n2)。為了提高算法效率,后續(xù)有算法嘗試改進。FastLOF (Goldstein,2012)先將整個數據隨機的分成多個子集,然后在每個子集里計算 LOF 值。對于那些 LOF 異常得分小于等于 1 的,從數據集里剔除,剩下的在下一輪尋找更合適的 nearest-neighbor,并更新 LOF 值。
Python 實現 LOF
有兩個庫可以計算LOF,分別是PyOD
和Sklearn
,下面分別介紹。
使用pyod
自帶的方法生成200個訓練樣本和100個測試樣本的數據集。正態(tài)樣本由多元高斯分布生成,異常樣本是使用均勻分布生成的。
訓練和測試數據集都有 5 個特征,10% 的行被標記為異常。并且在數據中添加了一些隨機噪聲,讓完美分離正常點和異常點變得稍微困難一些。
from pyod.utils.data import generate_data import numpy as np X_train, y_train, X_test, y_test = \ generate_data(n_train=200, n_test=100, n_features=5, contamination=0.1, random_state=3) X_train = X_train * np.random.uniform(0, 1, size=X_train.shape) X_test = X_test * np.random.uniform(0,1, size=X_test.shape)
PyOD
下面將訓練數據擬合了 LOF 模型并將其應用于合成測試數據。
在 PyOD
中,有兩個關鍵方法:decision_function
和 predict
。
- decision_function:返回每一行的異常分數
- predict:返回一個由 0 和 1 組成的數組,指示每一行被預測為正常 (0) 還是異常值 (1)
from?pyod.models.lof?import?LOF clf_name?=?'LOF' clf?=?LOF() clf.fit(X_train) test_scores?=?clf.decision_function(X_test) roc?=?round(roc_auc_score(y_test,?test_scores),?ndigits=4) prn?=?round(precision_n_scores(y_test,?test_scores),?ndigits=4) print(f'{clf_name}?ROC:{roc},?precision?@?rank?n:{prn}') >>?LOF?ROC:0.9656,?precision?@?rank?n:0.8
可以通過 LOF 模型方法查看 LOF 分數的分布。在下圖中看到正常數據(藍色)的分數聚集在 1.0 左右。離群數據點(橙色)的得分均大于 1.0,一般高于正常數據。
Sklearn
在scikit-learn
中實現 LOF
進行異常檢測時,有兩種模式選擇:異常檢測模式 (novelty=False)
和 novelty檢測模式 (novelty=True)
。
在異常檢測模式下,只有fit_predict
生成離群點預測的方法可用??梢允褂?code>negative_outlier_factor_屬性檢索訓練數據的異常值分數,但無法為未見過的數據生成分數。模型會根據contamination
參數(默認值為 0.1)自動選擇異常值的閾值。
import?matplotlib.pyplot?as?plt detector?=?LOF() scores?=?detector.fit(X_train).decision_function(X_test) sns.distplot(scores[y_test==0],?label="inlier?scores") sns.distplot(scores[y_test==1],?label="outlier?scores").set_title("Distribution?of?Outlier?Scores?from?LOF?Detector") plt.legend() plt.xlabel("Outlier?score")
在novelty檢測模式下,只有decision_function
用于生成異常值可用。fit_predict
方法不可用,但predict
方法可用于生成異常值預測。
clf?=?LocalOutlierFactor(novelty=True) clf?=?clf.fit(X_train) test_scores?=?clf.decision_function(X_test) test_scores?=?-1*test_scores roc?=?round(roc_auc_score(y_test,?test_scores),?ndigits=4) prn?=?round(precision_n_scores(y_test,?test_scores),?ndigits=4) print(f'{clf_name}?ROC:{roc},?precision?@?rank?n:{prn}')
該模式下模型的異常值分數被反轉,異常值的分數低于正常值。
以上就是Python實現異常檢測LOF算法的示例代碼的詳細內容,更多關于Python LOF算法的資料請關注腳本之家其它相關文章!
相關文章
python處理自動化任務之同時批量修改word里面的內容的方法
在本篇文章里小編給各位整理的是一篇關于利用python處理自動化任務之同時批量修改word里面的內容的文章,需要的可以參考學習下。2019-08-08python爬蟲 正則表達式使用技巧及爬取個人博客的實例講解
下面小編就為大家?guī)硪黄猵ython爬蟲 正則表達式使用技巧及爬取個人博客的實例講解。小編覺得挺不錯的,現在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-10-10