R語言實現(xiàn)PCA主成分分析圖的示例代碼
簡介
主成分分析(Principal Component Analysis,PCA)是一種無監(jiān)督的數據降維方法,通過主成分分析可以盡可能保留下具備區(qū)分性的低維數據特征。主成分分析圖能幫助我們直觀地感受樣本在降維后空間中的分簇和聚合情況,這在一定程度上亦能體現(xiàn)樣本在原始空間中的分布情況,這對于只能感知三維空間的人類來說,不失為一種不錯的選擇。
再舉個形象的栗子,假如你是一本養(yǎng)花工具宣傳冊的攝影師,你正在拍攝一個水壺。水壺是三維的,但是照片是二維的,為了更全面的把水壺展示給客戶,你需要從不同角度拍幾張圖片。下圖是你從四個方向拍的照片:
PCA形象解釋說明
第一張圖里水壺的背面可以看到,但是看不到前面。
第二張圖是拍前面,可以看到壺嘴,這張圖可以提供了第一張圖缺失的信息,但是壺把看不到了。
第三張俯視圖既可以看到壺嘴,也可以看到壺把,但是無法看出壺的高度。
第四張圖是你打算放進目錄的,水壺的高度,頂部,壺嘴和壺把都清晰可見。
PCA的設計理念與此類似,它可以將高維數據集映射到低維空間的同時,盡可能的保留更多變量。
開始作圖
使用 R 語言能做出像 SIMCA-P 一樣的 PCA 圖嗎?
答案是肯定的,使用 R 語言不僅能做出像 SIMCA-P 一樣的 PCA 圖,還能做出比 SIMCA-P 更好看的圖,而且好看的上限僅取決于個人審美風格。
1. PCA 分析圖本質上是散點圖
主成分分析圖 = 散點圖 + 置信橢圓,散點的橫縱坐標對應 PCA 的第一主成分、第二主成分。
library(ggplot2) # 數據準備 data = subset(iris, select = -Species) class = iris[["Species"]] # PCA pca = prcomp(data, center = T, scale. = T) pca.data = data.frame(pca$x) pca.variance = pca$sdev^2 / sum(pca$sdev^2) ggplot(pca.data, aes(x = PC1, y = PC2)) + geom_point(size = 3) + geom_hline(yintercept = 0) + geom_vline(xintercept = 0) + stat_ellipse(aes(x = PC1, y = PC2), linetype = 2, size = 0.5, level = 0.95) + theme_bw()
散點圖+橢圓
2. 為不同類別著色
接下來想給散點加上分類顏色:
library(ggplot2) # 數據準備 data = subset(iris, select = -Species) class = iris[["Species"]] # PCA pca = prcomp(data, center = T, scale. = T) pca.data = data.frame(pca$x) pca.variance = pca$sdev^2 / sum(pca$sdev^2) ggplot(pca.data, aes(x = PC1, y = PC2, color = class)) + geom_point(size = 3) + geom_hline(yintercept = 0) + geom_vline(xintercept = 0) + stat_ellipse(aes(x = PC1, y = PC2), linetype = 2, size = 0.5, level = 0.95) + theme_bw()
給不同類別樣本著色
顏色是加上了,但是橢圓咋變成了 3 個?
原來是 stat_ellipse
函數默認對每個類別的數據計算自己的置信區(qū)間。如何對多類樣本只計算一個置信區(qū)間呢?查看 stat_ellipse 的幫助文檔:
inherit.aes
default TRUE, If FALSE, overrides the default aesthetics, rather than combining with them. This is most useful for helper functions that define both data and aesthetics and shouldn't inherit behaviour from the default plot specification,
原來是 stat_ellipse 函數默認會繼承 ggplot 中的 aes 設置,如果希望 stat_ellipse 使用自己的 aes 設置,需要將參數 inherit.aes 設置為 FALSE。
library(ggplot2) # 數據準備 data = subset(iris, select = -Species) class = iris[["Species"]] # PCA pca = prcomp(data, center = T, scale. = T) pca.data = data.frame(pca$x) pca.variance = pca$sdev^2 / sum(pca$sdev^2) ggplot(pca.data, aes(x = PC1, y = PC2, color = class)) + geom_point(size = 3) + geom_hline(yintercept = 0) + geom_vline(xintercept = 0) + stat_ellipse(aes(x = PC1, y = PC2), linetype = 2, size = 0.5, level = 0.95, inherit.aes = FALSE) + theme_bw()
給不同類別樣本著色
3. 樣式微調
接下來對樣式進行微調:為不同類別樣本自定義著色,添加 x 軸、y 軸標題,添加 title:
library(ggplot2) # 數據準備 data = subset(iris, select = -Species) class = iris[["Species"]] # PCA pca = prcomp(data, center = T, scale. = T) pca.data = data.frame(pca$x) pca.variance = pca$sdev^2 / sum(pca$sdev^2) # 自定義顏色 palette = c("mediumseagreen", "darkorange", "royalblue") ggplot(pca.data, aes(x = PC1, y = PC2, color = class)) + geom_point(size = 3) + geom_hline(yintercept = 0) + geom_vline(xintercept = 0) + stat_ellipse(aes(x = PC1, y = PC2), linetype = 2, size = 0.5, level = 0.95, inherit.aes = FALSE) + theme_bw() + scale_color_manual(values = palette) + theme(panel.grid.major.x = element_blank(), panel.grid.minor.x = element_blank(), panel.grid.major.y = element_blank(), panel.grid.minor.y = element_blank()) + labs(x = paste0("PC1: ", signif(pca.variance[1] * 100, 3), "%"), y = paste0("PC2: ", signif(pca.variance[2] * 100, 3), "%"), title = paste0("PCA of iris")) + theme(plot.title = element_text(hjust = 0.5))
樣式微調
將作圖結果和 SIMCA-P 對比,散點、橢圓基本完全一致,只是比它更順眼一些罷了~
到此這篇關于R語言實現(xiàn)PCA主成分分析圖的示例代碼的文章就介紹到這了,更多相關R語言 PCA主成分分析圖內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!