腳本之家服務器常用軟件

快捷導航

使用python對泰坦尼克號幸存者進行數(shù)據(jù)分析與預測

更新時間：2023年03月22日 14:28:21 作者：生魚同學

這篇文章主要介紹了使用python對泰坦尼克號幸存者進行數(shù)據(jù)分析與預測，應用機器學習的工具來預測哪些乘客在悲劇中幸存下來

??引言

泰坦尼克號的沉沒是歷史上最慘痛的沉船事件之一。

1912年4月15日，泰坦尼克號在其處女航中與冰山相撞后沉沒，2224名乘客和船員中的1502人死亡。

在這個數(shù)據(jù)分析項目中，我們需要完成對什么樣的人有可能幸存的分析。

特別是，我們需要你應用機器學習的工具來預測哪些乘客在悲劇中幸存下來。

在本文中，我們就從數(shù)據(jù)的角度出發(fā)對泰坦尼克幸存者進行分析與預測，話不多說我們開始吧。

??數(shù)據(jù)獲取

本項目數(shù)據(jù)基于Kaggle中泰坦尼克數(shù)據(jù)，需要的小伙伴可以自行登錄Kaggle中進行下載，或者私信我索要鏈接。

kaggle的鏈接如下：

KAGGLE競賽鏈接

當我們成功注冊賬號后，可以在競賽鏈接中找到泰坦尼克沉船存活的競賽鏈接，如下圖所示：

在這里插入圖片描述

進入競賽頁面后，可以看到關于競賽的簡單介紹以及其他人的代碼等內(nèi)容，在這里我們點擊Data。

在這里插入圖片描述

注意下面的數(shù)據(jù)介紹，這里的數(shù)據(jù)介紹將會幫助我們了解數(shù)據(jù)的基本情況以及其代表的內(nèi)容。

在這里插入圖片描述

我們獲取到數(shù)據(jù)之后，打開編譯環(huán)境準備開始進行數(shù)據(jù)分析，在本文中我使用的是jupyter進行數(shù)據(jù)分析，當然可以選擇自己習慣的編譯環(huán)境進行后續(xù)的工作。

拿到數(shù)據(jù)之后，我們首先編寫代碼將其讀取進編譯環(huán)境中，代碼如下：

# 導入pandas
import pandas as pd
# 將訓練集數(shù)據(jù)導入
data = pd.read_csv('train.csv')

導入數(shù)據(jù)后的結(jié)果如下：

在這里插入圖片描述

??數(shù)據(jù)初步觀察與處理

??數(shù)據(jù)觀察

??數(shù)據(jù)清理4C原則

在我們拿到數(shù)據(jù)后，我們需要對數(shù)據(jù)進行初步的觀察以及數(shù)據(jù)清洗。這里介紹Kaggle大佬提出的數(shù)據(jù)清理4C原則，其分別是：

Correcting（糾正）：顧名思義，糾正數(shù)據(jù)就是對數(shù)據(jù)進行異常值的處理。例如年齡如果存在100+的數(shù)據(jù)，那么這一定是不正常的值。我們將對不同的數(shù)據(jù)進行異常值的檢查以確保其是正常有效的。但是，當我們從原始的數(shù)據(jù)中修改數(shù)據(jù)的時候一定要謹慎行事，因為建立一個準確的模型的基石就是數(shù)據(jù)，數(shù)據(jù)決定了模型的好壞

Completing（補充）：補充缺失值以及被我們所發(fā)現(xiàn)的異常值是必須的。雖然在某些模型中，可以自動的幫助我們處理缺失值兒不需要處理（例如決策樹）。在這部分中，我們通常會選擇缺失占比小的缺失值進行刪除，兒占比較大或者占比非常大的缺失值，我們會考慮在原有的數(shù)據(jù)中探尋某種規(guī)律將其進行填充。

Creating（創(chuàng)建）：特征工程中需要我們對原有的特征進行理解并決定是否提取新的特征。例如，在本題中我們可以考慮對年齡進行分段作為一個新的特征考慮在內(nèi)。當然這里的前提是，我們對問題有一個深刻的了解，探尋我們提取的特征是否真的能夠?qū)ψ詈蟮哪Ｐ蜆?gòu)建有幫助。這就需要我們反復驗證，思考進行提取特征，找尋到真正對不同問題有幫助的特征。

Converting（轉(zhuǎn)換）：在針對某些特定的數(shù)據(jù)格式的時候，可能還需要我們進行數(shù)據(jù)轉(zhuǎn)換。這當然是非常重要的，例如某些字符串類型的數(shù)據(jù)，需要我們轉(zhuǎn)換為數(shù)值的形式來表示。

在這一步中，我們將調(diào)用pandas中的基本函數(shù)對數(shù)據(jù)進行初步的觀察。我們首先調(diào)用info（）查看數(shù)據(jù)的類型以及基本情況，代碼如下：

data.info()

結(jié)果如下：

在這里插入圖片描述

當我們調(diào)用該函數(shù)后，可以看到所有數(shù)據(jù)的類型以及基本情況。

這里需要注意我標注的數(shù)據(jù)，我們發(fā)現(xiàn)Age數(shù)據(jù)與其它數(shù)據(jù)相比數(shù)量少了很多，也就是我們說的缺失值。與此同時，可以看到Cabin以及Embarked也存在缺失的情況。

這些都需要我們關注，并在后續(xù)進行一些處理。

隨后，我們調(diào)用describe()函數(shù)進一步觀察數(shù)據(jù)的分布情況，該函數(shù)可以幫助我們計算每列數(shù)據(jù)的分布以及平均值等內(nèi)容。代碼如下：

data.describe()

結(jié)果如下：

在這里插入圖片描述

這里我們發(fā)現(xiàn)Parch數(shù)據(jù)的75%都是0，存在明顯的分布不均勻的情況，后續(xù)可能需要處理。

??缺失值處理（Completing）

在上節(jié)中，我們發(fā)現(xiàn)數(shù)據(jù)存在一定的缺失情況，我們首先對其進行可視化，這能夠使得我們對數(shù)據(jù)的觀察更直觀。

在這里我們用到了missingno庫進行缺失數(shù)據(jù)的可視化，其對缺失數(shù)據(jù)的可視化更加直觀。

使用之前，請確保自己已經(jīng)安裝該庫。

使用該庫進行可視化的代碼如下：

# 在數(shù)據(jù)中抽樣100個單位
data_sample = data.sample(100)
msno.matrix(data_sample)

結(jié)果如下：

在這里插入圖片描述

可以發(fā)現(xiàn)，Cabin的缺失值較為明顯，Age也存在一些缺失值。

因為數(shù)據(jù)中每列代表的情況不盡相同，所以我們將針對數(shù)據(jù)進行不同的處理方法。

我們再通過代碼來觀察一下缺失的數(shù)據(jù)情況，代碼與結(jié)果如下：

missing_data = data.isnull().sum()
missing_data = missing_data [missing_data >0]
missing_data

在這里插入圖片描述

??Embarked的處理

我們首先處理Embarked列，在上邊的數(shù)據(jù)觀察中發(fā)現(xiàn)其擁有兩個缺失值，因為相對于全部的一千條數(shù)據(jù)來說其量級較小，所以我們在這里直接選擇該列缺失的兩條數(shù)據(jù)進行刪除處理，代碼如下：

# 在data中尋找Embarked的缺失值 找到后在原表中將其行刪除
data.dropna(axis=0, how='any',subset=['Embarked'], inplace=True)

dropna 參數(shù)介紹：

axis: default 0指行,1為列
how: {‘any’, ‘all’}, default ‘any’指帶缺失值的所有行;'all’指清除全是缺失值的
thresh: int,保留含有int個非空值的行
subset: 對特定的列進行缺失值刪除處理
inplace: 這個很常見,True表示直接在原數(shù)據(jù)上更改

??Age的處理

在上述觀察中，我們發(fā)現(xiàn)Age存在一定的缺失情況，接下來我們對其進行處理。

我們由Kaggle中的數(shù)據(jù)介紹中了解到，其表示乘客的年齡，且缺失值相對來說較多，不能夠直接采用刪除的方式。

我們首先觀察Age的分布情況，繪制年齡的直方圖，代碼如下：

data.hist(column='Age')

結(jié)果如下：

在這里插入圖片描述

我們注意到，年齡的分布存在一定的偏態(tài)，這時候更適合采用中位數(shù)進行填充。

注意：偏態(tài)分布的大部分值都聚集在變量分布的一側(cè)，中位數(shù)可以很好的表示中心趨勢。

所以，我們對年齡的缺失值進行中位數(shù)的填充。代碼如下:

data['Age'].fillna(data['Age'].median(), inplace=True)

至此，我們對于年齡的缺失值處理完畢。

??Cabin的處理

我們首先看一下Cabin的數(shù)據(jù)解釋：Cabin number（機艙號碼）

對于該特征來說，仿佛對于最終的數(shù)據(jù)幫助不大。即使其對于最后的數(shù)據(jù)是非常重要的，由于其缺失值過多且不容易探尋其中的規(guī)律，我們還是選擇對其做刪除的處理。

代碼如下：

# 這里我直接刪除了該列
del data['Cabin']

至此，所有數(shù)據(jù)的缺失值處理完畢。

??異常值的檢測與處理（Correcting）

在本例中，我們能夠進行檢測并處理的主要是Age特征，因為我們預先知道其大概的范圍。在這里我們繪制箱線圖觀察其數(shù)據(jù)的異常情況決定是否需要進行處理，代碼如下：

data['Age'].plot.box()

結(jié)果如下：

在這里插入圖片描述

在這里，我們可以看到該數(shù)據(jù)的最高點在80，符合我們對于數(shù)據(jù)的預先認知，遂不進行處理。

??特征構(gòu)建（Create）

在這部分中，要求我們對不同的特征有一定的了解以及認識，在這里我列出所有的特征含義。

特征名稱	含義
survival	是否存活，1表示存活，0表示沒有
pclass	表示票的種類，分別為1，2，3等
sex	性別
Age	年齡
sibsp	在泰坦尼克號上的兄弟姐妹/配偶的數(shù)量
parch	在泰坦尼克號上的父母/子女人數(shù)
ticket	票號
fare	乘客票價
cabin	機艙號
embarked	上岸港口，C = Cherbourg, Q = Queenstown, S = Southampton

在這里，我們提取兩個特征，分別是乘客家庭規(guī)模，是否獨自一人，并對票價以及年齡進行分段構(gòu)造兩個新的特征。

注意：針對不同的項目采取的特征提取工作并不相同，因為這需要根據(jù)具體的業(yè)務進行分析并提取。

我們首先針對家庭規(guī)模以及是否獨自一人創(chuàng)建新的兩個特征，代碼如下：

data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

data['IsAlone'] = 1 
data['IsAlone'].loc[data['FamilySize'] > 1] = 0

然后，我們對年齡和票價進行分段，代碼如下：

data['FareBin'] = pd.qcut(data['Fare'], 4)
data['AgeBin'] = pd.cut(data['Age'].astype(int), 5)

這里簡單介紹一下上述兩個函數(shù)的區(qū)別與作用
qcut：根據(jù)傳入的數(shù)值進行等頻分箱，即每個箱子中含有的數(shù)的數(shù)量是相同的。
cut：根據(jù)傳入的數(shù)值進行等距離分箱，即每個箱子的間距都是相同的。

特別的，在本節(jié)中特征工程的過程要根據(jù)實際業(yè)務進行不同的特征提取，這個過程需要我們對業(yè)務有足夠的理解程度。幾個好的特征對后續(xù)的模型精確程度有很大的積極影響。

??數(shù)據(jù)格式轉(zhuǎn)換（Convert）

某些特定的格式在很多模型中其實是不適用的，在本例中經(jīng)過上述處理后的數(shù)據(jù)如下所示：

在這里插入圖片描述

圖中的性別等內(nèi)容都為字符類型，這顯然在模型中存在一定的不兼容情況，這就需要我們進行一定程度的格式轉(zhuǎn)換。

在本部分中，我們要處理的有以下幾個部分：

PassengerId：用戶id的部分對后面的預測仿佛用處不大，我們對其進行刪除。

Name：這里的名字中有MR.MISS等信息，這可能對后續(xù)的模型有幫助，我們對其進行處理保留。

Sex：需要進行編碼使用，因為它是字符串類型。

Ticket：仿佛用處不大，這里我們選擇刪除。

Embarked：需要進行編碼使用，因為它是字符串類型。

FareBin：需要進行編碼使用，因為它是一個范圍。

AgeBin：需要進行編碼使用，因為它是一個范圍。

我們首先對需要刪除的兩列進行刪除的操作，代碼如下：

del data['PassengerId']
del data['Ticket']

然后我們對Name進行處理，將其中的身份信息提取出來，代碼如下：

data['Title'] = data['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0]

結(jié)果如下：

在這里插入圖片描述

最后，我們對需要編碼的數(shù)據(jù)進行編碼：

from sklearn.preprocessing import OneHotEncoder, LabelEncoder
label = LabelEncoder()

data['Sex_Code'] = label.fit_transform(data['Sex'])
data['Embarked_Code'] = label.fit_transform(data['Embarked'])
data['Title_Code'] = label.fit_transform(data['Title'])
data['AgeBin_Code'] = label.fit_transform(data['AgeBin'])
data['FareBin_Code'] = label.fit_transform(data['FareBin'])

編碼后的結(jié)果如下：

在這里插入圖片描述

至此，數(shù)據(jù)格式轉(zhuǎn)換已經(jīng)完畢。

??模型構(gòu)建與評價

在本節(jié)中，我們將基于上述數(shù)據(jù)進行模型的構(gòu)建，并且通過不同的評價指標進行構(gòu)建。

??模型構(gòu)建

在這里我將會使用基礎的分類模型進行模型的構(gòu)建，并挑選出初步表現(xiàn)最好的模型進行參數(shù)調(diào)節(jié)。代碼如下：

# 處理不需要的數(shù)據(jù)列
data_x = data.copy()
del data_x['Survived']
del data_x['Name']
del data_x['Sex']
del data_x['FareBin']
del data_x['AgeBin']
del data_x['Title']
del data_x['Embarked']
# 構(gòu)建y
data_y = data['Survived']
# 導入包
from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process
from sklearn.model_selection import cross_val_score
# 定義常用的幾種分類模型
MLA = {
    #隨機森林
    '隨機森林':ensemble.RandomForestClassifier(),
    #邏輯回歸
    '邏輯回歸':linear_model.LogisticRegressionCV(max_iter=3000),
    #SVM
    'SVM':svm.SVC(probability=True),
    #樹模型
    '樹模型':tree.DecisionTreeClassifier(),
    }
# 進行5折交叉驗證并選擇f1作為評價指標
for model_name in MLA:
    scores = cross_val_score(MLA[model_name], X=data_x, y=data_y, verbose=0, cv = 5, scoring='f1')
    print(f'{model_name}:',scores.mean())

結(jié)果如下：

在這里插入圖片描述

我們可以看到，目前隨機森林的效果最好，所以我們選擇隨機森林進行參數(shù)調(diào)節(jié)。

??參數(shù)調(diào)節(jié)

在這里我們選擇使用網(wǎng)格調(diào)參的方式進行參數(shù)調(diào)節(jié)，代碼如下：

from sklearn.model_selection import GridSearchCV

n_estimators = [3,5,10,15,20,40, 55]
max_depth = [10,100,1000]

parameters = { 'n_estimators': n_estimators, 'max_depth': max_depth}

model = ensemble.RandomForestClassifier()
clf = GridSearchCV(model, parameters, cv=5)
clf = clf.fit(data_x, data_y)
clf.best_estimator_

結(jié)果如下：

在這里插入圖片描述