亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

8種用Python實現(xiàn)線性回歸的方法對比詳解

 更新時間:2019年07月10日 10:40:23   作者:TirthajyotiSarkar  
這篇文章主要介紹了8種用Python實現(xiàn)線性回歸的方法對比詳解,說到如何用Python執(zhí)行線性回歸,大部分人會立刻想到用sklearn的linear_model,但事實是,Python至少有8種執(zhí)行線性回歸的方法,sklearn并不是最高效的,需要的朋友可以參考下

前言

說到如何用Python執(zhí)行線性回歸,大部分人會立刻想到用sklearn的linear_model,但事實是,Python至少有8種執(zhí)行線性回歸的方法,sklearn并不是最高效的。

今天,讓我們來談談線性回歸。沒錯,作為數(shù)據(jù)科學界元老級的模型,線性回歸幾乎是所有數(shù)據(jù)科學家的入門必修課。拋開涉及大量數(shù)統(tǒng)的模型分析和檢驗不說,你真的就能熟練應用線性回歸了么?未必!

在這篇文章中,文摘菌將介紹8種用Python實現(xiàn)線性回歸的方法。了解了這8種方法,就能夠根據(jù)不同需求,靈活選取最為高效的方法實現(xiàn)線性回歸。

“寶刀不老”的線性回歸

時至今日,深度學習早已成為數(shù)據(jù)科學的新寵。即便往前推10年,SVM、boosting等算法也能在準確率上完爆線性回歸。

為什么我們還需要線性回歸呢?

一方面,線性回歸所能夠模擬的關系其實遠不止線性關系。線性回歸中的“線性”指的是系數(shù)的線性,而通過對特征的非線性變換,以及廣義線性模型的推廣,輸出和特征之間的函數(shù)關系可以是高度非線性的。另一方面,也是更為重要的一點,線性模型的易解釋性使得它在物理學、經濟學、商學等領域中占據(jù)了難以取代的地位。

那么,如何用Python來實現(xiàn)線性回歸呢?

由于機器學習庫scikit-learn的廣泛流行,常用的方法是從該庫中調用linear_model來擬合數(shù)據(jù)。雖然這可以提供機器學習的其他流水線特征(例如:數(shù)據(jù)歸一化,模型系數(shù)正則化,將線性模型傳遞到另一個下游模型)的其他優(yōu)點,但是當一個數(shù)據(jù)分析師需要快速而簡便地確定回歸系數(shù)(和一些基本相關統(tǒng)計量)時,這通常不是最快速簡便的方法。

下面,我將介紹一些更快更簡潔的方法,但是它們所提供信息量和建模的靈活性不盡相同。

各種線性回歸方法的完整源碼都可以在文末的GitHub鏈接中找到。他們大多數(shù)都依賴于SciPy包。

SciPy是基于Python的Numpy擴展構建的數(shù)學算法和函數(shù)的集合。通過為用戶提供便于操作和可視化數(shù)據(jù)的高級命令和類,為交互式Python會話增加了強大的功能。

8種方法實現(xiàn)線性回歸

方法一:Scipy.polyfit( ) or numpy.polyfit( )

這是一個最基本的最小二乘多項式擬合函數(shù)(least squares polynomial fit function),接受數(shù)據(jù)集和任何維度的多項式函數(shù)(由用戶指定),并返回一組使平方誤差最小的系數(shù)。這里給出函數(shù)的詳細描述。對于簡單的線性回歸來說,可以選擇1維函數(shù)。但是如果你想擬合更高維的模型,則可以從線性特征數(shù)據(jù)中構建多項式特征并擬合模型。

方法二:Stats.linregress( )

這是一個高度專業(yè)化的線性回歸函數(shù),可以在SciPy的統(tǒng)計模塊中找到。然而因為它僅被用來優(yōu)化計算兩組測量數(shù)據(jù)的最小二乘回歸,所以其靈活性相當受限。因此,不能使用它進行廣義線性模型和多元回歸擬合。但是,由于其特殊性,它是簡單線性回歸中最快速的方法之一。除了擬合的系數(shù)和截距項之外,它還返回基本統(tǒng)計量,如R2系數(shù)和標準差。

方法三:Optimize.curve_fit( )

這與Polyfit方法是一致的,但本質上更具一般性。這個強大的函數(shù)來自scipy.optimize模塊,可以通過最小二乘最小化將任意的用戶自定義函數(shù)擬合到數(shù)據(jù)集上。

對于簡單的線性回歸來說,可以只寫一個線性的mx + c函數(shù)并調用這個估計函數(shù)。不言而喻,它也適用于多元回歸,并返回最小二乘度量最小的函數(shù)參數(shù)數(shù)組以及協(xié)方差矩陣。

方法四:numpy.linalg.lstsq

這是通過矩陣分解計算線性方程組的最小二乘解的基本方法。來自numpy包的簡便線性代數(shù)模塊。在該方法中,通過計算歐幾里德2-范數(shù)||b-ax||2最小化的向量x來求解等式ax = b。

該方程可能有無數(shù)解、唯一解或無解。如果a是方陣且滿秩,則x(四舍五入)是方程的“精確”解。

你可以使用這個方法做一元或多元線性回歸來得到計算的系數(shù)和殘差。一個小訣竅是,在調用函數(shù)之前必須在x數(shù)據(jù)后加一列1來計算截距項。這被證明是更快速地解決線性回歸問題的方法之一。

方法五:Statsmodels.OLS ( )

Statsmodels是一個小型的Python包,它為許多不同的統(tǒng)計模型估計提供了類和函數(shù),還提供了用于統(tǒng)計測試和統(tǒng)計數(shù)據(jù)探索的類和函數(shù)。每個估計對應一個泛結果列表。可根據(jù)現(xiàn)有的統(tǒng)計包進行測試,從而確保統(tǒng)計結果的正確性。

對于線性回歸,可以使用該包中的OLS或一般最小二乘函數(shù)來獲得估計過程中的完整的統(tǒng)計信息。

一個需要牢記的小技巧是,必須手動給數(shù)據(jù)x添加一個常數(shù)來計算截距,否則默認情況下只會得到系數(shù)。以下是OLS模型的完整匯總結果的截圖。結果中與R或Julia等統(tǒng)計語言一樣具有豐富的內容。

方法六和七:使用矩陣的逆求解析解

對于條件良好的線性回歸問題(其中,至少滿足數(shù)據(jù)點個數(shù)>特征數(shù)量),系數(shù)求解等價于存在一個簡單的閉式矩陣解,使得最小二乘最小化。由下式給出:

這里有兩個選擇:

(a)使用簡單的乘法求矩陣的逆

(b)首先計算x的Moore-Penrose廣義偽逆矩陣,然后與y取點積。由于第二個過程涉及奇異值分解(SVD),所以它比較慢,但是它可以很好地適用于沒有良好條件的數(shù)據(jù)集。

方法八:sklearn.linear_model.LinearRegression( )

這是大多數(shù)機器學習工程師和數(shù)據(jù)科學家使用的典型方法。當然,對于現(xiàn)實世界中的問題,它可能被交叉驗證和正則化的算法如Lasso回歸和Ridge回歸所取代,而不被過多使用,但是這些高級函數(shù)的核心正是這個模型本身。

八種方法效率比拼

作為一名數(shù)據(jù)科學家,應該一直尋找準確且快速的方法或函數(shù)來完成數(shù)據(jù)建模工作。如果模型本來就很慢,那么會對大數(shù)據(jù)集造成執(zhí)行瓶頸。

一個可以用來確定可擴展性的好辦法是不斷增加數(shù)據(jù)集的大小,執(zhí)行模型并取所有的運行時間繪制成趨勢圖。

下面是源代碼及其運行結果

https://github.com/tirthajyoti/PythonMachineLearning/blob/master/Linear_Regression_Methods.ipynb)。

由于其簡單,即使多達1000萬個數(shù)據(jù)點,stats.linregress和簡單的矩陣求逆還是最快速的方法。

8種用Python實現(xiàn)線性回歸的方法,究竟哪個方法最高效?

簡單矩陣逆求解的方案更快

作為數(shù)據(jù)科學家,我們必須一直探索多種解決方案來對相同的任務進行分析和建模,并為特定問題選擇最佳方案。

在本文中,我們討論了8種簡單線性回歸的方法。大多數(shù)都可以擴展到更一般化的多元和多項式回歸建模中。

本文的目標主要是討論這些方法的相對運行速度和計算復雜度。我們在一個數(shù)據(jù)量持續(xù)增加的合成數(shù)據(jù)集(最多達1000萬個樣本)上進行測試,并給出每種方法的運算時間。

令人驚訝的是,與廣泛被使用的scikit-learnlinear_model相比,簡單矩陣的逆求解的方案反而更加快速。

我們還收集了項目代碼,大家可以到這里下載代碼并直接運行文中提到的8種方法喔:

https://github.com/tirthajyoti/PythonMachineLearning/blob/master/Linear_Regression_Methods.ipynb

英文原文地址:https://medium.freecodecamp.org/data-science-with-python-8-ways-to-do-linear-regression-and-measure-their-speed-b5577d75f8b

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • for循環(huán)在Python中的工作原理詳細

    for循環(huán)在Python中的工作原理詳細

    for...in 是Python程序員使用最多的語句,for 循環(huán)用于迭代容器對象中的元素,這些對象可以是列表、元組、字典、集合、文件,甚至可以是自定義類或者函數(shù),下面小編將舉例說明,需要的朋友可以參考下
    2021-10-10
  • python+tkinter實現(xiàn)一個簡單的秒鐘

    python+tkinter實現(xiàn)一個簡單的秒鐘

    這篇文章主要為大家詳細介紹了Python如何利用tkinter實現(xiàn)一個簡單的秒鐘,文中的示例代碼講解詳細,具有一定的參考價值,感興趣的小伙伴可以自己動手嘗試一下
    2024-02-02
  • Python字符串的一些操作方法總結

    Python字符串的一些操作方法總結

    在本文里小編給大家整理了關于Python字符串的一些操作方法和相關要點總結,有需要的朋友們可以學習下。
    2019-06-06
  • python循環(huán)控制之break和continue流程控制語句

    python循環(huán)控制之break和continue流程控制語句

    這篇文章主要介紹了python循環(huán)控制之break流程控制語句,Python中提供了兩個關鍵字用來控制循環(huán)語句,分別是break和continue,本文都有介紹,需要的朋友可以參考一下
    2022-03-03
  • Python實現(xiàn)批量生成,重命名和刪除word文件

    Python實現(xiàn)批量生成,重命名和刪除word文件

    這篇文章主要為大家詳細介紹了Python如何利用第三方庫實現(xiàn)批量生成、重命名和刪除word文件的功能,文中的示例代碼講解詳細,需要的可以參考一下
    2023-03-03
  • python友情鏈接檢查方法

    python友情鏈接檢查方法

    這篇文章主要介紹了python友情鏈接檢查方法,涉及Python讀取txt文件進行友鏈查詢的相關技巧,非常簡單實用,需要的朋友可以參考下
    2015-07-07
  • 使用Python實現(xiàn)數(shù)據(jù)庫文檔生成工具

    使用Python實現(xiàn)數(shù)據(jù)庫文檔生成工具

    這篇文章主要為大家詳細介紹了如何使用Python實現(xiàn)數(shù)據(jù)庫文檔生成工具,文中的示例代碼講解詳細,感興趣的小伙伴可以參考一下
    2024-04-04
  • Python中sorted()函數(shù)之排序的利器詳解

    Python中sorted()函數(shù)之排序的利器詳解

    sorted()函數(shù)是Python中的內置函數(shù),用于對可迭代對象進行排序,下面這篇文章主要給大家介紹了關于Python中sorted()函數(shù)之排序的相關資料,文中通過代碼介紹的非常詳細,需要的朋友可以參考下
    2024-08-08
  • 使用tkinter實現(xiàn)三子棋游戲

    使用tkinter實現(xiàn)三子棋游戲

    這篇文章主要為大家詳細介紹了使用tkinter實現(xiàn)三子棋游戲,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-02-02
  • 在matplotlib的圖中設置中文標簽的方法

    在matplotlib的圖中設置中文標簽的方法

    今天小編就為大家分享一篇在matplotlib的圖中設置中文標簽的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12

最新評論