線性迴歸(Linear regression)是一種基礎的統計和機器學習方法,用來分析和理解一個或多個自變數與一個因變數之間的關係。本文將解釋什麼是線性迴歸、它是如何運作的、它依賴哪些假設,以及在什麼情況下適合或不適合使用。
什麼是線性迴歸?
簡單來說,線性迴歸就是擬合一條直線(或多維平面),用來描述輸入變數(自變數)變化時,對輸出變數(因變數)的影響。如果只有一個自變量,就是簡單線性迴歸;如果有多個自變量,就是多元線性迴歸。
線性迴歸的主要假設有哪些?
為了讓線性迴歸的統計推論和預測結果有效,它依賴以下假設:
線性關係:自變數和因變數之間的關係是線性的。
誤差獨立:殘差(預測誤差)之間相互獨立。
變異數相等:殘差在不同自變數取值範圍內具有相同的變異數。
殘差常態分佈:殘差大致符合常態分佈。
(有時)無多重共線性:自變數之間不能高度相關。
如何建立線性迴歸並理解結果?
建立模型的過程包括估計係數(斜率和截距),通常使用最小平方法(使殘差平方和最小)。
解釋時,斜率表示自變數每變化一個單位,因變數平均變化多少;截距表示當自變數為零時,因變數的預測值。模型的適配程度可以用R²來衡量。之後可以透過分析殘差來檢查假設是否被破壞。
什麼時候線性迴歸有用,什麼時候不適合?
適合使用的情況:當變數之間大致呈線性關係、自變數是連續的或經過適當編碼、以及你想了解變數之間的影響關係。
不適合的情況:當關係明顯是非線性的(除非你對變數做轉換或使用更複雜的模型)、當殘差嚴重違反假設、當有極端值(離群點)影響模型、或當自變數之間高度相關導致係數不穩定。此外,超出資料範圍的預測也不可靠。
結論
線性迴歸理論簡單,但在實際應用上非常有用。它能幫助你量化變數之間的關係並進行預測,但效果取決於是否滿足假設以及你對模型的理解。正確使用時,它是最強大、最常用的資料分析工具之一。使用線性迴歸前,記得檢查假設、視覺化數據,並謹慎解讀結果。





















