【原】多因素回歸探討影響因素，推薦 “逐步回歸法” 嗎？

妙趣橫生統(tǒng)計(jì)學(xué) 2021-07-05

展開全文

答案是：

不太推薦！

很多人在多因素回歸時(shí)候，喜歡用逐步回歸法挑選自變量。我今天要來糾正下，不要覺得這種方法值得使用！

這篇推文，是初學(xué)者構(gòu)建回歸模型的下篇。在上一篇推文中，我介紹了，初學(xué)者可以先單后多構(gòu)建回歸模型，討論了單因素P值多大時(shí)候才被納入多因素回歸模型中。

我在之前文中說過，構(gòu)建回歸模型要“嚴(yán)進(jìn)嚴(yán)納”：嚴(yán)進(jìn)嚴(yán)納的方法基本理念是，即在納入自變量的時(shí)候需要嚴(yán)格納入，在排除自變量的時(shí)候，沒有多大意義的別放在最終模型中來。

嚴(yán)進(jìn)：合理的挑選自變量納入多因素回歸模型

嚴(yán)納：少留變量在最終模型，多淘汰一些變量出去。

怎么淘汰呢？今天我們就討論一下，逐步回歸法的應(yīng)用

一般來說，根據(jù)嚴(yán)進(jìn)嚴(yán)納的原則，就是開展回歸的自變量要少一些。在這種情況下，逐步回歸法就發(fā)揮了重要作用。

逐步回歸法一般分為三類

1）向前逐步：自變量從少到多放到模型中，尋找最少自變量，最佳的建模效果

2）向后逐步：自變量先全部放入回歸模型，再逐步剔除冗余自變量，尋找最少自變量，最佳的建模效果

3）雙向逐步：這類事向前向后的結(jié)合，在逐步增加變量時(shí)候，也在清洗在模型的自變量，尋找最少自變量個(gè)數(shù)，最佳建模效果。一般來說，雙向逐步效率最高，最推薦。

由于逐步回歸法在統(tǒng)計(jì)軟件中很容易實(shí)現(xiàn)，所以現(xiàn)在大量的中文學(xué)術(shù)論文采用了逐步回歸的方法開展自變量的篩選。

但是，醫(yī)學(xué)Top期刊，內(nèi)科學(xué)年鑒（Annals of Internal Medicine)的統(tǒng)計(jì)分析指南卻指出：

Authors should avoid stepwise methods of model building, except for the narrow application of hypothesis generation for subsequent studies. Stepwise methods include forward, backward, or combined procedures for the inclusion and exclusion of variables in a statistical model based on predetermined P value criteria. 這段英文翻譯過來就是應(yīng)該避免使用逐步回歸方法進(jìn)行多因素回歸。

這又是咋回事呢？大家在使用的逐步回歸法不建議用了？！我覺得倒也不是說逐步回歸法就不好用，而是應(yīng)該有選擇的用。

一、為什么不太推薦逐步回歸法？

回歸分析在醫(yī)學(xué)中扮演著兩大類的作用，一個(gè)是探討影響因素，另外一個(gè)是預(yù)測與分類。

我認(rèn)為，如果回歸用于構(gòu)建預(yù)測模型，那么逐步回歸法仍然是一種好方法。

如果是探討影響因素，無論是控制混雜，還是探討多影響因素，我不建議直接上馬逐步回歸方法。

最大的原因是，逐步回歸方法是一種沒有任何專業(yè)知識指導(dǎo)的數(shù)據(jù)驅(qū)動(dòng)自變量篩選方法。通俗來說，它就是胡搞，為建模而建模。

實(shí)際上我們建一個(gè)模型來探討影響因素時(shí)嗎，

（1）所建立的回歸模型成功構(gòu)建，不能因?yàn)樽宰兞窟^多而導(dǎo)致失??；

（2）所建立回歸模型不需要所有自變量都有統(tǒng)計(jì)學(xué)意義，因?yàn)檫@不是預(yù)測模型；

（3）所建立回歸模型中，關(guān)鍵指標(biāo)無論是否具有統(tǒng)計(jì)學(xué)意義，都應(yīng)該在模型中；

（4）所建立的模型，應(yīng)該認(rèn)真中介變量帶來的影響，可能要排除中介變量。；

（5）所建模型盡量避免多重共線性；

在上述5點(diǎn)中，（1）、（5）是逐步回歸法最大的存在理由，但是其它幾點(diǎn)起不到作用。

案例分析

若研究者對一組研究對象開展隊(duì)列研究，基線測量胰島素、基線血糖水平、隨訪病人是否患有糖尿病，2年后監(jiān)測其血糖水平，探討隨訪血糖的影響因素，其中，基線胰島素是我們想要分析的關(guān)鍵自變量。

如果我們對三個(gè)自變量（胰島素、基線血糖、糖尿?。┎捎弥鸩交貧w的方法，會怎么樣？

第二個(gè)模型是最終模型。我們發(fā)現(xiàn)胰島素這個(gè)變量沒有了，不在模型中了！那么該結(jié)果能夠說明胰島素對隨訪血糖沒有影響嗎？非但沒有胰島素，而且連這個(gè)變量都不存在了！那你還如何匯報(bào)結(jié)果？真的沒有影響嗎？

接下來，如果我們采用全部自變量納入的方法，把基線血糖和糖尿病放在一起分析。多因素回歸情況下，胰島素與隨訪血糖的線性關(guān)系也不存在（b=-0.008，P=0.872），而其他變量也并未受到太大的干擾！

所以，在自變量不多的時(shí)候，逐步回歸法很多時(shí)候不能給其它變量帶來額外收益，而且模型丟失了關(guān)鍵變量（哪怕沒有意義，它也應(yīng)該出現(xiàn)在模型，否則我們都沒法匯報(bào)了）。

那，逐步回歸法有啥優(yōu)勢？

（1）有人說，逐步回歸法可以結(jié)局冗余的自變量

其實(shí)，這不是好的解決辦法。冗余的自變量有兩套解決方案。第一，我們構(gòu)建回歸時(shí)候，在考慮哪些可能的影響因素時(shí)，就應(yīng)該慎重考慮，不是所有阿狗阿貓都作為候選自變量開展回歸分析，與結(jié)局變量“拉郎配”。

只有與結(jié)局變量可能存在著因果關(guān)系的變量，才推薦開展回歸分析。這一點(diǎn)，是需要從專業(yè)上去考慮的。

第二，在統(tǒng)計(jì)分析的時(shí)候，若自變量個(gè)數(shù)很多，在嚴(yán)進(jìn)的時(shí)候就卡關(guān)，不隨便納入自變量進(jìn)入最終的回歸模型。一般單因素分析P值較小者納入回歸模型。關(guān)于這一點(diǎn)，上一篇推文有所稱述。

回歸分析時(shí)，一定要單因素回歸P<0.05的自變量納入多因素回歸嗎？

（2）有人說，逐步回歸法可以處理多重共線性

很多時(shí)候，由于自變量存在著高度相關(guān)。這個(gè)時(shí)候，連教科書都推薦試試逐步回歸法呀！

這種做法其實(shí)很要命！這是一種完全無視數(shù)據(jù)特點(diǎn)，強(qiáng)行胡亂進(jìn)行自變量篩選的一種方法。

為什么有多重共線性？多重共線性往往由于變量之間存在著關(guān)聯(lián)性，這種關(guān)聯(lián)性有幾種情況：

第一，這個(gè)變量是混雜變量，由于混雜變量與自變量相關(guān)，所以造成部分共線性

第二，這個(gè)變量是中介變量，中介變量也會造成自變量相關(guān)

第三，變量是同個(gè)東西。比如年齡這一定量變量和根據(jù)年齡進(jìn)行分組產(chǎn)生年齡的等級變量，那么原先的年齡定量數(shù)據(jù)和等級變量的年齡就是高度相關(guān)，如果它們一同納入模型，就會造成共線性

第四，一個(gè)事物的兩個(gè)屬性，比如身高與坐高，相關(guān)高度相關(guān)，如果，如果他們一同納入模型，就會造成共線性

實(shí)際上，除了第一點(diǎn)之外，我們在處理多重共線性時(shí)，典型的方法是排除造成多重共線性的變量。比如身高坐高在回歸分析應(yīng)該2選1，定量年齡和分類年齡應(yīng)該2選1，中介變量不能納入模型。

逐步回歸法解決不了真正復(fù)雜的多重共線性，但會給你一種假象：我用了逐步回歸法，所以我的結(jié)果很可靠！實(shí)際上，當(dāng)你忽視自變量之間的關(guān)系屬性而直接應(yīng)用逐步回歸法，統(tǒng)計(jì)分析結(jié)果結(jié)果不太會好看。

所以這么說來，逐步回歸法在回歸模型探討影響因素的過程中，都不是主要的策略。

（1）所建立的回歸模型要能夠成功構(gòu)建，不能因?yàn)樽宰兞窟^多而導(dǎo)致失敗（逐步法不是主要策略）

（2）所建立回歸模型不需要所有自變量都有統(tǒng)計(jì)學(xué)意義，因?yàn)檫@不是預(yù)測模型（不需要逐步法）

（3）所建立回歸模型中，關(guān)鍵指標(biāo)無論是否具有統(tǒng)計(jì)學(xué)意義，都應(yīng)該在模型中（不應(yīng)該逐步法）。

（4）所建立的模型，應(yīng)該認(rèn)真中介變量帶來的影響，可能要排除中介變量（應(yīng)該人為剔除中介變量，或者采用中介分析）。

（5）所建模型盡量避免多重共線性（更推薦人為剔除造成多重共線性的變量）。

總結(jié)來說，我們構(gòu)建模型時(shí)候，要避免隨意納入變量，隨意用逐步回歸法淘汰變量。統(tǒng)計(jì)軟件只是輔助我們計(jì)算結(jié)果，必須執(zhí)有正確的統(tǒng)計(jì)假設(shè)、統(tǒng)計(jì)思路、才能科學(xué)地構(gòu)建回歸模型。否則，只會Garbage in, Garbage out！

二、嚴(yán)進(jìn)嚴(yán)納的三種策略

現(xiàn)在結(jié)合上一篇推文：回歸分析時(shí)，一定要單因素回歸P<0.05的自變量納入多因素回歸嗎？我來簡單介紹下，如何利用嚴(yán)進(jìn)嚴(yán)納的原則，構(gòu)建回歸模型。

嚴(yán)進(jìn)：合理的挑選自變量納入多因素回歸模型

嚴(yán)納：少留變量在最終模型，多淘汰一些變量出去。

那么嚴(yán)進(jìn)嚴(yán)納結(jié)合起來怎么開展自變量篩選呢？有以下策略可供參考：

①多因素一次性納入所有變量---全變量納入法，也不淘汰。這種情況是自變量不多、樣本量足夠大所采取的的策略。此時(shí)，回歸分析不懼怕自變量多而模型構(gòu)建失敗。

②在大部分情況下，可以只“嚴(yán)進(jìn)”，而不采用逐步回歸法。該策略是較多自變量場合下使用的策略（比如10個(gè)自變量以上）?！皣?yán)進(jìn)”的基本措施是，先做單因素分析，然后將單因素分析P值較小者挑選出來開展多因素回歸。一般情況下，P值小于0.2或者小于0.05的自變量個(gè)數(shù)是不多的，因此不需要接下來開展逐步回歸法進(jìn)行“嚴(yán)納”的步驟。

③嚴(yán)進(jìn)嚴(yán)納。如果您的研究自變量是非常多，五六十個(gè)甚至上百個(gè)，首先必須執(zhí)行“嚴(yán)進(jìn)”：一般推薦，P值較小的納入，即單因素回歸P值較小的自變量納入分析；但可能P值較小的自變量也太多，那么可以考慮采用逐步回歸法進(jìn)行“嚴(yán)納”。這種情況是自變量實(shí)在太多了，“嚴(yán)納”方法會有誤傷，但是也能接受。不過這種情況發(fā)生的可能性太小，因?yàn)槲也毁澇砂堰^多的自變量納入回歸開展分析，成百個(gè)自自變量的回歸分析，這種回歸模型也是個(gè)“Garbage”。