【原】缺失值的處理：多重插補(bǔ)

Memo_Cleon 2022-04-04

展開全文

數(shù)據(jù)缺失絕對(duì)是統(tǒng)計(jì)分析中最為常見的問題之一，我們卻常常選擇了忽視。最常見的做法莫過于直接把數(shù)據(jù)導(dǎo)入軟件進(jìn)行分析，可是大多數(shù)統(tǒng)計(jì)模型會(huì)直接忽略有缺失值的記錄，相當(dāng)于在分析前先行對(duì)缺失值進(jìn)行列表刪除。當(dāng)缺失值比較多的時(shí)候，這種做法會(huì)丟失大量的信息，如果缺失是非完全隨機(jī)的，還有可能帶來錯(cuò)誤的結(jié)論。

數(shù)據(jù)缺失機(jī)制：完全隨機(jī)缺失（Missing Completely At Random，MCAR）、隨機(jī)缺失（Missing At Random，MAR）、非隨機(jī)缺失（Missing At Non-Random，MANR）。

MCAR是指數(shù)據(jù)的缺失是完全隨機(jī)的，和變量自身或者其他變量的取值無關(guān)，實(shí)際中極為少見。MAR是指缺失值的丟失與本變量無關(guān)，而與數(shù)據(jù)集中其他（部分）變量有關(guān)。MANR是指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān)，也和自身取值有關(guān)。

缺失值的處理方法：（1）刪除；（2）單獨(dú)成組分析；（3）填充。

大多數(shù)統(tǒng)計(jì)模型并不能對(duì)含有缺失值的數(shù)據(jù)進(jìn)行直接分析，一般會(huì)把缺失值直接進(jìn)行刪除。SPSS里面一般會(huì)在選項(xiàng)里面提供兩種刪除方法，Excludes Cases Analysis by Analysis（按具體分析的個(gè)案分析排除）和Excludes Cases Listwise（按個(gè)案列表排除）。Excludes Cases Analysis by Analysis是指只刪除具體分析中涉及到的缺失值，Excludes Cases Listwise是指將存在缺失值的整個(gè)記錄刪除。如果是MCAR，直接將缺失值進(jìn)行刪除或者采用均值進(jìn)行替換，不會(huì)存在問題。但現(xiàn)實(shí)當(dāng)中MCAR非常少見，這種直接的暴力刪除可能會(huì)導(dǎo)致有偏估計(jì)甚至錯(cuò)誤的結(jié)論。

在有的分析方法中還會(huì)提供報(bào)告值（Report Values），指的是將缺失值作為一個(gè)單獨(dú)的類別進(jìn)行描述和分析。

缺失值填充的方法有很多，簡(jiǎn)單如直接用均值、眾數(shù)進(jìn)行填充，稍微復(fù)雜一些的如回歸填充、最大期望（Expectation-Maximization，EM）、多重插補(bǔ)（Multiple Imputation，MI）等。這里的Imputation其實(shí)就是估算的意思，不知道為什么翻譯成了插補(bǔ)。。

此次筆記示例的是多重插補(bǔ)來填充缺失值。邏輯上，多重插補(bǔ)大致有三個(gè)步驟：（1）估算填充值：產(chǎn)生系列填充值對(duì)缺失值進(jìn)行填充；（2）分析：對(duì)每個(gè)填充好的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析；（3）合并結(jié)果：對(duì)第(2)步中的一系列結(jié)果進(jìn)行綜合。

示例來自一個(gè)虛構(gòu)的病例對(duì)照研究，該研究用于研究吸煙與心臟病發(fā)作之間的關(guān)系（STATA 16幫助文件）。變量如下：Attack（心臟病發(fā)作）、Femal（是否女性）、Age（年齡）、BMI（體質(zhì)指數(shù)）、MarStatus（婚姻狀態(tài)，1=單身，2=結(jié)婚，3=離異）、HSGrad（是否高中畢業(yè)）、Alcohol（飲酒，0=不飲酒，1每天<=2次，2=每天2次或2次以上）、HighTar（是否抽高焦油香煙）。

去掉原數(shù)據(jù)庫(kù)中的缺失值作為本次示例的原始數(shù)據(jù)（132例），然后隨機(jī)刪除5條記錄的年齡值（Age）、20條記錄的飲酒情況（Alcohol）、12條離異狀態(tài)記錄的的婚姻狀態(tài)（MarStatus）、5條70歲以上的+10條60-70歲的BMI記錄（BMI）、10條高中未畢業(yè)的焦油含量（HighTar）記錄。這樣以來我們構(gòu)建的缺失數(shù)據(jù)類型就涵蓋了MCAR（Age、Alcohol）、MAR（BMI、HighTar）和MANR（MarStatus）?？紤]到吸煙和高焦油香煙相關(guān)性，本次示例我們僅利用Attack、Femal、Age、BMI、MarStatus、HSGrad、Alcohol和Smoker這8個(gè)變量。

我們先看一下利用原始的132例進(jìn)行二分類的logistic回歸擬合結(jié)果：

這個(gè)結(jié)果可以當(dāng)成最佳的對(duì)照結(jié)果，后面我們填充后的數(shù)據(jù)建模結(jié)果也可以此比較。由于數(shù)據(jù)為虛擬的，大家不要太在意專業(yè)結(jié)論，比如飲酒是心臟病發(fā)作的保護(hù)因素，雖然沒有統(tǒng)計(jì)學(xué)意義。

缺失模型分析

Analyze >> Multiple Imputation >> Analyze Patterns...

缺失值的總體摘要：分別從變量、個(gè)案和值三個(gè)方面用餅圖顯示數(shù)據(jù)的缺失值。本例分析了8個(gè)變量，其中4個(gè)變量存在缺失；132條記錄中33條存在缺失；所有取值中有52個(gè)存在缺失。平均而言，每個(gè)具有缺失值的個(gè)案大約有 1.6 個(gè)（52/33）變量存在缺失值，如果直接按列表刪除會(huì)丟失大量的信息。

變量摘要：默認(rèn)輸出至少有10%缺失值的變量，并顯示這些變量的缺失值數(shù)量和百分比。如果想顯示更多變量的摘要情況可在前面的模式分析對(duì)話框中進(jìn)行修改。

缺失值模式圖：每個(gè)模式對(duì)應(yīng)的是一組具有相同的不完整和完整數(shù)據(jù)個(gè)案集合。比如模式1代表的是沒有缺失值的個(gè)案，而模式2 表示婚姻狀態(tài)上有缺失值的個(gè)案，模式9表示在年齡、BMI和飲酒上存在缺失的個(gè)案。

該圖中對(duì)缺失模型和分析變量的排序是有要求的，模式按非缺失值到有缺失值排列，變量按缺失值的遞增順序從左到右排序?？梢砸源伺袛嗍欠窨梢圆捎脝握{(diào)插補(bǔ)法來填充缺失值（多重插補(bǔ)缺失值估計(jì)的一種方法），如果數(shù)據(jù)是單調(diào)的，那么圖中所有缺失的單元格和非缺失的單元格都是連續(xù)的，即圖表的右下部分不會(huì)有孤立的非缺失單元格，而在左上角也不會(huì)出現(xiàn)孤立的缺失單元格。如果數(shù)據(jù)集是非單調(diào)的需要估算更多的值。

缺失值模式的個(gè)案百分比：結(jié)果顯示數(shù)據(jù)集中超70%的個(gè)案具有模式 1，結(jié)合上面的缺失值模式圖，模式1是沒有缺失值的個(gè)案。模式5表示飲酒缺失值的個(gè)案，是單變量缺失。接下來4和2分別表示婚姻狀態(tài)+BMI缺失和婚姻狀態(tài)缺失模型，其中模式4是多變量缺失。

設(shè)置種子

多重插補(bǔ)的算法具有隨機(jī)性，為了使結(jié)果具有可重復(fù)性?？梢栽跀?shù)據(jù)插補(bǔ)前設(shè)置種子。

Transform >> Random Number Generators...

選中設(shè)置激活生成器，選擇Mersenne Twister；選擇設(shè)置起始點(diǎn)，選中固定值，輸入20220403；OK。

多重插補(bǔ)

Analyze >> Multiple Imputation >> Impute Missing Data Values...

將要分析的8個(gè)變量放入模型變量框，插補(bǔ)后數(shù)據(jù)框命名為MI_Data，選中填充后的描述統(tǒng)計(jì)，其他默認(rèn)。方法部門的介紹可參見結(jié)果部分，約束條件可以從專業(yè)方面定義哪些變量作為預(yù)測(cè)變量用來預(yù)測(cè)填充變量。

插補(bǔ)估算的一些具體說明，可以確定我們的設(shè)置是否合適。

插補(bǔ)結(jié)果：本例采用的缺失值估算方法是默認(rèn)的自動(dòng)，實(shí)際采用的是全條件定義(fully conditional specification, FCS)多重插補(bǔ)策略對(duì)缺失后的數(shù)據(jù)集進(jìn)行處理。FCS也被稱為通過鏈?zhǔn)椒匠踢M(jìn)行的多重插補(bǔ)（Multiple Immutation by Chained Equations，MICE）或順序回歸多重填充（Sequential Regression Multiple Immutation）。在多重插補(bǔ)對(duì)話框【方法】選項(xiàng)卡中默認(rèn)的是[自動(dòng)]，自定義中有FCS和單調(diào)插補(bǔ)法，連續(xù)變量的模型類型為線性回歸或者預(yù)測(cè)均值匹配（Predictive Mean Matching，PMM）。本例需要進(jìn)行估算缺失值的變量有Age、BMI、MarStatus、Alcohol，插補(bǔ)順序?yàn)槿笔Ｊ綀D中橫坐標(biāo)變量的順序，預(yù)測(cè)變量為Attack、Smoker、Female、HSGrad、Age、MarStatus、BMI、Alcohol。

插補(bǔ)模型：提供了如何估算每個(gè)缺失變量的更多詳細(xì)信息，變量按插補(bǔ)序列順序列出，每個(gè)模型都使用其他所有變量作為預(yù)測(cè)因素，尺度變量用線性回歸建模預(yù)測(cè)，分類變量用邏輯回歸建模預(yù)測(cè)。結(jié)果中同時(shí)報(bào)告了缺失變量的缺失值數(shù)，以及為該變量估算的總個(gè)數(shù)（缺失數(shù)×估算數(shù)）。

描述性統(tǒng)計(jì)量：分別輸出缺失變量的原數(shù)據(jù)、插補(bǔ)數(shù)據(jù)及插補(bǔ)后數(shù)據(jù)的信息，連續(xù)變量輸出樣本量、均值、標(biāo)準(zhǔn)差、最大值和最小值，分類變量輸出的是個(gè)水平的樣本量及百分比。本例輸出缺失變量Age、BMI、MarStatus、Alcohol的信息。以Age和MarStatus為例，信息如下：

多重插補(bǔ)后數(shù)據(jù)建模分析

插補(bǔ)缺失值只是一個(gè)過程，我們的最終目的是對(duì)插補(bǔ)后的數(shù)據(jù)進(jìn)行分析。插補(bǔ)后的數(shù)據(jù)集增加了一個(gè)名稱為Imputation_的變量和一個(gè)“窗口”的圖標(biāo)，用于用于指示原始數(shù)據(jù)集和用不同值來填充缺失值后的數(shù)據(jù)集。在插補(bǔ)后的數(shù)據(jù)集中，菜單中很多分析過程圖標(biāo)增加了一個(gè)旋風(fēng)標(biāo)記，如線性回歸、logistic回歸等，這些過程可直接用于填充后的數(shù)據(jù)分析。本例分析的是吸煙對(duì)心臟病發(fā)作的影響，其他幾個(gè)因素作為校正。

Analyze >> Regression> >Binary Logistic...

具體操作就是一個(gè)簡(jiǎn)單的二分類logistic回歸，過程如下：

結(jié)果會(huì)依次顯示個(gè)案處理摘要、因變量編碼、分類變量編碼以及擬合過程的一些信息，具體解讀可參見《因變量二分類資料的logistic回歸》。

我們僅展示最后的回歸系數(shù)表，結(jié)果顯示采用原數(shù)據(jù)（不進(jìn)行缺失值填充，列表刪除）、5次不同填充數(shù)據(jù)的分析結(jié)果以及5次填充數(shù)據(jù)合并分析（Pooled Parameter Estimates）結(jié)果。與構(gòu)建缺失數(shù)據(jù)前的原始數(shù)據(jù)構(gòu)建的對(duì)照模型相比，有些變量如飲酒表現(xiàn)的并不是很好，可能需要我們?cè)跇?gòu)建模型時(shí)需要充分考慮變量間的關(guān)系，當(dāng)然我們不能事后諸葛亮，現(xiàn)實(shí)當(dāng)中我們是沒法知道數(shù)據(jù)缺失前本來的面貌的。不過從統(tǒng)計(jì)學(xué)意義上看，結(jié)果具有一致性。再次提醒本示例為虛擬數(shù)據(jù)，不要太在意不合常理的專業(yè)結(jié)論。

表格中有三個(gè)額外的參數(shù)提供了合并分析結(jié)果的更多信息。缺失信息的比例（Fraction Missing Info.）是缺失信息與“完整”信息之比的估計(jì)值，基于由于不能存在該變量時(shí)導(dǎo)致的相對(duì)增加方差（Relative Increase Variance），即回歸系數(shù)的插補(bǔ)間方差與平均插補(bǔ)內(nèi)方差的修正比值。相對(duì)效率（Relative Efficiency）是目前的填充估計(jì)結(jié)果與使用無限數(shù)量的插補(bǔ)計(jì)算的（理論上的最大值）估計(jì)的比值，其由缺失信息的比例和獲得合并結(jié)果的插補(bǔ)次數(shù)來決定，值越接近1表示填充效果越好，本例表現(xiàn)甚好。當(dāng)缺失信息的比例很大時(shí)，需要進(jìn)行更多的插補(bǔ)，以使合并估計(jì)更接近理想化估計(jì)。

最后的這個(gè)參數(shù)估計(jì)表是如此之大以至于查看起來非常不方面，Pivoting Trays可以提供一些有用的幫助，該功能類似于excel中的透視表。雙擊表格進(jìn)入編輯模型，右鍵單擊選中復(fù)選框Pivoting Trays，將插補(bǔ)號(hào)(Imputation Number)或/和變量(Variable)或/和統(tǒng)計(jì)量(Statistics)拖入到層即可！

這樣我們就可以像excel中的透視表那樣快速查看原始數(shù)據(jù)、任何一次的插補(bǔ)及最終的合并的結(jié)果了。比如我們就可以快速查看系數(shù)估計(jì)值在不同插補(bǔ)回歸之間的變化，也可以查看多重插補(bǔ)如何降低系數(shù)估計(jì)值與列表刪除（原始數(shù)據(jù)）的變異性。

贊賞

共11人贊賞

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

【原】缺失值的處理：多重插補(bǔ)