免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

缺失值的處理:多重插補(bǔ)

 Memo_Cleon 2022-04-04

數(shù)據(jù)缺失絕對(duì)是統(tǒng)計(jì)分析中最為常見的問題之一,我們卻常常選擇了忽視。最常見的做法莫過于直接把數(shù)據(jù)導(dǎo)入軟件進(jìn)行分析,可是大多數(shù)統(tǒng)計(jì)模型會(huì)直接忽略有缺失值的記錄,相當(dāng)于在分析前先行對(duì)缺失值進(jìn)行列表刪除。當(dāng)缺失值比較多的時(shí)候,這種做法會(huì)丟失大量的信息,如果缺失是非完全隨機(jī)的,還有可能帶來錯(cuò)誤的結(jié)論。

數(shù)據(jù)缺失機(jī)制:完全隨機(jī)缺失(Missing Completely At RandomMCAR)、隨機(jī)缺失(Missing At RandomMAR)、非隨機(jī)缺失(Missing At Non-RandomMANR)。
MCAR是指數(shù)據(jù)的缺失是完全隨機(jī)的,和變量自身或者其他變量的取值無關(guān),實(shí)際中極為少見。MAR是指缺失值的丟失與本變量無關(guān),而與數(shù)據(jù)集中其他(部分)變量有關(guān)。MANR是指數(shù)據(jù)的缺失不僅與其他變量的取值有關(guān),也和自身取值有關(guān)。
缺失值的處理方法:1刪除;(2)單獨(dú)成組分析;(3填充。
大多數(shù)統(tǒng)計(jì)模型并不能對(duì)含有缺失值的數(shù)據(jù)進(jìn)行直接分析,一般會(huì)把缺失值直接進(jìn)行刪除。SPSS里面一般會(huì)在選項(xiàng)里面提供兩種刪除方法,Excludes Cases Analysis by Analysis(按具體分析的個(gè)案分析排除)和Excludes Cases Listwise(按個(gè)案列表排除)。Excludes Cases Analysis by Analysis是指只刪除具體分析中涉及到的缺失值,Excludes Cases Listwise是指將存在缺失值的整個(gè)記錄刪除。如果是MCAR,直接將缺失值進(jìn)行刪除或者采用均值進(jìn)行替換,不會(huì)存在問題。但現(xiàn)實(shí)當(dāng)中MCAR非常少見,這種直接的暴力刪除可能會(huì)導(dǎo)致有偏估計(jì)甚至錯(cuò)誤的結(jié)論。
在有的分析方法中還會(huì)提供報(bào)告值(Report Values),指的是將缺失值作為一個(gè)單獨(dú)的類別進(jìn)行描述和分析。
缺失值填充的方法有很多,簡(jiǎn)單如直接用均值、眾數(shù)進(jìn)行填充,稍微復(fù)雜一些的如回歸填充最大期望(Expectation-Maximization,EM多重插補(bǔ)(Multiple Imputation,MI等。這里的Imputation其實(shí)就是估算的意思,不知道為什么翻譯成了插補(bǔ)。。
此次筆記示例的是多重插補(bǔ)來填充缺失值。邏輯上,多重插補(bǔ)大致有三個(gè)步驟:(1)估算填充值:產(chǎn)生系列填充值對(duì)缺失值進(jìn)行填充;(2)分析:對(duì)每個(gè)填充好的數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析;(3)合并結(jié)果:對(duì)第(2)步中的一系列結(jié)果進(jìn)行綜合。
示例來自一個(gè)虛構(gòu)的病例對(duì)照研究,該研究用于研究吸煙與心臟病發(fā)作之間的關(guān)系(STATA 16幫助文件)。變量如下:Attack(心臟病發(fā)作)、Femal(是否女性)、Age(年齡)、BMI(體質(zhì)指數(shù))、MarStatus(婚姻狀態(tài),1=單身,2=結(jié)婚,3=離異)、HSGrad(是否高中畢業(yè))、Alcohol(飲酒,0=不飲酒,1每天<=2次,2=每天2次或2次以上)、HighTar(是否抽高焦油香煙)。
去掉原數(shù)據(jù)庫(kù)中的缺失值作為本次示例的原始數(shù)據(jù)(132例),然后隨機(jī)刪除5條記錄的年齡值(Age)、20條記錄的飲酒情況(Alcohol)、12條離異狀態(tài)記錄的的婚姻狀態(tài)(MarStatus)、570歲以上的+1060-70歲的BMI記錄(BMI)、10條高中未畢業(yè)的焦油含量(HighTar)記錄。這樣以來我們構(gòu)建的缺失數(shù)據(jù)類型就涵蓋了MCARAgeAlcohol)、MARBMI、HighTar)和MANRMarStatus)??紤]到吸煙和高焦油香煙相關(guān)性,本次示例我們僅利用Attack、Femal、Age、BMI、MarStatus、HSGradAlcoholSmoker8個(gè)變量。
我們先看一下利用原始的132例進(jìn)行二分類的logistic回歸擬合結(jié)果:

這個(gè)結(jié)果可以當(dāng)成最佳的對(duì)照結(jié)果,后面我們填充后的數(shù)據(jù)建模結(jié)果也可以此比較。由于數(shù)據(jù)為虛擬的,大家不要太在意專業(yè)結(jié)論,比如飲酒是心臟病發(fā)作的保護(hù)因素,雖然沒有統(tǒng)計(jì)學(xué)意義。

缺失模型分析

Analyze >> Multiple Imputation >> Analyze Patterns...


缺失值的總體摘要:分別從變量、個(gè)案和值三個(gè)方面用餅圖顯示數(shù)據(jù)的缺失值。本例分析了8個(gè)變量,其中4個(gè)變量存在缺失;132條記錄中33條存在缺失;所有取值中有52個(gè)存在缺失。平均而言,每個(gè)具有缺失值的個(gè)案大約有 1.6 個(gè)(52/33)變量存在缺失值,如果直接按列表刪除會(huì)丟失大量的信息。

變量摘要:默認(rèn)輸出至少有10%缺失值的變量,并顯示這些變量的缺失值數(shù)量和百分比。如果想顯示更多變量的摘要情況可在前面的模式分析對(duì)話框中進(jìn)行修改。

缺失值模式圖:每個(gè)模式對(duì)應(yīng)的是一組具有相同的不完整和完整數(shù)據(jù)個(gè)案集合。比如模式1代表的是沒有缺失值的個(gè)案,而模式2 表示婚姻狀態(tài)上有缺失值的個(gè)案,模式9表示在年齡、BMI和飲酒上存在缺失的個(gè)案。

該圖中對(duì)缺失模型和分析變量的排序是有要求的,模式按非缺失值到有缺失值排列,變量按缺失值的遞增順序從左到右排序??梢砸源伺袛嗍欠窨梢圆捎脝握{(diào)插補(bǔ)法來填充缺失值(多重插補(bǔ)缺失值估計(jì)的一種方法),如果數(shù)據(jù)是單調(diào)的,那么圖中所有缺失的單元格和非缺失的單元格都是連續(xù)的,即圖表的右下部分不會(huì)有孤立的非缺失單元格,而在左上角也不會(huì)出現(xiàn)孤立的缺失單元格。如果數(shù)據(jù)集是非單調(diào)的需要估算更多的值。

缺失值模式的個(gè)案百分比:結(jié)果顯示數(shù)據(jù)集中超70%的個(gè)案具有模式 1,結(jié)合上面的缺失值模式圖,模式1是沒有缺失值的個(gè)案。模式5表示飲酒缺失值的個(gè)案,是單變量缺失。接下來42分別表示婚姻狀態(tài)+BMI缺失和婚姻狀態(tài)缺失模型,其中模式4是多變量缺失。
設(shè)置種子
多重插補(bǔ)的算法具有隨機(jī)性,為了使結(jié)果具有可重復(fù)性??梢栽跀?shù)據(jù)插補(bǔ)前設(shè)置種子。
Transform >> Random Number Generators...
選中設(shè)置激活生成器,選擇Mersenne Twister;選擇設(shè)置起始點(diǎn),選中固定值,輸入20220403;OK。
多重插補(bǔ)

Analyze >> Multiple Imputation >> Impute Missing Data Values...

將要分析8個(gè)變量放入模型變量框,插補(bǔ)后數(shù)據(jù)框命名為MI_Data,選中填充后的描述統(tǒng)計(jì),其他默認(rèn)。方法部門的介紹可參見結(jié)果部分,約束條件可以從專業(yè)方面定義哪些變量作為預(yù)測(cè)變量用來預(yù)測(cè)填充變量。

插補(bǔ)估算的一些具體說明,可以確定我們的設(shè)置是否合適。

插補(bǔ)結(jié)果:本例采用的缺失值估算方法是默認(rèn)的自動(dòng),實(shí)際采用的是全條件定義(fully conditional specification, FCS)多重插補(bǔ)策略對(duì)缺失后的數(shù)據(jù)集進(jìn)行處理。FCS也被稱為通過鏈?zhǔn)椒匠踢M(jìn)行的多重插補(bǔ)(Multiple Immutation by Chained EquationsMICE)或順序回歸多重填充(Sequential Regression Multiple Immutation)。在多重插補(bǔ)對(duì)話框【方法】選項(xiàng)卡中默認(rèn)的是[自動(dòng)],自定義中有FCS和單調(diào)插補(bǔ)法,連續(xù)變量的模型類型為線性回歸或者預(yù)測(cè)均值匹配(Predictive Mean Matching,PMM)。本例需要進(jìn)行估算缺失值的變量有Age、BMIMarStatus、Alcohol,插補(bǔ)順序?yàn)槿笔J綀D中橫坐標(biāo)變量的順序,預(yù)測(cè)變量為Attack、Smoker、FemaleHSGrad、AgeMarStatus、BMIAlcohol。

插補(bǔ)模型:提供了如何估算每個(gè)缺失變量的更多詳細(xì)信息,變量按插補(bǔ)序列順序列出,每個(gè)模型都使用其他所有變量作為預(yù)測(cè)因素,尺度變量用線性回歸建模預(yù)測(cè),分類變量用邏輯回歸建模預(yù)測(cè)。結(jié)果中同時(shí)報(bào)告了缺失變量的缺失值數(shù),以及為該變量估算的總個(gè)數(shù)(缺失數(shù)×估算數(shù))。

描述性統(tǒng)計(jì)量:分別輸出缺失變量的原數(shù)據(jù)、插補(bǔ)數(shù)據(jù)及插補(bǔ)后數(shù)據(jù)的信息,連續(xù)變量輸出樣本量、均值、標(biāo)準(zhǔn)差、最大值和最小值,分類變量輸出的是個(gè)水平的樣本量及百分比。本例輸出缺失變量AgeBMI、MarStatus、Alcohol的信息。以AgeMarStatus為例,信息如下:

多重插補(bǔ)后數(shù)據(jù)建模分析

插補(bǔ)缺失值只是一個(gè)過程,我們的最終目的是對(duì)插補(bǔ)后的數(shù)據(jù)進(jìn)行分析。插補(bǔ)后的數(shù)據(jù)集增加了一個(gè)名稱為Imputation_的變量和一個(gè)“窗口”的圖標(biāo),用于用于指示原始數(shù)據(jù)集和用不同值來填充缺失值后的數(shù)據(jù)集。在插補(bǔ)后的數(shù)據(jù)集中,菜單中很多分析過程圖標(biāo)增加了一個(gè)旋風(fēng)標(biāo)記,如線性回歸、logistic回歸等,這些過程可直接用于填充后的數(shù)據(jù)分析。本例分析的是吸煙對(duì)心臟病發(fā)作的影響,其他幾個(gè)因素作為校正。

Analyze >> Regression> >Binary Logistic...
具體操作就是一個(gè)簡(jiǎn)單的二分類logistic回歸,過程如下:

結(jié)果會(huì)依次顯示個(gè)案處理摘要、因變量編碼、分類變量編碼以及擬合過程的一些信息,具體解讀可參見《因變量二分類資料的logistic回歸》。
我們僅展示最后的回歸系數(shù)表,結(jié)果顯示采用原數(shù)據(jù)(不進(jìn)行缺失值填充,列表刪除)、5次不同填充數(shù)據(jù)的分析結(jié)果以及5次填充數(shù)據(jù)合并分析(Pooled Parameter Estimates)結(jié)果。與構(gòu)建缺失數(shù)據(jù)前的原始數(shù)據(jù)構(gòu)建的對(duì)照模型相比,有些變量如飲酒表現(xiàn)的并不是很好,可能需要我們?cè)跇?gòu)建模型時(shí)需要充分考慮變量間的關(guān)系,當(dāng)然我們不能事后諸葛亮,現(xiàn)實(shí)當(dāng)中我們是沒法知道數(shù)據(jù)缺失前本來的面貌的。不過從統(tǒng)計(jì)學(xué)意義上看,結(jié)果具有一致性。再次提醒本示例為虛擬數(shù)據(jù),不要太在意不合常理的專業(yè)結(jié)論。

表格中有三個(gè)額外的參數(shù)提供了合并分析結(jié)果的更多信息。 缺失信息的比例Fraction Missing Info.)是缺失信息與完整信息之比的估計(jì)值,基于由于不能存在該變量時(shí)導(dǎo)致的相對(duì)增加方差(Relative Increase Variance),即回歸系數(shù)的插補(bǔ)間方差與平均插補(bǔ)內(nèi)方差的修正比值。相對(duì)效率(Relative Efficiency)是目前的填充估計(jì)結(jié)果與使用無限數(shù)量的插補(bǔ)計(jì)算的(理論上的最大值)估計(jì)的比值,其由缺失信息的比例和獲得合并結(jié)果的插補(bǔ)次數(shù)來決定,值越接近1表示填充效果越好,本例表現(xiàn)甚好。當(dāng)缺失信息的比例很大時(shí),需要進(jìn)行更多的插補(bǔ),以使合并估計(jì)更接近理想化估計(jì)。

最后的這個(gè)參數(shù)估計(jì)表是如此之大以至于查看起來非常不方面,Pivoting Trays可以提供一些有用的幫助,該功能類似于excel中的透視表。雙擊表格進(jìn)入編輯模型,右鍵單擊選中復(fù)選框Pivoting Trays,將插補(bǔ)號(hào)(Imputation Number)/變量(Variable)/統(tǒng)計(jì)量(Statistics)拖入到層即可!

這樣我們就可以像excel中的透視表那樣快速查看原始數(shù)據(jù)、任何一次的插補(bǔ)及最終的合并的結(jié)果了。比如我們就可以快速查看系數(shù)估計(jì)值在不同插補(bǔ)回歸之間的變化,也可以查看多重插補(bǔ)如何降低系數(shù)估計(jì)值與列表刪除(原始數(shù)據(jù))的變異性。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多