背景隨著臨床試驗的發(fā)展,對缺失數(shù)據(jù)進行處理已經(jīng)成為臨床研究數(shù)據(jù)分析階段中無法避免的問題之一。當(dāng)缺失數(shù)據(jù)的比例較少(<5%)或較大(>40%)時,可不予處理,僅分析非缺失數(shù)據(jù),但需要討論因缺失造成的局限性,同時建議報告敏感性分析的結(jié)果。通常在對臨床試驗所需的樣本含量進行估計時,會考慮10%-20%樣本的脫落情況出現(xiàn),所以實際中的多數(shù)情況是臨床研究最后的數(shù)據(jù)缺失往往占有一個尷尬的比例,即如果舍棄缺失部分的觀測,則會丟失大量信息,使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異。 例:一項以某藥物治療膝關(guān)節(jié)痛的臨床研究中共100名受試者,其中50例治療組和50例安慰劑組,治療組中10%的人由于效果太好而中途退出,安慰劑組中10%的人由于無效而中途退出,那么原本治療組 vs. 安慰劑組的差異可能由于這20%的脫落數(shù)據(jù)而造成假陰性的結(jié)果(治療組效果被低估而安慰劑組效果被高估)。 在上述情況中,由于脫落的受試者(缺失數(shù)據(jù))依賴于療效(疼痛結(jié)局指標),是典型的非隨機缺失(Missing not at random, MNAR),也被稱為不可忽略缺失(nonignorable)。故而對這種缺失機制情況中的缺失數(shù)據(jù)進行剔除或單一填補會引起較大的偏倚。 在對缺失數(shù)據(jù)處理之前,有必要了解缺失數(shù)據(jù)的類型(Pattern)以及缺失數(shù)據(jù)的機制(Mechanism)。 缺失數(shù)據(jù)類型主要包括 如果缺失值都是同一屬性(如基線資料中的某變量缺失),則為單值缺失。單調(diào)缺失(脫落后再也不出現(xiàn))和任意缺失(任性的受試者,想來就來,說走就走)常見于縱向數(shù)據(jù)中。如下圖示,藍框為任意缺失,紅框為單調(diào)缺失,“X”代表有效數(shù)據(jù),“.”代表缺失數(shù)據(jù)。 缺失機制包括 完全隨機缺失(Missing completely at random, MCAR)指缺失數(shù)據(jù)的出現(xiàn)完全因系統(tǒng)誤差造成,與其它變量無關(guān)。比如上述膝關(guān)節(jié)臨床試驗中,缺失數(shù)據(jù)是由于受試者的住址搬遷、突發(fā)意外、外出旅游等因素造成,與療效或其他變量無關(guān)(年齡、性別、手術(shù)史、教育水平等)。 隨機缺失(Missing at random, MAR)指缺失數(shù)據(jù)的出現(xiàn)不是完全隨機的,可能依賴于其他的自變量。再以上述膝關(guān)節(jié)臨床試驗舉例,缺失數(shù)據(jù)可能與某一自變量有關(guān),比如年齡較大者(>80歲)容易脫落,因而造成數(shù)據(jù)的缺失。 非隨機缺失之前已經(jīng)提到過(MNAR),即缺失數(shù)據(jù)與療效有關(guān)。這種情況下的缺失數(shù)據(jù)需要謹慎考慮,避免采用剔除或采用單一填補的方法處理(結(jié)轉(zhuǎn)等方法)。 二、多重填補(Multiple imputation)1987年Rubin提出了多重填補的方法來解決缺失數(shù)據(jù)的問題。多重填補的技術(shù)路線如圖所示: 首先對含有缺失數(shù)據(jù)的不完整數(shù)據(jù)集進行多次填補并產(chǎn)生多個填補后的“完整”數(shù)據(jù)集; 三、SAS實現(xiàn)SAS有多種處理缺失數(shù)據(jù)的方法,對于多重填補技術(shù),SAS主要通過 以上述的膝關(guān)節(jié)痛臨床試驗為例(變量包括組別=group,療前=y0,療后=y1),處理步驟如下: proc mi data=missing seed=20200925 nimpute=10 out=mi; /*seed指定種子數(shù),nimpute指定填補次數(shù),out產(chǎn)生填補后數(shù)據(jù)集*/ 四、擴展1-模式混合模型(Pattern-mixture model,PMM)以上的SAS實現(xiàn)基于的缺失機制為“假設(shè)缺失數(shù)據(jù)機制條件為隨機缺失(MAR)”,如果治療后的缺失數(shù)據(jù)的出現(xiàn)原因如背景部分提到的情況,假設(shè)由于效果太好而導(dǎo)致治療組患者不再接受治療(即缺失數(shù)據(jù)與療效相關(guān)),那么這種基于非隨機缺失(MNAR)的缺失機制又應(yīng)當(dāng)如何處理? Ratitch和O’Kelly在2011年提出了模式混合模型(PMM),采用了一種基于對照組數(shù)據(jù)進行填補的方法。在SAS中可以通過proc mi過程步的mnar語句實現(xiàn),詳細資料可參考SAS/STAT官方文檔。 五、擴展2-臨界點敏感性分析(Sensitivity analysis with a tipping-point approach)在不確定數(shù)據(jù)缺失機制數(shù)據(jù)是否滿足MAR的情況下,可以對基于MAR假設(shè)的多重填補進行敏感性分析,臨界點法(tipping-point approach)的主要流程為對預(yù)先設(shè)置好的填補范圍(如下圖所示對膝關(guān)節(jié)的疼痛療效設(shè)置變化區(qū)間【shift=-11-2】,并以1分為間隔)產(chǎn)生的N個填補后數(shù)據(jù)集,再對N個填補后數(shù)據(jù)集以shift為單位輸出綜合后的結(jié)果。通過臨界點法可以觀察基于MAR假設(shè)填補后數(shù)據(jù)的結(jié)果是否穩(wěn)健,如果在區(qū)間范圍內(nèi)p值保持一致則說明結(jié)果穩(wěn)健,但如果在區(qū)間范圍內(nèi)發(fā)現(xiàn)p值隨著變化參數(shù)而產(chǎn)生了較大的變化(<0.05 vs >0.05)則意味著基于MAR的填補結(jié)果需要謹慎對待,或以MNAR的結(jié)果解釋。 六、擴展3-SNP數(shù)據(jù)隨著臨床試驗的發(fā)展,數(shù)據(jù)類型已不局限于人口學(xué)和臨床數(shù)據(jù),單核苷酸多態(tài)性數(shù)據(jù)(Single nucleotide polymorphism,SNP)數(shù)據(jù)的獲取變得越來越容易。但是SNP數(shù)據(jù)作為一種高通量的生物信息數(shù)據(jù)其特點是信息量大但也由于技術(shù)的局限不可避免的產(chǎn)生隨機缺失(不同芯片型號不同、廠商不同比如Illumina330不能識別rs23625,但Illumina1M則可以)。其缺失率的判斷可分為樣本水平缺失率(橫向)和位點水平缺失率(縱向)。在缺失數(shù)據(jù)處理方面既可以采用計算最小等位基因頻率MAF結(jié)合缺失率進行篩選和剔除,也可以采用填補的方法對信息最大化加以利用,這主要取決于研究者們下一步的分析目的。 基因類型缺失數(shù)據(jù)的填補方法與前述的臨床類型資料有較大不同,感興趣的同好可自行查閱相關(guān)資料了解。 作者簡介
參考資料:1.JC Jakobsen, et al. When and how should multiple imputation be used for handling missing data in randomised clinical trials-a practical guide with flowcharts (2017) |
|
來自: 嘿實驗室 > 《統(tǒng)計學(xué)》