對臨床研究中的缺失數(shù)據(jù)進行填補是在'編'數(shù)據(jù)嗎？

嘿實驗室 2021-04-30

展開全文

背景

隨著臨床試驗的發(fā)展，對缺失數(shù)據(jù)進行處理已經(jīng)成為臨床研究數(shù)據(jù)分析階段中無法避免的問題之一。當(dāng)缺失數(shù)據(jù)的比例較少（<5%）或較大（>40%）時，可不予處理，僅分析非缺失數(shù)據(jù)，但需要討論因缺失造成的局限性，同時建議報告敏感性分析的結(jié)果。通常在對臨床試驗所需的樣本含量進行估計時，會考慮10%-20%樣本的脫落情況出現(xiàn)，所以實際中的多數(shù)情況是臨床研究最后的數(shù)據(jù)缺失往往占有一個尷尬的比例，即如果舍棄缺失部分的觀測，則會丟失大量信息，使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異。

例：一項以某藥物治療膝關(guān)節(jié)痛的臨床研究中共100名受試者，其中50例治療組和50例安慰劑組，治療組中10%的人由于效果太好而中途退出，安慰劑組中10%的人由于無效而中途退出，那么原本治療組 vs. 安慰劑組的差異可能由于這20%的脫落數(shù)據(jù)而造成假陰性的結(jié)果（治療組效果被低估而安慰劑組效果被高估）。

在上述情況中，由于脫落的受試者（缺失數(shù)據(jù)）依賴于療效（疼痛結(jié)局指標），是典型的非隨機缺失（Missing not at random, MNAR），也被稱為不可忽略缺失（nonignorable）。故而對這種缺失機制情況中的缺失數(shù)據(jù)進行剔除或單一填補會引起較大的偏倚。

在對缺失數(shù)據(jù)處理之前，有必要了解缺失數(shù)據(jù)的類型（Pattern）以及缺失數(shù)據(jù)的機制（Mechanism）。

缺失數(shù)據(jù)類型主要包括單值缺失、單調(diào)缺失、任意缺失。

如果缺失值都是同一屬性（如基線資料中的某變量缺失），則為單值缺失。單調(diào)缺失（脫落后再也不出現(xiàn)）和任意缺失（任性的受試者，想來就來，說走就走）常見于縱向數(shù)據(jù)中。如下圖示，藍框為任意缺失，紅框為單調(diào)缺失，“X”代表有效數(shù)據(jù)，“.”代表缺失數(shù)據(jù)。

缺失機制包括完全隨機缺失、隨機缺失、非隨機缺失。

完全隨機缺失（Missing completely at random, MCAR）指缺失數(shù)據(jù)的出現(xiàn)完全因系統(tǒng)誤差造成，與其它變量無關(guān)。比如上述膝關(guān)節(jié)臨床試驗中，缺失數(shù)據(jù)是由于受試者的住址搬遷、突發(fā)意外、外出旅游等因素造成，與療效或其他變量無關(guān)（年齡、性別、手術(shù)史、教育水平等）。

隨機缺失（Missing at random， MAR）指缺失數(shù)據(jù)的出現(xiàn)不是完全隨機的，可能依賴于其他的自變量。再以上述膝關(guān)節(jié)臨床試驗舉例，缺失數(shù)據(jù)可能與某一自變量有關(guān)，比如年齡較大者（>80歲）容易脫落，因而造成數(shù)據(jù)的缺失。

非隨機缺失之前已經(jīng)提到過（MNAR），即缺失數(shù)據(jù)與療效有關(guān)。這種情況下的缺失數(shù)據(jù)需要謹慎考慮，避免采用剔除或采用單一填補的方法處理（結(jié)轉(zhuǎn)等方法）。

二、多重填補（Multiple imputation）

1987年Rubin提出了多重填補的方法來解決缺失數(shù)據(jù)的問題。多重填補的技術(shù)路線如圖所示：

首先對含有缺失數(shù)據(jù)的不完整數(shù)據(jù)集進行多次填補并產(chǎn)生多個填補后的“完整”數(shù)據(jù)集；
第二步對每個填補后數(shù)據(jù)集進行分析；
最終整合對填補后數(shù)據(jù)單獨分析的結(jié)果。

三、SAS實現(xiàn)

SAS有多種處理缺失數(shù)據(jù)的方法，對于多重填補技術(shù)，SAS主要通過proc mi和proc mianalyze兩個過程步實現(xiàn)。其中mi為multiple imputation的縮寫，而mianalyze則是對經(jīng)過mi后的填補數(shù)據(jù)進行綜合，產(chǎn)生最終的綜合估計結(jié)果。通過proc mi可以實現(xiàn)對不同缺失類型（單調(diào)/任意缺失）和變量類型（連續(xù)/等級/名義變量）多種填補方法，包括回歸模型、傾向評分、預(yù)測均值匹配、馬爾科夫鏈蒙特卡洛（MCMC）等，詳見下表。

以上述的膝關(guān)節(jié)痛臨床試驗為例（變量包括組別=group，療前=y0，療后=y1），處理步驟如下：

proc mi data=missing seed=20200925 nimpute=10 out=mi; /*seed指定種子數(shù)，nimpute指定填補次數(shù)，out產(chǎn)生填補后數(shù)據(jù)集*/
  class group; /*class指定分組*/
  monotone reg(y1); /*monontone指定缺失類型為單調(diào)缺失*/
  var group y0 y1; /*y0,y1分別為治療前后*/
run;

proc reg data=mi; /*回歸模型根據(jù)上一代碼塊的10次填補輸出回歸結(jié)果*/
  model y1=group y0;
  by _imputation_; /*_imputation_為proc mi過程步產(chǎn)生的填補次數(shù)代號，如nimpute=10則產(chǎn)生的_imputation_范圍為1-10*/
  ods output parameterestimates=parm1;
run;

proc mianalyze params=parm1; /*proc mianalyze過程步對10次填補結(jié)果進行綜合輸出最終結(jié)果，包括組間均數(shù)差及其SE和95%CI，以及P-value*/
modeleffects group; /*modeleffects對分組變量進行分析*/
run;

四、擴展1-模式混合模型（Pattern-mixture model，PMM）

以上的SAS實現(xiàn)基于的缺失機制為“假設(shè)缺失數(shù)據(jù)機制條件為隨機缺失（MAR）”，如果治療后的缺失數(shù)據(jù)的出現(xiàn)原因如背景部分提到的情況，假設(shè)由于效果太好而導(dǎo)致治療組患者不再接受治療（即缺失數(shù)據(jù)與療效相關(guān)），那么這種基于非隨機缺失（MNAR）的缺失機制又應(yīng)當(dāng)如何處理? Ratitch和O’Kelly在2011年提出了模式混合模型（PMM），采用了一種基于對照組數(shù)據(jù)進行填補的方法。在SAS中可以通過proc mi過程步的mnar語句實現(xiàn)，詳細資料可參考SAS/STAT官方文檔。

五、擴展2-臨界點敏感性分析（Sensitivity analysis with a tipping-point approach）

在不確定數(shù)據(jù)缺失機制數(shù)據(jù)是否滿足MAR的情況下，可以對基于MAR假設(shè)的多重填補進行敏感性分析，臨界點法（tipping-point approach）的主要流程為對預(yù)先設(shè)置好的填補范圍（如下圖所示對膝關(guān)節(jié)的疼痛療效設(shè)置變化區(qū)間【shift=-11-2】，并以1分為間隔）產(chǎn)生的N個填補后數(shù)據(jù)集，再對N個填補后數(shù)據(jù)集以shift為單位輸出綜合后的結(jié)果。通過臨界點法可以觀察基于MAR假設(shè)填補后數(shù)據(jù)的結(jié)果是否穩(wěn)健，如果在區(qū)間范圍內(nèi)p值保持一致則說明結(jié)果穩(wěn)健，但如果在區(qū)間范圍內(nèi)發(fā)現(xiàn)p值隨著變化參數(shù)而產(chǎn)生了較大的變化（<0.05 vs >0.05）則意味著基于MAR的填補結(jié)果需要謹慎對待，或以MNAR的結(jié)果解釋。

六、擴展3-SNP數(shù)據(jù)

隨著臨床試驗的發(fā)展，數(shù)據(jù)類型已不局限于人口學(xué)和臨床數(shù)據(jù)，單核苷酸多態(tài)性數(shù)據(jù)（Single nucleotide polymorphism，SNP）數(shù)據(jù)的獲取變得越來越容易。但是SNP數(shù)據(jù)作為一種高通量的生物信息數(shù)據(jù)其特點是信息量大但也由于技術(shù)的局限不可避免的產(chǎn)生隨機缺失（不同芯片型號不同、廠商不同比如Illumina330不能識別rs23625，但Illumina1M則可以）。其缺失率的判斷可分為樣本水平缺失率（橫向）和位點水平缺失率（縱向）。在缺失數(shù)據(jù)處理方面既可以采用計算最小等位基因頻率MAF結(jié)合缺失率進行篩選和剔除，也可以采用填補的方法對信息最大化加以利用，這主要取決于研究者們下一步的分析目的。

基因類型缺失數(shù)據(jù)的填補方法與前述的臨床類型資料有較大不同，感興趣的同好可自行查閱相關(guān)資料了解。

作者簡介

秦宗實，香港大學(xué)李嘉誠醫(yī)學(xué)院中藥學(xué)專業(yè)在讀博士，研究方向為天然藥物與神經(jīng)疾病的轉(zhuǎn)化醫(yī)學(xué)研究。曾參與“十二五”國家科技支撐計劃項目、國家重點研發(fā)計劃“中醫(yī)藥現(xiàn)代化研究”重點專項等臨床研究，參與研究方案及統(tǒng)計分析計劃制定。在J Urol、Am J Med、Mayo Clinic Proc、Brain Behav Immun等期刊發(fā)表論文20多篇。

參考資料：

1.JC Jakobsen, et al. When and how should multiple imputation be used for handling missing data in randomised clinical trials-a practical guide with flowcharts (2017)
2.J Nissen et al. Missing data and bias in physics education research: A case for using multiple imputation（2019）
3.Y Yuan. Sensitivity analysis in multiple imputation for missing data (2014)
4.SAS/STAT? 15.2 User’s Guide
5.SAS/Genetics? User’s Guide