免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

對臨床研究中的缺失數(shù)據(jù)進行填補是在'編'數(shù)據(jù)嗎?

 嘿實驗室 2021-04-30

背景

隨著臨床試驗的發(fā)展,對缺失數(shù)據(jù)進行處理已經(jīng)成為臨床研究數(shù)據(jù)分析階段中無法避免的問題之一。當(dāng)缺失數(shù)據(jù)的比例較少(<5%)或較大(>40%)時,可不予處理,僅分析非缺失數(shù)據(jù),但需要討論因缺失造成的局限性,同時建議報告敏感性分析的結(jié)果。通常在對臨床試驗所需的樣本含量進行估計時,會考慮10%-20%樣本的脫落情況出現(xiàn),所以實際中的多數(shù)情況是臨床研究最后的數(shù)據(jù)缺失往往占有一個尷尬的比例,即如果舍棄缺失部分的觀測,則會丟失大量信息,使不完全觀測數(shù)據(jù)與完全觀測數(shù)據(jù)間產(chǎn)生系統(tǒng)差異。

例:一項以某藥物治療膝關(guān)節(jié)痛的臨床研究中共100名受試者,其中50例治療組和50例安慰劑組,治療組中10%的人由于效果太好而中途退出,安慰劑組中10%的人由于無效而中途退出,那么原本治療組 vs. 安慰劑組的差異可能由于這20%的脫落數(shù)據(jù)而造成假陰性的結(jié)果(治療組效果被低估而安慰劑組效果被高估)。

在上述情況中,由于脫落的受試者(缺失數(shù)據(jù))依賴于療效(疼痛結(jié)局指標),是典型的非隨機缺失(Missing not at random, MNAR),也被稱為不可忽略缺失(nonignorable)。故而對這種缺失機制情況中的缺失數(shù)據(jù)進行剔除或單一填補會引起較大的偏倚。

在對缺失數(shù)據(jù)處理之前,有必要了解缺失數(shù)據(jù)的類型(Pattern)以及缺失數(shù)據(jù)的機制(Mechanism)。

缺失數(shù)據(jù)類型主要包括單值缺失、單調(diào)缺失任意缺失。

如果缺失值都是同一屬性(如基線資料中的某變量缺失),則為單值缺失。單調(diào)缺失(脫落后再也不出現(xiàn))和任意缺失(任性的受試者,想來就來,說走就走)常見于縱向數(shù)據(jù)中。如下圖示,藍框為任意缺失,紅框為單調(diào)缺失,“X”代表有效數(shù)據(jù),“.”代表缺失數(shù)據(jù)。

圖片

缺失機制包括完全隨機缺失隨機缺失、非隨機缺失

完全隨機缺失(Missing completely at random, MCAR)指缺失數(shù)據(jù)的出現(xiàn)完全因系統(tǒng)誤差造成,與其它變量無關(guān)。比如上述膝關(guān)節(jié)臨床試驗中,缺失數(shù)據(jù)是由于受試者的住址搬遷、突發(fā)意外、外出旅游等因素造成,與療效或其他變量無關(guān)(年齡、性別、手術(shù)史、教育水平等)。

隨機缺失(Missing at random, MAR)指缺失數(shù)據(jù)的出現(xiàn)不是完全隨機的,可能依賴于其他的自變量。再以上述膝關(guān)節(jié)臨床試驗舉例,缺失數(shù)據(jù)可能與某一自變量有關(guān),比如年齡較大者(>80歲)容易脫落,因而造成數(shù)據(jù)的缺失。

非隨機缺失之前已經(jīng)提到過(MNAR),即缺失數(shù)據(jù)與療效有關(guān)。這種情況下的缺失數(shù)據(jù)需要謹慎考慮,避免采用剔除或采用單一填補的方法處理(結(jié)轉(zhuǎn)等方法)。

二、多重填補(Multiple imputation)

1987年Rubin提出了多重填補的方法來解決缺失數(shù)據(jù)的問題。多重填補的技術(shù)路線如圖所示:
圖片

首先對含有缺失數(shù)據(jù)的不完整數(shù)據(jù)集進行多次填補并產(chǎn)生多個填補后的“完整”數(shù)據(jù)集;
第二步對每個填補后數(shù)據(jù)集進行分析;
最終整合對填補后數(shù)據(jù)單獨分析的結(jié)果。

三、SAS實現(xiàn)

SAS有多種處理缺失數(shù)據(jù)的方法,對于多重填補技術(shù),SAS主要通過proc miproc mianalyze兩個過程步實現(xiàn)。其中mi為multiple imputation的縮寫,而mianalyze則是對經(jīng)過mi后的填補數(shù)據(jù)進行綜合,產(chǎn)生最終的綜合估計結(jié)果。通過proc mi可以實現(xiàn)對不同缺失類型(單調(diào)/任意缺失)和變量類型(連續(xù)/等級/名義變量)多種填補方法,包括回歸模型、傾向評分、預(yù)測均值匹配、馬爾科夫鏈蒙特卡洛(MCMC)等,詳見下表。
圖片

以上述的膝關(guān)節(jié)痛臨床試驗為例(變量包括組別=group,療前=y0,療后=y1),處理步驟如下:

proc mi data=missing seed=20200925 nimpute=10 out=mi; /*seed指定種子數(shù),nimpute指定填補次數(shù),out產(chǎn)生填補后數(shù)據(jù)集*/
class group; /*class指定分組*/
monotone reg(y1); /*monontone指定缺失類型為單調(diào)缺失*/
var group y0 y1; /*y0,y1分別為治療前后*/
run;

proc reg data=mi; /*回歸模型根據(jù)上一代碼塊的10次填補輸出回歸結(jié)果*/
model y1=group y0;
by _imputation_; /*_imputation_為proc mi過程步產(chǎn)生的填補次數(shù)代號,如nimpute=10則產(chǎn)生的_imputation_范圍為1-10*/
ods output parameterestimates=parm1;
run;

proc mianalyze params=parm1; /*proc mianalyze過程步對10次填補結(jié)果進行綜合輸出最終結(jié)果,包括組間均數(shù)差及其SE和95%CI,以及P-value*/
modeleffects group; /*modeleffects對分組變量進行分析*/
run;

四、擴展1-模式混合模型(Pattern-mixture model,PMM)

以上的SAS實現(xiàn)基于的缺失機制為“假設(shè)缺失數(shù)據(jù)機制條件為隨機缺失(MAR)”,如果治療后的缺失數(shù)據(jù)的出現(xiàn)原因如背景部分提到的情況,假設(shè)由于效果太好而導(dǎo)致治療組患者不再接受治療(即缺失數(shù)據(jù)與療效相關(guān)),那么這種基于非隨機缺失(MNAR)的缺失機制又應(yīng)當(dāng)如何處理? Ratitch和O’Kelly在2011年提出了模式混合模型(PMM),采用了一種基于對照組數(shù)據(jù)進行填補的方法。在SAS中可以通過proc mi過程步的mnar語句實現(xiàn),詳細資料可參考SAS/STAT官方文檔。

五、擴展2-臨界點敏感性分析(Sensitivity analysis with a tipping-point approach)

在不確定數(shù)據(jù)缺失機制數(shù)據(jù)是否滿足MAR的情況下,可以對基于MAR假設(shè)的多重填補進行敏感性分析,臨界點法(tipping-point approach)的主要流程為對預(yù)先設(shè)置好的填補范圍(如下圖所示對膝關(guān)節(jié)的疼痛療效設(shè)置變化區(qū)間【shift=-11-2】,并以1分為間隔)產(chǎn)生的N個填補后數(shù)據(jù)集,再對N個填補后數(shù)據(jù)集以shift為單位輸出綜合后的結(jié)果。通過臨界點法可以觀察基于MAR假設(shè)填補后數(shù)據(jù)的結(jié)果是否穩(wěn)健,如果在區(qū)間范圍內(nèi)p值保持一致則說明結(jié)果穩(wěn)健,但如果在區(qū)間范圍內(nèi)發(fā)現(xiàn)p值隨著變化參數(shù)而產(chǎn)生了較大的變化(<0.05 vs >0.05)則意味著基于MAR的填補結(jié)果需要謹慎對待,或以MNAR的結(jié)果解釋。

圖片

六、擴展3-SNP數(shù)據(jù)

隨著臨床試驗的發(fā)展,數(shù)據(jù)類型已不局限于人口學(xué)和臨床數(shù)據(jù),單核苷酸多態(tài)性數(shù)據(jù)(Single nucleotide polymorphism,SNP)數(shù)據(jù)的獲取變得越來越容易。但是SNP數(shù)據(jù)作為一種高通量的生物信息數(shù)據(jù)其特點是信息量大但也由于技術(shù)的局限不可避免的產(chǎn)生隨機缺失(不同芯片型號不同、廠商不同比如Illumina330不能識別rs23625,但Illumina1M則可以)。其缺失率的判斷可分為樣本水平缺失率(橫向)和位點水平缺失率(縱向)。在缺失數(shù)據(jù)處理方面既可以采用計算最小等位基因頻率MAF結(jié)合缺失率進行篩選和剔除,也可以采用填補的方法對信息最大化加以利用,這主要取決于研究者們下一步的分析目的。
圖片

基因類型缺失數(shù)據(jù)的填補方法與前述的臨床類型資料有較大不同,感興趣的同好可自行查閱相關(guān)資料了解。

作者簡介

秦宗實,香港大學(xué)李嘉誠醫(yī)學(xué)院中藥學(xué)專業(yè)在讀博士,研究方向為天然藥物與神經(jīng)疾病的轉(zhuǎn)化醫(yī)學(xué)研究。曾參與“十二五”國家科技支撐計劃項目、國家重點研發(fā)計劃“中醫(yī)藥現(xiàn)代化研究”重點專項等臨床研究,參與研究方案及統(tǒng)計分析計劃制定。在J Urol、Am J Med、Mayo Clinic Proc、Brain Behav Immun等期刊發(fā)表論文20多篇。

參考資料:

1.JC Jakobsen, et al. When and how should multiple imputation be used for handling missing data in randomised clinical trials-a practical guide with flowcharts (2017)
2.J Nissen et al. Missing data and bias in physics education research: A case for using multiple imputation(2019)
3.Y Yuan. Sensitivity analysis in multiple imputation for missing data (2014)
4.SAS/STAT? 15.2 User’s Guide
5.SAS/Genetics? User’s Guide

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多