在上一期的推文 GEO數(shù)據(jù)庫挖掘(1)--SCI文章速成 ,我們講解了關(guān)于GEO數(shù)據(jù)庫的背景知識,想必大家也了解了GEO是一個非常實用和權(quán)威的基因表達譜數(shù)據(jù)庫。那么如何檢索自己想要的數(shù)據(jù)呢? GEO中的數(shù)據(jù)千千萬萬條,能夠準(zhǔn)確篩選出符合我們研究方向的數(shù)據(jù)至關(guān)重要,是整個數(shù)據(jù)挖掘工作的核心和基礎(chǔ)。如果沒有合適的數(shù)據(jù),后續(xù)的所有分析都是紙上談兵。那么今天就帶領(lǐng)大家來進行實戰(zhàn)演練,學(xué)習(xí)一下如何從GEO中找到我們想要的數(shù)據(jù)。為了讓演練更加貼近實際,我們先設(shè)定一個問題,然后逐步帶領(lǐng)大家進行操作。 研究課題:比較肝癌及正常肝組織的表達譜差異 實戰(zhàn)操作 Step1:查找 打開GEO官方網(wǎng)頁,在搜索框中輸入“Hepatocellular carcinoma”,并點擊Search(紅框所示),結(jié)果如下圖所示,出現(xiàn)了一個下拉菜單,一個是“results in GEO DataSets”,另一個是“results in GEO Profiles”,我們選擇上面一個(綠框所示)。 Step2:過濾 點擊上面的檢索結(jié)果后,然后我們會進入到GEO DataSets的結(jié)果頁面,如下圖所示。在這里面有3萬多個條目匹配到我們輸入的關(guān)鍵詞“Hepatocellular carcinoma”,但是這么多條目我不可能一個個看過來啊,該怎么辦呢? 我們注意到,在結(jié)果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用信息,并準(zhǔn)確地指向我們需要的數(shù)據(jù)集。那么有哪些是我們常用的篩選條件呢?
選定好篩選條件之后,可以發(fā)現(xiàn),原先的結(jié)果從3萬多條變成了240條,這里面基本就是我們想要的結(jié)果了。那么問題又來了,在這240個里面,怎么知道到底哪個才是我最終需要的呢?或者我們在寫文章的時候如何選定最為重要的數(shù)據(jù)集呢?最好的辦法只有:點擊詳情,逐個查看。 可能有人會覺得這個方法太笨。其實不然。因為我們做的是數(shù)據(jù)挖掘的文章,這里面的“數(shù)據(jù)”就是我們的研究對象,如果不能選定足夠大的樣本量,我們在分析數(shù)據(jù)的過程中就會漏掉一些重要的信息,或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數(shù)據(jù)集的情況發(fā)生,當(dāng)數(shù)據(jù)檢索進行到這一步的時候,后續(xù)我一般都會逐個去查看每個數(shù)據(jù)集的詳情,并判斷是否符合我的研究目的。 Step3:挑選 點擊打開每個data series的詳情,我們以檢索條目中的第5條為例(因為這個數(shù)據(jù)集的數(shù)據(jù)較多,共有198個樣本),如下圖所示,點擊進入到該研究的詳細介紹頁面。 在詳情頁面中,有幾個需要我們注意的地方:
此外,還有一個需要我們知道的就是一個分析工具—GEO2R,這個工具是GEO官方開發(fā)的使用R語言來進行差異表達分析的工具,十分好用,通過GEO2R可以快速便捷地篩選出我們想要的差異表達基因。 當(dāng)然僅僅進行差異表達分析,發(fā)文章是遠遠不夠的,后面的文章,我們會繼續(xù)給大家講解GEO2R的使用以及我們自行開發(fā)的一整套GEO數(shù)據(jù)挖掘自動化工具,賣個關(guān)子,敬請期待喲~ |
|