GEO數(shù)據(jù)庫挖掘（2）--快速鎖定目標(biāo)數(shù)據(jù)

bio_ww 2020-01-02

展開全文

在上一期的推文 GEO數(shù)據(jù)庫挖掘（1）--SCI文章速成，我們講解了關(guān)于GEO數(shù)據(jù)庫的背景知識，想必大家也了解了GEO是一個非常實用和權(quán)威的基因表達譜數(shù)據(jù)庫。那么如何檢索自己想要的數(shù)據(jù)呢？

GEO中的數(shù)據(jù)千千萬萬條，能夠準(zhǔn)確篩選出符合我們研究方向的數(shù)據(jù)至關(guān)重要，是整個數(shù)據(jù)挖掘工作的核心和基礎(chǔ)。如果沒有合適的數(shù)據(jù)，后續(xù)的所有分析都是紙上談兵。那么今天就帶領(lǐng)大家來進行實戰(zhàn)演練，學(xué)習(xí)一下如何從GEO中找到我們想要的數(shù)據(jù)。為了讓演練更加貼近實際，我們先設(shè)定一個問題，然后逐步帶領(lǐng)大家進行操作。

研究課題：比較肝癌及正常肝組織的表達譜差異

實戰(zhàn)操作

Step1：查找

打開GEO官方網(wǎng)頁，在搜索框中輸入“Hepatocellular carcinoma”，并點擊Search（紅框所示），結(jié)果如下圖所示，出現(xiàn)了一個下拉菜單，一個是“results in GEO DataSets”，另一個是“results in GEO Profiles”，我們選擇上面一個（綠框所示）。

Step2：過濾

點擊上面的檢索結(jié)果后，然后我們會進入到GEO DataSets的結(jié)果頁面，如下圖所示。在這里面有3萬多個條目匹配到我們輸入的關(guān)鍵詞“Hepatocellular carcinoma”，但是這么多條目我不可能一個個看過來啊，該怎么辦呢？

我們注意到，在結(jié)果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用信息，并準(zhǔn)確地指向我們需要的數(shù)據(jù)集。那么有哪些是我們常用的篩選條件呢？

Entry type：即檢索出來的結(jié)果類型，包括DataSet、Series、Sample、Paltform等，這里我們選擇Series。（不知道這幾個名詞概念的，自行查閱上一篇文章：GEO數(shù)據(jù)庫挖掘（1）--SCI文章速成）
Study type：研究類型，也即數(shù)據(jù)類型，這里面內(nèi)容就非常多了，因為我們做的事表達譜，所以常用的一般就是“Expression profiling by array“或者“Non-coding RNA profiling by array”。點擊下方的”Customize”可以查看更多數(shù)據(jù)類型。
Attribue name：其實就是樣本來源，或者樣本類型，這里我一般都是選擇“tissue”。
Organism: 在右側(cè)邊欄中可以選擇物種，這里我們根據(jù)自己的研究目的自行篩選，我這里就選擇“Homo sapiens”。

選定好篩選條件之后，可以發(fā)現(xiàn)，原先的結(jié)果從3萬多條變成了240條，這里面基本就是我們想要的結(jié)果了。那么問題又來了，在這240個里面，怎么知道到底哪個才是我最終需要的呢？或者我們在寫文章的時候如何選定最為重要的數(shù)據(jù)集呢？最好的辦法只有：點擊詳情，逐個查看。

可能有人會覺得這個方法太笨。其實不然。因為我們做的是數(shù)據(jù)挖掘的文章，這里面的“數(shù)據(jù)”就是我們的研究對象，如果不能選定足夠大的樣本量，我們在分析數(shù)據(jù)的過程中就會漏掉一些重要的信息，或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數(shù)據(jù)集的情況發(fā)生，當(dāng)數(shù)據(jù)檢索進行到這一步的時候，后續(xù)我一般都會逐個去查看每個數(shù)據(jù)集的詳情，并判斷是否符合我的研究目的。

Step3：挑選

點擊打開每個data series的詳情，我們以檢索條目中的第5條為例（因為這個數(shù)據(jù)集的數(shù)據(jù)較多，共有198個樣本），如下圖所示，點擊進入到該研究的詳細介紹頁面。

在詳情頁面中，有幾個需要我們注意的地方：

數(shù)據(jù)集編號，在右上角有顯示（紅框），這個編號很重要，我們寫文章的時候一般在Methods & Material中會提及。
數(shù)據(jù)集介紹，如下圖紅框所示，這個里面包含了關(guān)于數(shù)據(jù)集的詳細介紹及實驗設(shè)計思路，讀了這兩段之后我們就知道這個數(shù)據(jù)集是不是我們想要的了。
檢測平臺，即Platform號碼，一般是GPLxxxx的格式，這個里面包含了檢測平臺的基因注釋信息，也很重要。
樣本信息，在Samples（紅框所示）中會顯示樣本總量及每個樣本的編號，默認是折疊起來的，點擊“More”可以顯示完整。同時，如果要查看每個樣本的詳細臨床信息，點擊樣本的GSMxxxx編號即可。