免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

GEO數(shù)據(jù)庫挖掘(2)--快速鎖定目標(biāo)數(shù)據(jù)

 bio_ww 2020-01-02

在上一期的推文 GEO數(shù)據(jù)庫挖掘(1)--SCI文章速成 ,我們講解了關(guān)于GEO數(shù)據(jù)庫的背景知識,想必大家也了解了GEO是一個非常實用和權(quán)威的基因表達譜數(shù)據(jù)庫。那么如何檢索自己想要的數(shù)據(jù)呢?


GEO中的數(shù)據(jù)千千萬萬條,能夠準(zhǔn)確篩選出符合我們研究方向的數(shù)據(jù)至關(guān)重要,是整個數(shù)據(jù)挖掘工作的核心和基礎(chǔ)。如果沒有合適的數(shù)據(jù),后續(xù)的所有分析都是紙上談兵。那么今天就帶領(lǐng)大家來進行實戰(zhàn)演練,學(xué)習(xí)一下如何從GEO中找到我們想要的數(shù)據(jù)。為了讓演練更加貼近實際,我們先設(shè)定一個問題,然后逐步帶領(lǐng)大家進行操作。


研究課題比較肝癌及正常肝組織的表達譜差異


實戰(zhàn)操作



1

Step1:查找

打開GEO官方網(wǎng)頁,在搜索框中輸入“Hepatocellular carcinoma”,并點擊Search(紅框所示),結(jié)果如下圖所示,出現(xiàn)了一個下拉菜單,一個是“results in GEO DataSets”,另一個是“results in GEO Profiles”,我們選擇上面一個(綠框所示)。

2

Step2:過濾

點擊上面的檢索結(jié)果后,然后我們會進入到GEO DataSets的結(jié)果頁面,如下圖所示。在這里面有3萬多個條目匹配到我們輸入的關(guān)鍵詞“Hepatocellular carcinoma”,但是這么多條目我不可能一個個看過來啊,該怎么辦呢?

我們注意到,在結(jié)果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用信息,并準(zhǔn)確地指向我們需要的數(shù)據(jù)集。那么有哪些是我們常用的篩選條件呢?

  1. Entry type:即檢索出來的結(jié)果類型,包括DataSet、Series、Sample、Paltform等,這里我們選擇Series。(不知道這幾個名詞概念的,自行查閱上一篇文章:GEO數(shù)據(jù)庫挖掘(1)--SCI文章速成

  2. Study type:研究類型,也即數(shù)據(jù)類型,這里面內(nèi)容就非常多了,因為我們做的事表達譜,所以常用的一般就是“Expression profiling by array“或者“Non-coding RNA profiling by array。點擊下方的”Customize”可以查看更多數(shù)據(jù)類型。

  3. Attribue name:其實就是樣本來源,或者樣本類型,這里我一般都是選擇“tissue”。

  4. Organism: 在右側(cè)邊欄中可以選擇物種,這里我們根據(jù)自己的研究目的自行篩選,我這里就選擇“Homo sapiens”。

選定好篩選條件之后,可以發(fā)現(xiàn),原先的結(jié)果從3萬多條變成了240條,這里面基本就是我們想要的結(jié)果了。那么問題又來了,在這240個里面,怎么知道到底哪個才是我最終需要的呢?或者我們在寫文章的時候如何選定最為重要的數(shù)據(jù)集呢?最好的辦法只有:點擊詳情,逐個查看。


可能有人會覺得這個方法太笨。其實不然。因為我們做的是數(shù)據(jù)挖掘的文章,這里面的“數(shù)據(jù)”就是我們的研究對象,如果不能選定足夠大的樣本量,我們在分析數(shù)據(jù)的過程中就會漏掉一些重要的信息,或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數(shù)據(jù)集的情況發(fā)生,當(dāng)數(shù)據(jù)檢索進行到這一步的時候,后續(xù)我一般都會逐個去查看每個數(shù)據(jù)集的詳情,并判斷是否符合我的研究目的。


3

Step3:挑選

點擊打開每個data series的詳情,我們以檢索條目中的第5條為例(因為這個數(shù)據(jù)集的數(shù)據(jù)較多,共有198個樣本),如下圖所示,點擊進入到該研究的詳細介紹頁面。

在詳情頁面中,有幾個需要我們注意的地方:

  1. 數(shù)據(jù)集編號,在右上角有顯示(紅框),這個編號很重要,我們寫文章的時候一般在Methods & Material中會提及。

  2.  數(shù)據(jù)集介紹,如下圖紅框所示,這個里面包含了關(guān)于數(shù)據(jù)集的詳細介紹及實驗設(shè)計思路,讀了這兩段之后我們就知道這個數(shù)據(jù)集是不是我們想要的了。

  3. 檢測平臺,即Platform號碼,一般是GPLxxxx的格式,這個里面包含了檢測平臺的基因注釋信息,也很重要。

  4. 樣本信息,在Samples(紅框所示)中會顯示樣本總量及每個樣本的編號,默認是折疊起來的,點擊“More”可以顯示完整。同時,如果要查看每個樣本的詳細臨床信息,點擊樣本的GSMxxxx編號即可。

此外,還有一個需要我們知道的就是一個分析工具—GEO2R,這個工具是GEO官方開發(fā)的使用R語言來進行差異表達分析的工具,十分好用,通過GEO2R可以快速便捷地篩選出我們想要的差異表達基因。


當(dāng)然僅僅進行差異表達分析,發(fā)文章是遠遠不夠的,后面的文章,我們會繼續(xù)給大家講解GEO2R的使用以及我們自行開發(fā)的一整套GEO數(shù)據(jù)挖掘自動化工具,賣個關(guān)子,敬請期待喲~

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多