Ontology 首先是出現于哲學領域的一個詞匯,后來廣泛用于計算機領域,發揮了很重要的作用,再后來這個概念被引入生物領域。
創新互聯專業為企業提供懷遠網站建設、懷遠做網站、懷遠網站設計、懷遠網站制作等企業網站建設、網頁設計與制作、懷遠企業網站模板建站服務,10年懷遠做網站經驗,不只是建網站,更提供有價值的思路和整體網絡服務。
gene Ontology 是生物中Ontology中一個重要應用。go項目最初是由研究三種模式生物(果蠅、小鼠和酵母)基因組的研究者共同發起。是生物信息分析中很重要的一個方法
go是在生物領域應用非常廣,可以幫助生物學家對基因產物進行準確的定義(功能、位置),節省時間。
因為在最開始的時候,生物學家們更多是專注于自己研究的物種/課題,而且每個生物學家對功能等的定義是存在差異的,導致不同實驗室/物種不能實現直接的對接(比如A物種內的x基因的功能使用的是a這個詞匯進行注釋,而B物種內的x基因的功能卻使用的是與a同義的詞匯b進行注釋,這種情況計算機無法識別),就像講兩種語言的人,無法直接進行語言交流。這種情況導致的問題是,出現了一種阻礙,讓問題復雜化了。所以就有了Ontology在生物領域中的應用,實現“書同文”。
go定義了基因/基因產物的功能(通過術語)且定義了它們各自之間功能是怎樣聯系的(關系)。它組成了一個具有大量term的詞匯庫,并定義各種term之間的關系(is_a part_of R)。
GO通過三個方面的術語對基因/基因產物的功能進行描述:分子功能(molecular function) -由基因/基因產物行使的分子水平上的功能; 細胞組件(cellular component)-基因/基因產物產生功能時其在細胞結構上的位置;生物學過程(biological process)-在哪個生物學通路/生物過程發揮作用。
目前,GO 注釋主要有兩種方法:
(1)序列相似性比對(BLAST):例如blast2go(將blast結果轉化為GO注釋)
(2)結構域相似性比對(InterProScan)
blast2go的本地化教程:
在blast2go軟件正確安裝的情況下,使用blast2go進行go注釋,出現無法得到注釋結果的問題:
另外還有可能出錯的原因是,blast2go無法識別blast高的版本號,當使用高版本的blast的時候,直接將版本號給修改為低版本的就行了,例如(BLASTX 2.2.25+)
GO 的圖形是一個有向無環圖
看注釋前的字母。
R語言初學指南可在腳本中加入注釋。在腳本中,任何以“#”(sharp/numbersymbol)開頭的命令行都會被R忽略。
同樣,若“#”出現在某行的中間,則該行中“#”后面的語句都會被忽略。可利用這一特性對腳本添加注釋,以便用戶或他人日后查閱。
例如,作者每次查看前一天編寫的腳本時,都要重新梳理并回憶每條腳本語句的作用。
點擊“Start BiNGO”。分析完成后彈出運行報告,內容在bgo文件里也有。還返回一個相互作用網絡,顯示上一步f下選的那些節點。節點的標簽顯示的是屬于上一步h 下選的GO注釋種類的term。默認顏色分布:富集程度越高則節點背景越偏橙色,越低則越靠近黃色。白色節點表示未被顯著富集,之所以出現在結果中是因為 他們的某個子節點顯著富集。結果中節點的多少是與提交到分析的節點的多少成正比的。
對基因的描述一般從三個層面進行:
這三個層面具體是指:
得到GO注釋
做GO分析的思路:
比如,在疾病研究的時候,進行藥物治療之后某些基因的表達量明顯的發生了變化,拿這些基因去做GO分析發現在Biological process過程當中集中在RNA修飾上,然后在此基礎上繼續進行挖掘。這個例子就是想啟示大家拿到差異表達基因DEG只是一個開始,接下來就應該去做GO注釋,之后需要進行一個分析看這些注釋主要集中在哪個地方。假如我們有100個差異表達基因其中有99個都集中在細胞核里,那我們通過GO分析就得到了一個顯著的分布。
GO富集分析原理:
有一個term注釋了100個差異表達基因參與了哪個過程,注釋完之后(模式生物都有現成的注釋包,不用我們自己注釋),計算相對于背景它是否顯著集中在某條通路、某一個細胞學定位、某一種生物學功能。
clusterProfiler是一個功能強大的R包,同時支持GO和KEGG的富集分析,而且可視化功能非常的優秀,本章主要介紹利用這個R包來進行Gene Ontology的富集分析。
進行GO分析時,需要考慮的一個基礎因素就是基因的GO注釋信息從何處獲取。Bioconductor上提供了以下19個物種的Org類型的包,包含了這些物種的GO注釋信息
對于以上19個物種,只需要安裝對應的org包,clusterProfile就會自動從中獲取GO注釋信息,我們只需要差異基因的列表就可以了,使用起來非常方便。
1.1 準備輸入數據
待分析的數據就是一串基因名稱了,可以是ensembl id、entrze id或者symbol id等類型都可以。把基因名稱以一列的形式排開,放在一個文本文件中(例如命名“gene.txt”)。Excel中查看,就是如下示例這種樣式。
1.3 GO富集分析
加載了注釋庫之后,讀取基因列表文件,并使用clusterProfiler的內部函數enrichGO()即可完成GO富集分析。
讀取基因列表文件,并使用clusterProfiler的內部函數enrichKEGG()即可完成KEGG富集分析。
此外,clusterProfiler中也額外提供了一系列的可視化方案用于展示本次富集分析結果,具有極大的便利。
參考:
;utm_medium=timeline
ID轉換用到的是 bitr() 函數,bitr()的使用方法:
org.Hs.eg.db包含有多種gene_name的類型
keytypes() :keytypes(x),查看注釋包中可以使用的類型
columns() :類似于keytypes(),針對org.Hs.eg.db兩個函數返回值一致
select() :select(x, keys, columns, keytype, ...) eg.
函數enrichGO()進行GO富集分析,enrichGO()的使用方法:
舉例:
當前文章:R語言GO功能注釋 go語言多行注釋
網站URL:http://vcdvsql.cn/article30/hpgsso.html
成都網站建設公司_創新互聯,為您提供域名注冊、品牌網站設計、網站策劃、服務器托管、微信公眾號、網站改版
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯