Heavy Watal

Gene Ontology

生物種や分野によらない共通の語彙で遺伝子産物の機能を記述するための用語体系。

機能に応じて遺伝子にたくさんのタグ(GO term)を付けましょうってこと。

e.g. Human RB1 https://amigo.geneontology.org/amigo/gene_product/UniProtKB:P06400

GO term

e.g. https://amigo.geneontology.org/amigo/term/GO:0043065#display-graphics-tab

小さくて専門的な下位termから、大きくて一般的な上位termに向かう directed acyclic graph (DAG) を構成している。 ある下位termを持つ場合はそれに連なる上位termも全て持つ (True Path Rule)。 かなり細かい多層構造。 分岐したあと上位でまた合流するので、木構造での表示には限界がある。

最上位のtermは3つ:

Biological Process
生物学的な機能。 下位には例えば、分化、細胞分裂、細胞死など。 GO:0008150
Cellular Component
細胞内での局在。 下位には例えば、核内、小胞体など。 GO:0005575
Molecular Function
化学的な機能。 下位には例えば、加水分解酵素、DNA結合など。 GO:0003674

ほかのアノテーションと同じようにEvidenceのレベルもいろいろある。

GO relation

https://geneontology.org/docs/ontology-relations/

DAGのエッジのことをrelationと呼ぶ。

フィードフォワード的なショートカットも推定される。。

GO解析

何らかの解析で遺伝子のサブセットが抽出されたとして、 それらが持つGO termの組成を全ゲノムでの組成と比較してみたときに、 特定の機能群におけるenrichmentが見られるかどうか?

e.g. 対照区と処理区で発現が変化した遺伝子には、XXXというtermが多く含まれる

超幾何分布

ツール

Amigo

https://amigo.geneontology.org

BioConductor

GO.db
GO term/relationの構造データ。遺伝子のデータではない。
GOstats
enrichment解析。あまり人気がないっぽい。
topGO
enrichment解析。複数のアルゴリズムと検定をサポート。
GOexpress
発現パターンで遺伝子をクラスタリングしてGO解析
GOSemSim
2つの遺伝子群の機能的類似度をGOベースで
goseq
RNA-seqからGOまで直行? length bias (長いtranscriptほどDEG検出されやすい) を考慮。