MEME — モチーフ発見ツール

インストール

ソースコードをダウンロードして展開:

wget -O- https://meme-suite.org/meme-software/4.11.2/meme_4.11.2_1.tar.gz | tar xz

configure してビルド:

cd meme_4.11.2/
./configure --prefix=${HOME}/bio/local/meme --with-url=https://meme-suite.org --enable-build-libxml2 --enable-build-libxslt --enable-opt CC=clang
make

パスを通す:

export PATH=${PATH}:/usr/local/meme/bin

MEME

https://meme-suite.org/doc/meme.html

使い方

複数の配列が含まれるFASTAファイルを渡すだけ:

meme sequences.fasta [options]

-h, -version

ヘルプ、バージョン表示

-dna, -protein

配列がDNAかタンパク質か (-protein)

-maxsize

入力ファイルの許容サイズ (100000)

-nmotifs, -evt

探索するモチーフ数を制御するため、個数そのものか E-value の上限を指定する。 -evt を使うときは -nmotifs 大きめにしておく。 (-nmotifs 1)

-mod

モチーフが配列上にどう分布しているか
oops: One Occurrence Per Sequence
zoops: Zero or OOPS
anr: Any Number of Repetitions

-nsites, -minsites, -maxsites

それぞれのモチーフがいくつ登場すると仮定するか (デフォルト値は -mod により異なる)

-w, -minw, -max

探索するモチーフの長さを指定 (-minw 8 -maxw 50)

-revcomp

逆向きも考慮する

-pal

パリンドロームを探す

-bfile <bfile>

バックグラウンド配列を生成するマルコフ過程のパラメータを記述したファイルを指定。これを指定しない場合はトレーニング配列の塩基頻度のみを利用した0階マルコフ。 FASTA配列からファイルを作ってくれるプログラム fasta-get-markov も用意されてる。

# order 0
A 3.081e-01
C 1.919e-01
G 1.919e-01
T 3.081e-01
# order 1
AA 1.078e-01
AC 5.256e-02
AG 5.908e-02
AT 8.848e-02
CA 6.519e-02
CC 3.858e-02
CG 2.908e-02
CT 5.908e-02
GA 6.239e-02
GC 3.841e-02
GG 3.858e-02
GT 5.256e-02
TA 7.284e-02
TC 6.239e-02
TG 6.519e-02
TT 1.078e-01

一度適当に走らせてみて、出力結果 meme.txt の COMMAND LINE SUMMARY や meme.html の model parameters を見るとよい。デフォルト値もそこで分かる。

スコア

Bailey and Gribskov 1998

E-value: そのモチーフが同じサイズのランダムな配列の中にたまたま見つかる個数の期待値

Position p-value

Combined p-value

モチーフの出力形式

LOGO: アルファベットの大きさで視覚的に表示
PSPM: position-specific probability matrix: ポジションごとの塩基・アミノ酸の相対的な頻度を実数[0, 1]の行列で表示。 position weight matrix (PWM) と呼ぶことが多いような。
PSSM: position-specific scoring matrix: このあと MAST で使える形式の行列
BLOCKS, FASTA: そのモチーフを含む配列のID、開始位置、ヒットした領域の配列
Raw: モチーフにヒットした領域を切り出して並べただけ
regular expression: [AT] のように正規表現の文字集合を使った配列

`DREME`

Discriminative Regular Expression Motif Elicitation

短いモチーフが得意で効率的。 background (negative) 配列を指定できる。 ChIP-seqデータではピーク周辺100bpくらいを使うべし。

`MEME-ChIP`

長いモチーフが得意な MEME と短いモチーフが得意な DREME を組み合わせて ensemble。

`MAST`

https://meme-suite.org/meme/doc/mast.html

既知のモチーフ (MEME で発見されたとか) を配列データベースから検索する。

インストール

MEME

使い方

スコア

モチーフの出力形式

DREME

MEME-ChIP

MAST

References

`DREME`

`MEME-ChIP`

`MAST`