home
MENUPREVNEXT

MacOSXでBioinfomatics入門その2

BLASTのインストール

 

■BLASTプログラムのダウンロード

stand-alone BLASTのありかは

ftp://ftp.ncbi.nih.gov/blast/executables/

です。ここには、IRIX6.2, Solaris2.6 (Sparc) Solaris2.7 (Intel), DEC OSF1 (ver. 4.0D), LINUX/Intel, HPUX, MacIntosh, and Win32 systemsといった各種OS版のBLASTのバイナリー版があります。OSX用のものはblast.macosx.tar.gzのはずですが、見あたらない。どうやら、現在はblast.dawin.tar.gzとして公開されているようなので、これをダウンロード。50MBくらいでした。

BLASTはどこにおいてもいいのですが、私は、ルートの直下にbioというディレクトリを作って、ここにBioinfomatics関連のファイルを集めることにし、/bio/blast/の中にダウンロードしたblastをStuffitで解凍して放り込みました。もちろん、ターミナルでgunzip、tarを使って解凍してもいいです。

 

■BLAST用のデータベースのダウンロード

BLAST用のデータベースのありかは

ftp://ftp.ncbi.nih.gov/blast/db/

です。たくさん、データベースがあるので、READMEを見てみると、こんな感じでした。

Peptide Sequence Databases
nr.Z All non-redundant GenBank CDS translations+PDB+SwissProt+PIR
month.aa.Z
All new or revised GenBank CDS translation+PDB+SwissProt+PIR
released in the last 30 days.
swissprot.Z
The last major release of the SWISS-PROT protein sequence
database (no updates)
yeast.aa.Z Yeast (Saccharomyces cerevisiae) protein sequences.
ecoli.aa.Z
E. coli genomic CDS translations
pdbaa.Z Sequences derived from the 3-dimensional structure Brookhaven
Protein Data Bank
pataa.Z Protein sequences derived from the Patent division of GenBank
Nucleotide Sequence Databases
Nucleotide Sequence Databases
nt.Z
All Non-redundant GenBank+EMBL+DDBJ+PDB sequences (but no EST,STS, GSS, or HTGS sequences)
month.na.Z
All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days.
est.Z
Non-redundant Database of GenBank+EMBL+DDBJ EST Divisions
est_human.Z
Non-redundant Database of Human GenBank+EMBL+DDBJ EST sequences
est_mouse.Z Non-redundant Database of Mouse GenBank+EMBL+DDBJ EST sequences
est_others.Z Non-redundant Database of all other organisms GenBank+EMBL+DDBJ EST sequences
sts.Z
Non-redundant Database of GenBank+EMBL+DDBJ STS Divisions
htg.Z
High Throughput Genomic Sequences
yeast.nt.Z
Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences
ecoli.nt.Z
E. coli genomic nucleotide sequences
pdbnt.Z
Sequences derived from the 3-dimensional structure Brookhaven
Data Bank
vector.Z
Vector subset of GenBank, NCBI,
mito.Z
Database of mitochondrial sequences (Rel. 1.0, July 1995)
gss.Z
Genome Survey Sequence, includes single-pass genomic data,
exon-trapped sequences, and Alu PCR sequences.
patnt.Z
Nucleotide sequences derived from the Patent division of GenBank
igSeqNt Sequences in Ig sequences db (see IgBLAST page for details)

普段のblastnはnrデータベース(non-redundunt)に対しておこなっているので、てっきりnrをダウンロードするがいいのかと思っていましたが、nrデータベースはアミノ酸配列のデータベースのようです。non-redunduntの核酸データベースはntということなので、nt.Zをダウンロードすることにしました。ただ、問題は、nt.Zは2Gもあるということ。職場の自分のコンピュータでダウンロードしようとしたら、30kbps程度しかスピードが出ないので、自宅でダウンロード。80kbps程度のスピードが出たので、なんとか8時間でダウンロード終了。と、思ったら、ダウンロード終了したところでエラーが出て、涙。職場の他のコンピュータを使ったら、150kbps程度のスピードが出たので、5時間ほどでダウンロードできました。

ちなみに、ntやnrは容量が大きすぎるので、動作確認用にecoli.ntあたりの小さいサイズのファイルをひとつダウンロードしておくとよいようです。

結局、私はntとnrとecoli.nt(動作確認用)をダウンロードした後、解凍し、/bio/blast/dbというフォルダに保管しました。

 

■BLASTの設定-.ncbircの設定

さて、これから、BLASTの設定に移ります。README.blsというのが、設定に関するREADMEですから、これに目を通して下さい。これに沿って説明します。

まず、.ncbircというBLASTの設定ファイルを自分のホームディレクトリに作ります。.ncbircファイルはテキストファイルなので、通常のエディタ(たとえば、Jeditなど)で作れば良さそうですが、残念ながら、Mac OSXでは.で始まる名前のファイルは不可視になっているので、ターミナル上のエディタで編集する必要があります。あらかじめMac OSXで用意されているエディタは、picoとviとemacsです。多機能なのはviやemacsですが、ちょっとしたテキスト編集ならpicoでも十分です。

cd
pico .ncbirc

とすると、ホームディレクトリ上に.ncbircというファイルが作られ、pico上で開きます。そこで、

[NCBI]
Data=/bio/data
[BLAST]
BLASTDB=/bio/blast/db

という行を書き込みます。DataはBLASTを行うデータを入れておくフォルダ、BLASTDBはデータベースを入れておくフォルダです。もちろん、これは個々の環境で異なると思うので、それに併せて下さい。Ctrl+xを押したあと、yを押して、.ncbircファイルを保存します。

もしくは、エディタを使いたくなければ、

cd
echo "[ncbi]" > .ncbirc
echo "Data=/bio/data" >> .ncbirc
echo "[BLAST]" >> .ncbirc
echo "BLASTDB=/bio/blast/db" >> .ncbirc

でもいいです。

 

 

■BLASTの設定-コマンドパスの追加

次に、コマンドパスを追加します。これは、blastを起動するのに、いちいち「/bio/blast/blastall」とするのは面倒なので、「blastall」とするだけでblastが起動するようにします。そのためには、ホームディレクトリに.cshrcファイルをつくり(すでにあれば、そこに追加書き込みをする)、blastのパスを書き込みます。

再び、pico上で.cshrcを編集します。

cd
pico .cshrc

とすると、ホームディレクトリ上の.cshrcが開きます。なければ、自動的に作成されます。そこで、

set path=($path /bio/blast)

という行を書き込みます。Ctrl+xを押したあと、yを押して、.cshrcファイルを保存します。

もしくは、

cd
echo "set path=($path /bio/blast)" >> .cshrc

とします。

.cshrcは一旦ログアウトしないと有効になりません。

 

■データベースのフォーマット

ダウンロードしてきたデータベースはそのままではBLASTに使用できません。フォーマットをする必要があります。

cd /bio/blast/db
formatdb -i nt -p F -o T
formatdb -i nr -p T-o T
formatdb -i ecoli.nt -p F -o T


データベースによって、少しオプションが異なるので注意して下さい。 なお、すでにフォーマットされたデータベースをダウンロードすることもできるようです。

 

■動作確認

では、いよいよ動作確認です。まず、README.blsに書いてある、下のようなquery配列のテキストファイルを用意しておきます。改行コードはLFで作って下さい。

>Test
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATT
AAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCG
TGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACA
CAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATC
ACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAAC
ACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGAC
CAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCG
GTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTC
TCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGA
AAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATG
CCGAACGTATTTTTGCCGAACTTTT

動作確認には、まずサイズの一番小さなecoli.ntを使います。test.txtの入っているディレクトリに移動して、

blastall -p blastn -d ecoli.nt -i test.txt -o test.out

オプションの意味ですが、-pはblastの方法、-dは使用するデータベース、-iは問い合わせ配列の入ったファイル、-oは結果を打ち出すファイルです。

とコマンドを打ちます。一瞬でBLAST解析が終わり、test.outというファイルに結果が書き込まれます。私はこの瞬間感動しました。うまくいったら、他のデータベースもきちんと動くか確認してみて下さい。nt相手にBLASTをかけると、2-3分かかります。

というわけで、これでローカルBLAST環境ができあがったわけです。まだ、ありがたみが少ないかもしれませんが、次は、大量のシークエンスをいっぺんにBLAST解析するための方法について解説します。

 
 
 
     
更新記録

●2004年4月1日:新規掲載

home
MENUPREVNEXT