■BLASTプログラムのダウンロード
stand-alone BLASTのありかは
ftp://ftp.ncbi.nih.gov/blast/executables/
です。ここには、IRIX6.2, Solaris2.6 (Sparc) Solaris2.7 (Intel), DEC OSF1
(ver. 4.0D), LINUX/Intel, HPUX, MacIntosh, and Win32 systemsといった各種OS版のBLASTのバイナリー版があります。OSX用のものはblast.macosx.tar.gzのはずですが、見あたらない。どうやら、現在はblast.dawin.tar.gzとして公開されているようなので、これをダウンロード。50MBくらいでした。
BLASTはどこにおいてもいいのですが、私は、ルートの直下にbioというディレクトリを作って、ここにBioinfomatics関連のファイルを集めることにし、/bio/blast/の中にダウンロードしたblastをStuffitで解凍して放り込みました。もちろん、ターミナルでgunzip、tarを使って解凍してもいいです。
■BLAST用のデータベースのダウンロード
BLAST用のデータベースのありかは
ftp://ftp.ncbi.nih.gov/blast/db/
です。たくさん、データベースがあるので、READMEを見てみると、こんな感じでした。
Peptide Sequence Databases |
nr.Z |
All non-redundant GenBank CDS translations+PDB+SwissProt+PIR |
month.aa.Z |
All new or revised GenBank CDS translation+PDB+SwissProt+PIR
released in the last 30 days. |
swissprot.Z |
The last major release of the SWISS-PROT protein sequence
database (no updates) |
yeast.aa.Z |
Yeast (Saccharomyces cerevisiae) protein sequences. |
ecoli.aa.Z |
E. coli genomic CDS translations |
pdbaa.Z |
Sequences derived from the 3-dimensional structure Brookhaven
Protein Data Bank |
pataa.Z |
Protein sequences derived from the Patent division of GenBank
Nucleotide Sequence Databases |
Nucleotide Sequence Databases |
nt.Z |
All Non-redundant GenBank+EMBL+DDBJ+PDB sequences (but no EST,STS,
GSS, or HTGS sequences) |
month.na.Z |
All new or revised GenBank+EMBL+DDBJ+PDB sequences released
in the last 30 days. |
est.Z |
Non-redundant Database of GenBank+EMBL+DDBJ EST Divisions |
est_human.Z |
Non-redundant Database of Human GenBank+EMBL+DDBJ EST sequences |
est_mouse.Z |
Non-redundant Database of Mouse GenBank+EMBL+DDBJ EST sequences |
est_others.Z |
Non-redundant Database of all other organisms GenBank+EMBL+DDBJ
EST sequences |
sts.Z |
Non-redundant Database of GenBank+EMBL+DDBJ STS Divisions |
htg.Z |
High Throughput Genomic Sequences |
yeast.nt.Z |
Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences |
ecoli.nt.Z |
E. coli genomic nucleotide sequences |
pdbnt.Z |
Sequences derived from the 3-dimensional structure Brookhaven
Data Bank |
vector.Z |
Vector subset of GenBank, NCBI, |
mito.Z |
Database of mitochondrial sequences (Rel. 1.0, July 1995) |
gss.Z |
Genome Survey Sequence, includes single-pass genomic data,
exon-trapped sequences, and Alu PCR sequences. |
patnt.Z |
Nucleotide sequences derived from the Patent division of GenBank
|
igSeqNt |
Sequences in Ig sequences db (see IgBLAST page for details) |
普段のblastnはnrデータベース(non-redundunt)に対しておこなっているので、てっきりnrをダウンロードするがいいのかと思っていましたが、nrデータベースはアミノ酸配列のデータベースのようです。non-redunduntの核酸データベースはntということなので、nt.Zをダウンロードすることにしました。ただ、問題は、nt.Zは2Gもあるということ。職場の自分のコンピュータでダウンロードしようとしたら、30kbps程度しかスピードが出ないので、自宅でダウンロード。80kbps程度のスピードが出たので、なんとか8時間でダウンロード終了。と、思ったら、ダウンロード終了したところでエラーが出て、涙。職場の他のコンピュータを使ったら、150kbps程度のスピードが出たので、5時間ほどでダウンロードできました。
ちなみに、ntやnrは容量が大きすぎるので、動作確認用にecoli.ntあたりの小さいサイズのファイルをひとつダウンロードしておくとよいようです。
結局、私はntとnrとecoli.nt(動作確認用)をダウンロードした後、解凍し、/bio/blast/dbというフォルダに保管しました。
■BLASTの設定-.ncbircの設定
さて、これから、BLASTの設定に移ります。README.blsというのが、設定に関するREADMEですから、これに目を通して下さい。これに沿って説明します。
まず、.ncbircというBLASTの設定ファイルを自分のホームディレクトリに作ります。.ncbircファイルはテキストファイルなので、通常のエディタ(たとえば、Jeditなど)で作れば良さそうですが、残念ながら、Mac
OSXでは.で始まる名前のファイルは不可視になっているので、ターミナル上のエディタで編集する必要があります。あらかじめMac OSXで用意されているエディタは、picoとviとemacsです。多機能なのはviやemacsですが、ちょっとしたテキスト編集ならpicoでも十分です。
とすると、ホームディレクトリ上に.ncbircというファイルが作られ、pico上で開きます。そこで、
[NCBI]
Data=/bio/data
[BLAST]
BLASTDB=/bio/blast/db |
という行を書き込みます。DataはBLASTを行うデータを入れておくフォルダ、BLASTDBはデータベースを入れておくフォルダです。もちろん、これは個々の環境で異なると思うので、それに併せて下さい。Ctrl+xを押したあと、yを押して、.ncbircファイルを保存します。
もしくは、エディタを使いたくなければ、
cd
echo "[ncbi]" > .ncbirc
echo "Data=/bio/data" >> .ncbirc
echo "[BLAST]" >> .ncbirc
echo "BLASTDB=/bio/blast/db" >> .ncbirc |
でもいいです。
■BLASTの設定-コマンドパスの追加
次に、コマンドパスを追加します。これは、blastを起動するのに、いちいち「/bio/blast/blastall」とするのは面倒なので、「blastall」とするだけでblastが起動するようにします。そのためには、ホームディレクトリに.cshrcファイルをつくり(すでにあれば、そこに追加書き込みをする)、blastのパスを書き込みます。
再び、pico上で.cshrcを編集します。
とすると、ホームディレクトリ上の.cshrcが開きます。なければ、自動的に作成されます。そこで、
set path=($path /bio/blast) |
という行を書き込みます。Ctrl+xを押したあと、yを押して、.cshrcファイルを保存します。
もしくは、
cd
echo "set path=($path /bio/blast)" >> .cshrc |
とします。
.cshrcは一旦ログアウトしないと有効になりません。
■データベースのフォーマット
ダウンロードしてきたデータベースはそのままではBLASTに使用できません。フォーマットをする必要があります。
cd /bio/blast/db
formatdb -i nt -p F -o T
formatdb -i nr -p T-o T
formatdb -i ecoli.nt -p F -o T |
データベースによって、少しオプションが異なるので注意して下さい。 なお、すでにフォーマットされたデータベースをダウンロードすることもできるようです。
■動作確認
では、いよいよ動作確認です。まず、README.blsに書いてある、下のようなquery配列のテキストファイルを用意しておきます。改行コードはLFで作って下さい。
>Test
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATT
AAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCG
TGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAAC
CAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACA
CAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATC
ACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAAC
ACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGAC
CAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCG
GTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATA
TTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTC
TCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGA
AAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATG
CCGAACGTATTTTTGCCGAACTTTT |
動作確認には、まずサイズの一番小さなecoli.ntを使います。test.txtの入っているディレクトリに移動して、
blastall -p blastn -d ecoli.nt -i test.txt -o test.out |
オプションの意味ですが、-pはblastの方法、-dは使用するデータベース、-iは問い合わせ配列の入ったファイル、-oは結果を打ち出すファイルです。
とコマンドを打ちます。一瞬でBLAST解析が終わり、test.outというファイルに結果が書き込まれます。私はこの瞬間感動しました。うまくいったら、他のデータベースもきちんと動くか確認してみて下さい。nt相手にBLASTをかけると、2-3分かかります。
というわけで、これでローカルBLAST環境ができあがったわけです。まだ、ありがたみが少ないかもしれませんが、次は、大量のシークエンスをいっぺんにBLAST解析するための方法について解説します。
|