Google Scholar のベータ版が公開されて1年余りが経ちます。いまだ、ベーター版であるにもかかわらず、Google Scholarを利用している人の数はかなり増えているようで、最近、相次いでNew England Journal of MedicineとBritish Journal of Medicineに記事が掲載されました。High Wire Pressにホストされている844の学術雑誌にアクセスする検索エンジンの56.4%がGoogle、8.7%がPubMed、3.7%がGoogle Scholarとなっていて、Google Scholarも結構使われるようになっています(NEJM, 354:4-7, 2006)。また、BMJにアクセスした検索エンジンの1位はGoogle、2位はGoogle Scholarで、それぞれPubMedの10倍近い頻度であるとのことです(BMJ, 331:1487-1488, 2005 )。
このように、Google Scholarを使った検索はPubMedを使った検索と肩を並べるほどになってきました。とはいっても、これは研究機関に属さない一般の人の利用を含んだデータであり、医学生物学者が文献を調べるには、PubMedに圧倒的な優位がありますが、Google ScholarにはPubMedにはない機能もありますので、Google Scholarについてまとめておきたいと思います。
■Google Scholarとは
通常のGoogle検索では文献以外にもネット上のあらゆるドキュメントが検索対象になっていますので、学術情報以外の多くのノイズを拾ってしまいます。Google Scholarは検索対象を学術論文、学位論文、書籍、学術出版会社や学会、学術機関からの抄録や論文といった学術情報に絞ることで、インターネット上の学術情報に特化した検索エンジンとなっています。
■Google Scholarの機能
Google Scholarは非常にシンプルなインターフェースであり、Google同様、検索窓に検索語を打ち込んでボタンを押すだけです。検索結果は関連度が高い順にリストアップされると当時に各検索結果には次のようなリンクが提供されます。
- 引用回数の表示と引用文献へのリンク「cited by」。
- 著者名、論題からのキーワード抽出によるGoogle検索のためのリンク「Web Search」。
- その他、出版社該当論文サイトへのリンク、PubMed抄録形式へのリンク、図書館へのリンク、など。
Google Scholar の機能を理解するために、医学生物学系の文献検索データベースとして最もポピュラーなPubMedと比較してみましょう。
まず、根本的な違いとして、PubMedは掲載されている文献データが米国立医学図書館(National Library of Medicine)によって作成されており、人の手によって体系的に構築されたデータになっていますが、Google Scholarはインターネット上に公開されているドキュメント情報をロボットによって網羅的に自動で集めたデータベース(というより検索エンジン)であるということがあります。そのため、Google Scholarの検索結果の制度や提供情報の質には自ずと限界があるといえます。
検索対象ですが、PubMedが医学生物学型の学術論文に限っているのに対し、Google Scholarは医学生物学系に限らず、自然科学系、社会科学系のすべての学術ドキュメント(学術論文のみならず抄録や書籍、プリプリントドキュメントなどかなり幅広い)が対象になっています。また、PubMedの場合、収載誌がhttp://www.nlm.nih.gov/bsd/serfile_addedinfo.htmlに明らかになっているのに対し、Google Scholarの場合、明らかにされていません。実際問題として、Google Scholarは学術情報とはいえない小説なども引っかけてしまい、厳密に学術情報のみに対象を絞り込めてはいないようです。ただし、そのような情報はランキングで下位になるために実際には問題にはなっていません。
PubMedでは検索結果はすべて抄録へのリンクとなっており、抄録のページにフルテキストへのリンクが提供されています。Google Scholarにおいては、フルテキストが提供されている場合には、検索結果が直接フルテキストへのリンクになっています。フルテキストの閲覧権を持たないユーザーがアクセスした場合には、自動的に無料のアブストラクトページや論文購入ページなどへ誘導されるようになっています。
PubMedでは検索結果は出版年の新しいものからソートされてリストアップされますが、Google Scholarでは関連度の高い順引用回数順にソートされてリストアップされます。古い論文の方が比較的上位にランクされるため、この点は使いにくいですね。2006年4月20日に、「Recent articles」というソートオプションが追加されました。「Recent articles」を選ぶと、ランキングアルゴリズムが変更され、論文が発表された年や、最近発表された論文の中で多く引用されているか、などが考慮され、最近の研究動向が重視された並び順となります。
また、PubMedに最近実装された、RSS配信、e-mailアラートサービスなどの付加サービスは、Google Scholarには実装されていません。
以上のように、医学生物系の学術論文情報だけに絞るのであれば、PubMedの優位性は崩れませんが、ひとつだけGoogle ScholarにあってPubMedにはない機能があります。それが、文献の引用関係です。Google Scholarの検索結果にリストアップされる各文献データには、「Cited by」というリンクがついており、その文献が他のどの文献で引用されているか、また、他の論文に引用された回数が表示されます。この「Cited by」の機能がGoogle Scholarの大きな特徴です。この点について次項で詳しく見てみましょう。
■Google Scholarの「Cited by」
文献ごとの引用関係がわかるデータベースとしてはWeb of Scinceが有名です。雑誌ごとの掲載論文1報あたりの年間の平均引用回数を指標化したものはインパクトファクターとよばれ、近年では雑誌の優劣の重要な指標になっています。各論文ごとの引用回数や引用している論文へのリンクはWeb of Scienceの「Times Cited」機能で実現されており、Google Scholarの「Cited by」は機能としては同じものといえます。Web of Scienceの詳しい説明についてはこちらをご覧下さい。
引用情報が重要なのは引用回数自体が論文の重要性を判定するひとつの指標であるだけでなく、逆引き機能として利用できるという点です。たとえば、2000年に報告されたある論文に目を付けて、関連論文を探そうと思った場合に、2000年以前の関連論文は引用文献としてすぐに見つけることができます。しかし、2000年以降の関連論文を見つけるのは大変なことです。その場合、Web of Scienceの「Times Cited」のリンクやGoogle Scholarの「Cited by」のリンクをたどることで、その論文を引用している論文(2000年以降に報告された)を探せるのです。
Web of Scienceは契約料がとても高いデータベースで、 契約をしていない大学図書館も多いようです。無料で引用関係が調べられるデータベースは現在のところ、Google Scholarしかなく、その点だけでもGoogle Scholarの存在価値は高いといえます。
しかし、問題になるのは、Web of Scienceで計算された引用回数とGoogle Scholarで計算された引用回数が同じかという点です。 そこで、その点を実際の論文を使って検証してみました。検証に使ったのは私が書いた6つの論文で、2006.1.14現在での引用回数を示します。
|
Web of Science |
Google Scholar |
JASN, 13:1172-8, 2002 |
27 |
30 |
KI, 58:559-68, 2000 |
16 |
18 |
JASN, 11:65-70, 2000 |
25 |
10 |
KI, 53:296-30, 1998 |
18 |
16 |
BBRC, 239:527-533, 1997 |
70 |
54 |
JBC, 270:14700-14704, 1995 |
133 |
95 |
これを見ると、1つの例外を除き、Google Scholarの方が引用回数が少なく、検索対象として拾っている論文の数が少ないことがわかります。また、両者の差は論文によってかなりばらつきがあります。
どのような文献を引用文献としてリストしているのかを実際に眺めてみると、Web of Scienceの方が検索対象の雑誌の範囲が広いだけでなく、Google Scholarの場合は、JASN, 11:65-70, 2000 を引用している論文がKI誌に複数あるにもかかわらず、ひとつしかリストアップしていないということがわかりました。つまり、Google Scholarの検索範囲は必ずしも雑誌単位ではないということです。現時点でのGoogle Scholarの「Cited by」に示される数は、正確な引用回数として使えるようなものではなく、あくまでも目安に過ぎないと言えます。
Google ScholarのCited byがより正確な指標になるためには、Google Scholarがどのような論文を検索対象としているのかがきちんと公開されないといけないでしょう。ただし、Web of Sceinceが使えないという人も多く、Google Scholarは無料で提供される引用関係を含むデータベースとして貴重なデータベースであることには違いがありません。
■全文検索であることのアドバンテージ
と、ここまで書いて、Google ScholarがPubMedやWeb of Scienceに対して大きなアドバンテージが一つもっていることを書きそびれていたことに気づきました。
それは、PubMedとWeb of Scienceが主にabstractを対象にして検索をかけているのに対して、Google Scholarは全文を対象にして検索をかけているという点です。 たとえば、実験で使う特定の試料について調べる場合などに大きなアドバンテージになります。一つ例を挙げてみましょう。
Covance社が出している抗Cre recombinase抗体を使った論文を調べたいと思って、「cre antibody covance」で検索をかけてみます。PubMedでは一つも文献が引っかかりませんが、Google Scholarでは251件もひっかかります。もちろん、Googleを使ってもいいのですが、Googleそのものを使ってもいいのですが、文献だけに絞って検索したいという場合は、Google Scholarはとても有効です。
■まとめ
引用関係を調べるためのデータベースとしてGoogle Scholarを使うかと聞かれれば、ほとんど使わないと答えますが、それは現在、引用関係を調べるためのデータベースとしてはWeb of Scienceが自由に使えるという恵まれた立場にあるからで、使えなくなれば、Google Scholarを使う機会は増えるでしょう。また、全文に対する検索であるというアドバンテージがあるので、PubMedやWeb of Scienceとうまく使い分けていくとよいでしょう。