2009.07.06

医家向け電脳道具箱その七「インパクトファクターで研究者の業績評価ができるか」

■インパクトファクターは研究業績評価に本来用いるべきではない

近年、研究業績の評価にインパクトファクター(IF)が用いられることが多くなってきた。研究機関の独立行政法人化により数値目標の設定が求められたことがIF偏重の背景であるともいわれている。その年に発表した論文の掲載紙のIFの合計点を報告させ、それによって業績評価をしている大学もあるという。しかし、「IFの合計点」とはいったい何を意味しているのであろうか?

前回のIFの説明を理解していただければわかると思うが、IFはジャーナルの評価であり、そこに掲載されている論文の直近2年間での平均被引用回数である。掲載されている個々の論文のインパクトをあらわしているのではない。一つ例を挙げる。New England Journal of Medicineの2005年のIFは44.016であるが、2002年第1号に掲載された原著論文4報の被引用回数は表1の通りである。2003年と2004年の被引用回数の平均値(つまり、各論文あたりの2005年のIF)は11、13、50、90.5とばらつきが大きいことがわかる(おもしろいことに、4つの論文の平均は41.125でIF44.016にかなり近くなるが、、、)。このように、掲載される論文の被引用回数とIFは必ずしも一致しないので、自分の書いた論文の掲載誌のIFを合計すること自体ナンセンスである。IF生みの親であるEugene Garfield博士は、引用分析を個人の研究活動評価に応用すべきでないと主張してきた。トムソンサイエンティフィック社FAQ(http://www.thomsonscientific.jp/products/jcr/support/faq/)にも、「インパクトファクターを単純加算しても、個人や研究機関の業績を客観的に示すことはできません。むしろ、雑誌あたりの平均的な尺度であるインパクトファクターを用いた場合、優れた研究業績を過小評価してしまう恐れがあります。」とある。

表1.New England Journal of Medicine 2002年第1号に掲載された原著論文4報の被引用回数(Web of Science、2007年6月時点)

  2003年 2004年
Quainiらの論文 93 88
Csernanskyらの論文 44 56
Chandlerらの論文 13 13
Skjaervenらの論文 10 12

 

■「インパクトファクターの合計点」が意味するものは何か?

IFの本来の意味合いから考えると、「IFの合計点」自体意味のないものとなるが、たとえば、ある年の業績で、IF10点のジャーナルに5報の論文を載せた研究者(IFの合計点50点)と、IF2点のジャーナルに5報の論文を載せた研究者(IFの合計点10点)を比べた場合どうであろうか?両者の業績に明らかな差があると考える人がほとんどなのではないだろうか。そう考えると、「IFの合計点」自体にまったく意味がないともいえない。定評のあるジャーナル(IFが高いジャーナル)に論文が掲載されたことを実績とするのであれば、それなりの意味を持っていると言える。

では、「IFの合計点」が意味するものをどのように理解したらよいか?ひとつのとらえ方として、「今後1年間に引用される回数の期待値の合計」と考えることができる。つまり、IF10のジャーナルに5報掲載されれば、今後1年間に50回引用されることが期待できる。したがって、IFを合計することは薦められないが、IFの合計点が決して意味がないわけではない。IFの合計点をあたかも客観的な指標であるかのように振り回すのは問題であり、業績を「英文5報」と書くよりは、「IF7点のジャーナルに2報、IF5点のジャーナルに3報」と書いた方がマシといった程度の認識であれば、研究者の業績評価にIFを用いてもよいのではないかと私は考える。

ただし、これも単年度の評価という限定が必要である。IFは毎年算出されるものであるから、1つのジャーナルにおいてもIFは変動しうる(表2)。表にある著名な雑誌でも6年間の間にIFが5割近く変動するようなこともある。したがって、過去の業績に言及するなら、掲載されたときのIF値にさかのぼる必要がある。

表2.主な雑誌の1999年と2005年のIF値の変動(Journal Citation Reportsによる)

  1999年のIF 2005年のIF
Journal of Clinical Investigation 10.921 15.053
Journal of Biological Chemistry 7.666 5.854
Cell 36.242 29.431
New England Journal of Medicine 28.857 44.061

また、IFの値そのものも様々な問題があることは前回述べたとおりである。学問領域によってIFが異なる、総説が多い雑誌ほどIFが高くなる、Self Citeによって意図的にIFを高くするケースがある、IFを算出する分子・分母の取り方によって不公平感が生じうる、といった問題である。総説の多いジャーナルでは、IFが高くなる傾向があるので、そのようなジャーナルに掲載された原著論文の被引用回数の期待値はIFより実際には小さくなる。もう一つの問題として、そもそもIF10のジャーナルに1回掲載されるのと、IF2のジャーナルに5回掲載されるのとどちらがよいのかという根本的な問題がある。

以上まとめると、IFの合計点には様々な問題があるので、それを理解した上で一つの目安として使うことは出来るが、それを客観的・絶対的な指標と考えるのは間違いであると言える。

 

■Web of Scienceで個々の論文の被引用回数を調べることができる

「期待値」というのは「業績」にはなじまない指標である。IF以外に業績を定量的に評価する方法はないのか?たとえば、2人の研究者のこれまでの業績を比較する際に使えるような指標はないのか?それには、各論文がどのくらい引用されたのかを実際に調べるのがよいと思われる。Science Citation Index内部には個々の引用関係が記録されており、個別の論文の引用状況、被引用回数を調べる方法がある。それを調べることができるのがWeb of Scienceである。

Web of Scienceの閲覧は施設ごとの契約が必要である。現在、日本国内での契約施設は100弱程度であり、どの研究機関でも閲覧できるわけではないが、個別の論文の引用情報を得るには、なくてはならないデータベースである。

Web of Scienceで各論文の被引用回数を調べるには、Cited Ref Searchを用いる方法と、General Searchを用いる方法があるが、ここでは、General Searchを用いた方法を紹介する。たとえば、私の論文をすべて検索しようとすれば、General Searchの検索画面で、Authorの欄に、「Monkawa T*」と入れて検索するだけである。Authorに「Monkawa T」が含まれている52件の論文がヒットする。各論文の下に書かれている「Times Cited:132」というのが被引用回数であり、この論文が132回引用されたことを示している(図1)。さらに、その数字をクリックすれば、引用した論文のリストを一覧として見ることが出来る。

このようにWeb of Scienceを使って被引用回数を調べ、業績リストに付記すれば、業績を定量的に評価することが出来るようになると考えられる。ちなみに、Endnoteを使って、Web of Scienceから自動的に被引用回数付き業績リストを作る方法がある。紙面の限りがあるので、ここでは紹介しないが、興味のある方は研究留学ネットの記事「被引用回数付きの業績リストの作り方」(http://www.kenkyuu.net/computer-15.html)をごらんいただきたい。

この被引用回数付きの業績リストにも気をつけなければいけないポイントがある。一つは、主題領域によって被引用回数が異なるということである。前回の記事でも述べたが、平均IFの絶対値は主題分野によって著しく異なることが知られている。したがって、異なる主題領域のジャーナルのIFを比べることは意味がないと考えられている。逆に言えば、同じ領域の研究者であれば、被引用回数付きの業績リストを用いた比較は可能であるということである。

もう一つの致命的な欠点は、被引用回数で比較すると、古い論文ほど被引用回数が多くなり、新しい論文ほど少なくなる、ということである。特に、最近1〜2年に出版された論文は多くの場合、被引用回数はゼロになってしまう。したがって、最近インパクトのある仕事をしていても正しく評価されない。この部分を補足するために、被引用回数の横に、参考値として掲載誌のIFを付記するのがいいであろう。つまり、IF値を被引用回数の期待値として使うわけである。

以上まとめると、2人の業績を比べる際に、同じくらいの年齢で、同じ領域の研究者であれば、被引用回数を付記した業績リストはかなり有力な評価ツールとなる。その際、最近の業績には、掲載誌のIFを付記するといいであろう。

 

■Citation Reportは個人の業績を多角的に評価できるツール

2006年9月にWeb of ScienceにCitatioin Reportという機能が追加された。Citation Reportは、個人の業績評価の強力なツールであり、多角的な個人の業績評価が可能である。Web of Scienceで調べたい人の論文リストを作製し、Citation Reportボタンを押すことで、Citation Report機能が閲覧できる。そこでは、各論文の経年的な被引用回数、総被引用回数、1年間の平均被引用回数とともに、グラフ化された出版論文数の経時的推移、被引用回数の経時的推移が表示される。他にも、総被引用回数、論文あたりの平均被引用回数、h-indexなどが自動的に計算される(図2)。

この中に登場するh-indexについて説明しておく。h-indexは物理学のJ. E. Hirschが提唱した指数(PNAS, 102:16569-16572, 2005)で研究者の業績を算出するひとつの指数であり、インパクトのある論文を多く書いているほど、h-indexは大きくなる。h-indexの算出は以下のようにおこなう。自分の論文を被引用回数の順番に並べ、論文の順位が被引用回数を上回った順位をh-indexとする。たとえば、ある研究者の論文の被引用回数が以下のようだったとする。

1. 被引用回数150
2. 被引用回数140
3. 被引用回数125
4. 被引用回数110

30. 被引用回数32
31. 被引用回数30

この場合、この研究者のh-indexは31ということになる。h-indexは、若い研究者の場合、低めに出るし、研究分野によって大きく異なるので(生命科学は高い値が出やすい)、絶対的な指標とは言えないが、研究者を評価する一つの指標として使われることもあるようだ。

 

■同名異人問題への対応

業績評価のツールとしてWeb of Scienceが有用であるという話をしたが、ひとつ難しい問題がある。それは、同名異人問題である。私のような珍名であれば、一発で、自分の論文のリストが探せるが、Suzuki TやTanaka Aといった名前の場合、自分の論文を探したつもりでも、多くの異人の論文もリストされてしまう。Web of Sceinceでは一つの対策として、2006年からfull nameでの入力を始めたが、それ以前のデータはfull nameが入っていないままである。

Web of Scienceでは同名異人問題に対応するため、DAISという新しい機能をつけた。DAIS(Distinct Author Identification System)機能は、所属機関や共著者のパターン、学問領域などをもとに、同じ著者によって書かれたと思われる論文をクラスタリングする機能である。残念ながら、現時点では、まだ実用レベルにまでは達していない。特に引用数の少ない研究者のクラスタリングの精度が低い。しかし、本人からのフィードバックを受け付けており、フィードバックによって徐々に精度が向上していくと考えられる。また、引用回数が非常に多い研究者には、「Highly Cited Author」のリンクがつき、本人が文献をリストするISI Highly Cited.comへとナビゲートされる。

近年、ScopusやGoogle Scholarといった後発の引用文献データベースもWeb of Sienceに猛追をかけているが、インパクトファクターの算出基準を決めているのがトムソンサイエンティフィックと言うこともあって、まだまだWeb of Scienceの優位は揺るがないと思われる。

 

以上、医学のあゆみ222巻3号「インパクトファクターで研究者の業績評価ができるか」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2009.07.05

医家向け電脳道具箱その六「インパクトファクターを正しく理解する」

ちょっと、時間があきましたが、医家向け電脳道具箱第六回分を掲載します。

近年、インパクトファクター(IF)の過熱感がある。それはジャーナル編集者、研究機関、研究者においてもである。しかし、2005年にトムソンサイエンティフィック社が実施した「IFのことをどのくらい知っているか」というアンケートでは、IFの計算方法を知らない人が43-60%、IFのデータソースを知らない人が45-60%いた1)。IFという数字が一人歩きしている状態であり、その中で、IFの明らかな誤用、拡大解釈も見られる。本コラムでは、IFを正しく理解するとともに、IFの限界について考えてみたい。

 

■そもそもIFとは?

論文の被引用回数(他の論文に引用された回数)は、その論文が該当分野に与えた影響度やインパクトをはかる指標として使うことが出来る。Eugene Garfield博士は論文の引用情報に注目し、Institute of Scientific Information社(現トムソンサイエンティフィック社)を創設し、引用索引データベースであるScience Citation Index(SCI)に文献の引用情報を蓄積してきた。IFは、その引用索引データベースの情報を元に、「ある雑誌に過去2年間に掲載された論文の被引用回数の平均値」を計算したものである。その値が大きい方が、より引用されやすく注目度の高い論文を多く掲載していると考えられる。具体的には、2005年のIFは次の計算式で算出される。

2005年のIF=(2003年と2004年に掲載された論文が2005年に引用された総被引用回数)/(2003年と2004年に掲載された論文総数)

たとえば、Journal of American Society of Nephrologyという雑誌は、2003年に401編、2004年に363編の論文を掲載しているが、2005年にそれらの論文が、3175回と2356回引用された。したがって、

2005年のIF=(3175+2365)/(401+363)=7.240

ということになる。IFの計算式を見てわかるように、IFは2年間という短期間のあいだに引用された回数で計算しているので、すばやく影響力を与えるような雑誌の方が値が高くなる傾向があり、長年にわたって少しずつ引用されるような雑誌は相対的に値が低くなる。

 

■IFはどうやって知ることができるのか?

トムソンサイエンティフィック社が長年にわたって蓄積してきた文献引用情報は、現在Web of Scienceとして提供されている。Web of Scienceに蓄積された引用情報をもとに、年に一度、雑誌単位のデータとして抽出、再計算したものがJournal Citation Reports(JCR)である。したがって、各雑誌のIFを見るためには、JCRを閲覧する必要がある。JCRは有料で、CD-ROM版またはWebでの閲覧権という形で販売されている。したがって、IFを知りたい場合は、所属機関がJCRを購入しているか尋ね、JCRへのアクセス方法を教えてもらうと言うことになる。

実際にJCRで、Journal of American Society of Nephrologyのレポートを見たのが図1である。IFはあるジャーナルの引用指標に関するひとつの指標に過ぎない。JCRでは、IFとともに、Immediacy Index、Cited Half-Lifeが引用指標の3基本指標と考えられている。IFは、先ほど述べたように、直近2年間に掲載された論文の平均被引用回数である。Immediacy Indexは、最新1カ年のIFであり、この値の大きい雑誌はニュース性が高い雑誌ということになる。Cited Half-Lifeは、ある雑誌が引用されている文献の半減期であり、大きいほど長く引用される論文が多いということを意味する。さらに、JCRではグラフ化された被引用の年ごとの推移などを見ることが出来る。

また、JCRでは、特定の雑誌の引用情報やIFを見るだけでなく、カテゴリーごとにIFの一覧を見ることが出来る。たとえば、私の研究分野の「Urology&Nephrology」というカテゴリーを選ぶと、51のジャーナルの一覧が現われる。これをIFの高い順にソートすることによって、各雑誌のその領域におけるIFによるランクを知ることが出来る(図2)。

 

■IFの限界

インパクファクターに対する最大の誤解は、IFがその雑誌の絶対的な評価と考えられてしまうことである。ここでは、IFの限界について考えてみたい。「IFが雑誌の評価として問題がある」と批判する人が指摘するのは
(1)学問領域によってIFが異なる
(2)原著より総説の方がIFが高くなる
(3)Self Citeの問題
(4)分子/分母問題
などの点である。これらの点について考えてみる。

 

■学問領域によってIFが異なる

平均IFの絶対値は学問領域によって著しく異なることが知られている。表1は2005年のJCR Science Editionから内科関連の学問領域のカテゴリーを抽出して比較したものであるが、Gerontologyは2.471に比べるとHematologyは5.111とかなり高い。これは学問領域の活発さやレベルの高さだけではなく、分野によって学術文献の引用頻度や慣習が異なっていることによる。したがって、異なる主題領域の雑誌のIFを比べることは意味がないと考えられている。逆に言えば、同じ領域の研究であれば、IFを用いた比較は可能で有効である。したがって、ある領域でどのジャーナルに論文を投稿するか、といった指標としてはIFは有効であると言える。

表1. 内科関連の学問領域別IFの平均値(出典JCR Science Edition 2005)

Category Aggregate Impact Factor
HEMATOLOGY 5.111
MEDICINE, GENERAL & INTERNAL 4.35
RHEUMATOLOGY 3.93
ENDOCRINOLOGY & METABOLISM 3.746
CARDIAC & CARDIOVASCULAR SYSTEMS 3.603
NEUROSCIENCES 3.552
MEDICINE, RESEARCH & EXPERIMENTAL 3.439
INFECTIOUS DISEASES 3.434
GASTROENTEROLOGY & HEPATOLOGY 3.332
ALLERGY 3.213
RESPIRATORY SYSTEM 2.999
UROLOGY & NEPHROLOGY 2.698
GERIATRICS & GERONTOLOGY 2.471

 

■レビュー誌の方がIFが高くなりやすい

2005年のJCR Science Editionに基づいてIFランキングを作る(表2)とトップ10のうち、6誌がレビュー誌が占めており、Nature誌はトップ10からこぼれ落ちる(11位)。一方、どう考えても1位と考えられないCA:A Cancer Journal For Clinicians誌がトップになっている。総説は、一般的に、引用を受けやすいという傾向があり、しかも、総説だけを掲載するレビュー誌は掲載文件数が少なく、IFが高くなりやすいという傾向がある。レビュー誌でなくとも、原著論文数に対して、総説の掲載数が多い雑誌はそれだけでIFが高くなる傾向がある。したがって、異なるタイプのジャーナルを比較する際には、文献タイプの構成割合がどうであるのかを考慮しなければいけない。JCRでは、各雑誌の文献の構成が明らかになっている。たとえば、NEW ENGL J MEDはIF 44.016であるが、掲載論文308のうち総説が47(15.3%)といった具合である。

表2. 2005年のIF上位10誌(出典JCR Science Edition 2005)

Rank Title Impact Factor
1 CA-CANCER J CLIN 49.794
2 ANNU REV IMMUNOL 47.400
3 NEW ENGL J MED 44.016
4 ANNU REV BIOCHEM 33.456
5 NAT REV CANCER 31.694
6 SCIENCE 30.927
7 NAT REV IMMUNOL 30.458
8 REV MOD PHYS 30.254
9 NAT REV MOL CELL BIO 29.852
10 CELL 29.431

 

■Self Citeの問題

倫理的な問題を含む問題として、Self Citeの問題がある。ジャーナルの編集者が自誌のIFを上げたいと思えば、投稿者に対して、自誌の論文をできるだけ引用することを強制することで、数字上のIFを上げることが可能である。このSelf Citeの奨励に関しては、これまでたびたび問題になっている。Leukemia誌が投稿者に自誌の引用を強制していることをライバル誌のLeukemia Research誌の編集者がBMJ誌上で告発した。Leukemia誌では自誌引用率が(1997年34/563)、Leukemia Research誌(1997年5/365)であり、確かに、Leukemia誌の方が高かった。JCRを見れば、Self Citesははっきりと見えるようになっている(図3)。もちろん、インパクトの高いジャーナルほど引用される率は高いのであるが、不自然にSelf Citeが多かったり、投稿者に強制しているとすれば問題である。

 

■分子/分母問題

IF算出の対象となる文献の種類に関しては大きな問題になっている。ジャーナルには、原著論文や総説の他にも多くの文献が掲載されている。編集者への手紙、論説、短い抄録論文などを掲載論文としてカウントするか、それに対する引用をどのように扱うのか、また、文献タイプをどのように判定するかは大きな問題である。SCIでは文献を原著論文(Article)、総説(Review)、その他(Others、編集者への手紙、論説、ニュース記事、会議録)に分けてカウントしている。IF計算用の分母になるのは「論文」と「総説」だけだが、分子としては、すべての文献(論説、ニュース記事、編集者への手紙なども含めて)への引用がカウントされる。

この計算方法では、ジャーナルの構成によって不公平感が出ることがある。例えば、会議録の抄録を参考文献として上げることを認めるかどうかである。雑誌によって、規定は異なるが、多くの雑誌が認めるとなると、会議録の抄録が掲載される学会誌のIFは、分子のみが大きくなり、分母は不変なので、IFは高くなると考えられる。

 

■IFだけで判断せず、多角的に見る必要がある

IFはあくまでもジャーナルの評価指標のうちひとつであり、その数字でジャーナルの絶対評価が決まるようなものでもないというのが結論である。トムソンサイエンティフィック社はIFのみを公開したり、販売したりせず、JCRによって多角的にジャーナルを評価して欲しいと考えている。JCRで各雑誌のデータを見れば、どの程度のSelf Citeがおこなわれているか、総説の割合がどの程度か、掲載論文数がどの程度かがわかる。そこまで見ないとジャーナルの評価はできない。また、逆に言えば、経験的にはインパクトファクタの差が25%以内の雑誌は同一ランクに属していると考えてよいといわれており、あまり小さなIFの差にまで気にするのは、やり過ぎといってよいだろう。

次回は、「インパクトファクターで研究者個人の評価ができるか」というテーマを考えてみたいと思う。今回、IFに関する多くの資料や助言を頂いたトムソンサイエンティフィック社広瀬容子氏、矢田俊文氏に感謝いたします。

参考文献
1)棚橋佳子、薬学図書館50;230-234, 2005
2)「インパクトファクターを解き明かす」山崎茂明, 2004

以下も参考になります。
インパクトファクター関連論文
トムソンサイエンティフィック社FAQ

 

以上、医学のあゆみ221巻10号「インパクトファクターを正しく理解する」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.06.18

医家向け電脳道具箱その五「ソーシャルブックマークの可能性」

医家向け電脳道具箱第五回分を掲載します。

■ソーシャルブックマークとは?

ソーシャルブックマークは、この1,2年で急速に普及した新しいwebサービスの一つである。

よく見るwebサイトのアドレスをブラウザに登録することをブックマークという。Internet Explorerであれば「お気に入り」に登録することである。しかし、自宅と勤務先で違うコンピュータを使っていたりすると、二つのコンピュータのブックマークを同期させておくのは、意外と面倒である。そこで、10年くらい前から、オンラインでブックマークを保管できるサービスがあった。自分のアカウントを作って、そこにブックマークをためておけば、インターネットを通じてどこからでも同じブックマークにアクセスできるというのが魅力であり、一定数のユーザーの人気を集めていた。

ソーシャルブックマークは、このオンラインブックーマークを一歩進めたサービスである。自分のオンラインブックマークを公開し他人と共有することで、あらたなコミュニケーションツールとして新しい可能性を生み出し、この1,2年でブレイクした。

ソーシャルブックマークサービスは、たくさんの会社が始めているが、世界的に見れば、ソーシャルブックマークの草分けである「del.icio.us」(図1)が有名である。国内では「はてなブックマーク」(図2)の人気が高い。

 

■ソーシャルブックマークがなぜブレイクしたか?

なぜ、自分のオンラインブックマークを公開し共有するだけで、新たなコミュニケーションツールとしての可能性が生まれるのか?私も愛用しているはてなブックマークを例にとって説明したいと思う。

はてなブックマークを始めるためには、まず、アカウントを作る必要がある(無料)。自分が興味を持ったwebサイトや記事があれば、ブックマークレットという仕組みを使って、簡単にはてなブックマークに登録ができる。通常のブックマークだとwebサイトのトップページを登録することが多いと思うが、ソーシャルブックマークではwebサイトのトップページを登録するよりは、各記事を登録することが多い。

登録する際には、自由にタグを付けることができる。[研究留学]とか[Mac]とか[医学情報データベース]とかつけて、自分なりのカテゴリ分けをするわけである(図3)。[あとで読む]というタグをつけて、時間のあるときにゆっくり読むために保存している人も多い。また、タグ以外にも自由にコメントを付けることができる。タグやコメントはオプションなので必ずしも付ける必要はないが、有効にソーシャルブックマークを使うなら付けておいた方が便利である。以上でブックマーク登録は終了である。

自分のブックマークは非公開にして、「ただのオンラインブックマーク」として利用することもできるが、多くの人が自分のブックマークを公開することによってソーシャルブックマークの本来の目的が達成される。他人のブックマークを覗くことで、似たような興味を持った人がどのような記事をブックマークしているのかを知ることができ、情報が飛躍的に広がるのである。たとえば、自分のブックマークの中で、他の人が同じwebサイトや記事をブックマークしていれば、そのことが表示される(何人が登録しているかという数字が表示される、図4)。誰がブックマークしているかもわかり、その人の名前をクリックすれば、その人のブックマークの一覧が表示される。同じ記事をブックマークしているということは、興味が重なっているわけであるから、その人のブックマーク一覧を見ることによって新しい発見をする可能性がある。

ソーシャルブックマークのもう一つの新しい側面は、ブックマーク数がひとつの注目度の指標になってきているということである。はてなブックマークでは、それぞれの記事において何件のブックマークが付けられているのかが表示される。何十人という人がブックマークを付けている記事はかなり注目度の高い記事であるといえる。はてなブックマークのトップページでは、日替わりで「最近の人気エントリー」「注目のエントリー」が表示され、たくさんのブックマークが付けられた記事を知ることができる。

この機能を使うと、あるブログの中で一番人気の高い記事を探すということもできる。たとえば、私が書いている研究留学ネットの中で、ブックマークされている数に基づいて人気の高い記事のランキングを作ることができる。URIにhttp://b.hatena.ne.jp/entrylist?sort=count&url=http://www.kenkyuu.net/
と入力することで、ブックマーク数の多い順に記事を並べることが出来る。トップページがもっとも多く(35)ブックマークされているが、次は、「研究者のためのコンピュータフォーラム [論文PDFファイルの整理方法]という記事が15ブックマークで人気があることがわかる。

また、コメントという機能を使って、ある記事に対して大勢の人がコメントを付けることによって、コミュニケーションツールとしても広がっていく可能性があり、まさにWeb2.0的サービスと言える。

 

■学術論文に特化したソーシャルブックマークサービス〜CiteULikeとConnotea

実は、学術論文に特化したソーシャルブックマークサービスがある。そのひとつがCiteULike日本語版 )(図5)である。CiteULikeはRichard Cameronという研究者が、開発し、無料サービスとして提供しているものである。CiteULikeが普通のソーシャルブックマークと違って、「学術論文専門」を名乗っているのは、学術論文データベースから、書誌情報を抜きだしてくる機能があるからである。たとえば、PubMedを使って、興味のある論文を見つけたとする。通常のソーシャルブックマークでブックマークしても、タイトルは「Entrez PubMed」となってしまい、コメント欄に、論文のタイトルや著者名を自分で打ち込まなければならない。しかし、CiteULikeは論文のタイトル、著者名、など書誌情報を自動的に取り込んでくれるので、ブックマークの一覧はあたかも文献データベースのようになる。しかも、ソーシャルブックマークであるので、公開し他人と共有することができる(非公開を選ぶこともできる)。PubMed以外にもScopusやNature誌、Science誌、Amazonなど多くの文献データベースや出版社のサイトに対応している。

自分の文献データベースを作る以外にも、いくつかの便利な使い方がある。気になる論文だけれど、abstractを読んでいる暇がないというときは、CiteULikeでブックマークしておく。そして後で時間ができたときに読むという使い方もある。また、同じ研究グループの人たちでブックマークを共有するという使い方もある。コメントを付けることができるので、各人がコメントを付ければ、簡単な輪読会のようなものにできる可能性もある。このように、文献情報に特化したソーシャルブックマークというのも大きな可能性を持ったwebサービスであるといえる。

CiteULikeは個人が運営しているという点では、このサービスが今後も安定して継続されるのか少し不安がある。一方で、ConnoteaもCiteULikeと同じ文献情報のソーシャルブックマークであるが、こちらはNature Publishing Groupが運営している。

 

■学術論文のソーシャルブックマークの可能性

CiteULikeとConnateaは、ソーシャルブックマークの便利さや楽しさを知った人には非常に魅力的なサービスといえる。しかし、現時点で、これら学術論文のソーシャルブックマークがうまくいっているかと聞かれれば、Noと答えざるを得ない。その最大の理由は、参加者数が少ないために、「ソーシャル」の魅力が引き出せていないことによる。Bioinfomaticsなどの分野ではそこそこの参加者を集めているようだが、私の専門分野の腎臓内科学などは参加者が少ない。ソーシャルブックマーク自体ブレイクしたとは言え、私の周りでも愛用している人というのにはなかなかお目にかからない。さらに学術論文に特化したソーシャルブックマークとなると、普及するにはまだ時間がかかるかもしれない。でも、この記事を読んだ方で興味を持たれた方がいれば、一度ご自分で使ってみて頂きたい。

 

■医学情報においてWeb 2.0時代はやってくるのか?

ソーシャルブックマークはWeb 2.0的なサービスの代表的なものであるが、医学情報においても今後Web2.0的なサービスが増えてくるのだろうか。現時点では医学情報においてはほとんどWeb2.0的サービスは存在していない。

少し私見を述べさせてもらう。Web2.0においても最も重要なのは集合知であると考える。これまでは少数のauthorityによる情報で構成されていた知識が、インターネットを介して、多数の非権威者の知識を集めることによって代替可能、もしくは、よりすぐれたものになり得るという考え方である。玉石混淆の知識の中にはある程度の不正確な情報も含まれる可能性もあるが、それらも許容し、情報にランキングを付けることによって、それをカバーする。情報にランキングを付ける方法としては、閲覧数だったり、権威のあるサイトからのリンクであったり、ユーザーからの評価であったりする。しかし、医学情報の場合、たとえ少数であろうとも不正確な情報を許容することは難しいという側面がある。集合知という観点から見れば、Wikiは代表的なWeb2.0サービスといえる。最も代表的なWikiであるWikipediaにおいても医学情報の頁には「医療情報に関する注意:ご自身の健康問題に関しては、専門の医療機関に相談してください。」とのコメントがついている。このことを見ても、まだまだ医学情報においては、Web 2.0サービスが増えてくるには時間がかかると多くの方が思われるであろう。

2006年にNature誌が試みた新しい査読システムのテストをご存じであろうか?最もインパクトの高い学術誌、Nature誌においてopen peer reviewという査読システムが試験運用された。論文がインターネット上に公開され、誰でもコメントをつけてよりという、まさにWeb2.0的な査読システムであった。残念ながら、思ったほど多くのコメントを集められなかったという意味では成功はしなかった。しかし、今後、我々が思いもよらないスピードでWeb 2.0的サービスが医学の世界でも普及するのかもしれない。

以上、医学のあゆみ221巻7号「ソーシャルブックマークの可能性」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.04.18

医家向け電脳道具箱その四「最新論文を見逃さないための小道具達」

だいぶ時間があいてしまいましたが、医家向け電脳道具箱第四回分を掲載します。

■RSS~ネットサーフィンはもう古い

RSSという言葉を聞いたこともあるだろうか。RSSとは、更新情報を利用者に通知するための仕組みである。RSSには、RSS1.0、RSS2.0、Atomといった異なるバージョンがあり、やや混乱している側面もあるが、blogが流行するとともに、RSSは広く使われるようになってきている。学術雑誌でもNature、Science、New England Journal of Medicineをはじめ、RSSによって最新記事の要約の配信をしているジャーナルが出てきている。

RSSの実体は、更新情報の概要をまとめたXMLファイルであり、サイト運営者は、このファイルをwebサイトにおき、利用者はRSSリーダーを用いてWebサイトの更新情報を取得できる。RSSリーダーは定期的に登録したRSSフィードを見に行ってRSS情報を取得する。利用者はRSSリーダーを見ることによって、複数サイトのうち更新のあったサイトの更新情報の要約を一覧として見ることができる。昔は自分のお気に入りのブックマークを作り、ブックマークを次々とクリックしてネットサーフィンをするというのが一般的だったが、現在はRSSリーダーを使うことでネットサーフィンしないで複数のサイトの新着情報を一度にチェックできるようになった。

RSSの最大のメリットはこのように新着情報をまとめて一覧できるということであるが、その他にもいくつかのメリットがある。webサイトの新着情報をメールで知らせるというサービスに比べると、新着情報をRSSで受け取ることは、たくさんのスパムメールに悩まされていて、少しでも受け取るメールを減らしたいという受け手側のメリットになる。また、発信者のメリットとしては、メールアドレスのような個人情報を管理しなくてもよいという点がある。自分でwebサイトを運営するような場合には、RSSから取得した新着情報を自分のwebサイトに貼り付けるという利用の仕方もできる。農林水産研究情報センター(http://ss.cc.affrc.go.jp/ric/home.html)のサイトなどはそのいい例であろう。

RSSを利用するにはRSSリーダーが必要である。RSSリーダーには専用のソフトウェアもあるが、最近のウェブブラウザ(Firefox、Internet Explorer 7、Safariなど)はRSS機能を持っており、これらのソフトを使う人が多いようである。また、RSSリーダーの機能をWebサービスとして提供しているサイト(Bloglines、Yahoo!RSSリーダー、Google Reader、はてなRSS、など)もあり、こちらは、私のように職場と自宅で複数のコンピュータを使っているような場合は便利である。私はもっぱらBloglinesを愛用している。

■eTOCアラートサービスで新着雑誌を見逃さない

私は大学院生の頃図書館の新着雑誌の書架を眺めることを日課にしていたが、いまではeTOC (electoric Table of Contents)アラートサービスのおかげで、図書館に足を運ばないで済むようになった。eTOCアラートサービスとは文字通り「電子目次」のアラートサービスであり、登録したジャーナルの最新刊の目次がメールで送られてくるというサービスである。毎回目を通しておきたいジャーナルのeTOCアラートサービスに登録しておけば、そのジャーナルの新しい号が発刊されると、目次がメールで送られてくる。その「電子目次」にはタイトルや著者名のほか、抄録やフルテキストへのリンクが張ってあるので、気になる論文があれば、ワンクリックでフルテキストを読むことができる(各施設のオンラインジャーナルとの契約状況による)。ジャーナルが実際に図書館に郵送されるのを待つ必要もないし、見逃すこともなく、最新号の目次が手に入る。オンラインジャーナルがなかった時代には、海外のジャーナルが発行されてから図書館に届くまでには数ヶ月かかるといったこともあったが、オンラインジャーナルの普及のおかげで、海外との情報の格差はなくなり、ETOCアラートサービスのおかげで、最新情報をタイムリーに取得できるようになった。eTOCアラートサービスを利用するには、各ジャーナルのwebサイトに行き、eTOCサービスを見つけ、配送して欲しいメールアドレスを登録するだけである(図1)。必ずしもすべてのジャーナルがeTOCサービスを提供しているわけではないが、一流紙と呼ばれるジャーナルはほとんど提供している。

■Biomailで見逃しゼロに

お気に入りのジャーナルの目次だけチェックしていても、まったく関係のないジャーナルに自分の研究に関連した論文が出ることもある。こういった見逃しをなくすためには、定期的に特定のキーワードでPubMedの検索をおこなえばいいわけだが、それを自動で定期的におこない、見つかった場合にはメールで知らせてくれるサービスがある。このようなサービスを比較的早くからおこなっていたのは、Biomail(http://www.biomail.org/)(図2)である。Biomailでは、PubMedで検索したい検索式を最大20個登録することができ、定期的に(週に1回、週に2回、月に1回、月に2回から選べる)検索をかけて検索結果をメールで知らせてくれる。

■PubMedのアラートサービスが始まった

2005年になって、PubMedを運営している本家本元のNCBIがBiomailと同様のサービスを始めた。My NCBI(図3)はPubMedの検索式が保存できるサービスであるが、その検索結果を定期的にメールで送信するサービス(Automatic e-mail updates)が開始されたのだ。Automatic e-mail updatesサービスがBiomailと比べて優れているのは、
・検索頻度が1日に1回から月に1回まで細かく設定できる。
・文献データだけでなく、NCBIデータベースのすべてのデータが対象になる。
・検索語の数の上限が100(Biomailは20)。
・本家がおこなっているという安心感がある。
といった点である。一方、Biomailと比べて劣っているのは、
・検索語の数だけメールがくるので鬱陶しい。
という点である。私は、この点で現在はBiomailの方を愛用している。1週間に1度くらい送られてくるくらいの頻度が適度であり、毎日送られてきても見るのがおっくうになる。

Automatic e-mail updatesを利用するためには、まず、My NCBIのアカウントを作る必要がある。PubMedのトップ頁の右上の「Register」をクリックしてアカウントを作っておく。検索したときに、その検索式を保存したいと思ったら、「Save Search」をクリックする。そうすると、Automatic e-mail updatesサービス(同じ検索式にマッチする論文が出てきたときにお知らせメールが届く)を希望するかどうか聞かれる。あとは、どのくらいの頻度でメール配信を希望するか?メールのフォーマットを何にするか?新しい論文がないときにはメールをするか?などのオプションを選ぶことになる。

2006年からは、さらにPubMedの検索をRSSとして受診することができるようになった。PubMedで検索したときに、そのキーワードでRSS配信を受け取りたいと思ったら、「Send to」とあるプルダウンリストから「RSS feed」を選ぶ(図4)。そして、検索に対して名前を付けたり、検索結果数のオプションをセットして、「Create feed」ボタンをクリックする。 そうすると、「XML」と書かれたアイコンが登場し、これが、RSSフィードのURLである。あとは、自分のRSSリーダーに登録すればよい。こうすると、メールによるアラートではなく、RSSリーダーで最新論文をチェックできるのである。

■手に入れたフルテキストPDFはどうするか?

皆さんは、ダウンロードしたフルテキストPDFファイルはどのようにしているだろうか?本来はディスプレイ上でフルテキストを読めば、紙の節約になるのだが、私はディスプレイ上で論文を読むというのが苦手なので、ほとんどプリントアウトして読んでいる。プリントアウトした論文はファイリングして保存するというアナログな整理方法をいまだ続けている。しかし、PDFファイルをディスプレイの上だけで読むのであれば、論文のコピーをしまう場所も必要なくなり、PDFファイルのままコンピュータ上に保存しておけばよい。ハードディスクのPDFファイルを管理するのに適した文献管理ソフトウェアがいくつかある。最も有名なソフトはEndNote(トムソン社)であろう。EndNoteでは自分の集めたオリジナルの文献データベースを作ることができ、それぞれの文献データに、そのpdfファイルをリンクさせることができる。また、MacではiTunesライクなインターフェースを持ったソフトウェアにiPapers(フリーウェア、http://homepage.mac.com/toshihiro_aoyama/iPapers/)(図5)やPapers(シェアウェア、http://mekentosj.com/papers/)があり、文献管理に特化するならこちらの方がEndNoteより使いやすい。

以上、医学のあゆみ221巻3号「最新論文を見逃さないための小道具達」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.25

医家向け電脳道具箱その参「医中誌Webの検索達人をめざす」

前回の医家向け電脳道具箱では「医学中央雑誌刊行会訪問記」として医学中央雑誌(医中誌)データベースがどのように作られているのかを紹介した。データベース製作の裏側を見ることによって、医中誌Webでの検索ヒット率を上げる方法がいくつか見えてきたので紹介したい。なお、医中誌データベースのインターフェースは2つあり、大学や病院など法人での契約の場合「医中誌Web」となり、個人での契約では「医中誌パーソナルWeb」となる。両者には基本的な差異はないので、「医中誌Web」を使って話を進めることにする。

 

■アドバンスドモードを使う

医中誌Webの検索画面にはベーシックモード(左図)とアドバンスドモード(右図)の2つの検索モードが存在する。両者の違いは、ベーシックモードがシンプルなインターフェースであるのに対し、アドバンスドモードにはベーシックモードにはない2つの機能を備えていることにある。その機能とは、検索履歴が残り、その検索履歴を使った履歴検索ができることと、候補語辞書の参照ができることである。ユーザーの使用率では、ベーシックモードを使っているユーザーの方が多いようだが、検索達人を目指すなら、間違いなくアドバンスドモードを使うことをおすすめする。

 

 

■シソーラスを理解する

前回の「医学中央雑誌刊行会訪問記」では、医中誌データベース作製において、インデクシングという作業が行われているという話をした。インデクシングというのは、各文献に対してキーワードを付与する作業である。この際、重要なのが、勝手なキーワードを付けないように、キーワード集をあらかじめ用意しておくということである。このキーワード集をシソーラスという。医学領域のシソーラスとしてもっとも有名なのが、米国国立図書館(NLM)で作成しているMedical Subject Headings (MeSH)であり、MEDLINEの索引・検索に用いられている。医学中央雑誌刊行会でもMeSHにほぼ準拠した日本独自のシソーラスとして「医学用語シソーラス」を作製しており、最新版は第6版になっている。PubMedや医中誌Webの高い検索効率を支えているのが、シソーラスを用いたキーワード検索の仕組みである。

データベース検索には大きく分けて2つの方法がある。ひとつは、全文検索であり、データベース中に存在する文字列をすべて検索する方法である。全文検索はコンピュータ負荷が大きいが、近年ではコンピュータの高性能化が十分に進んだため、Googleなどの検索システムで採用されている。もう一つの検索方法がキーワード検索である。キーワード検索は、各データにキーワードを付け、それによって検索をおこなう方法である。キーワードを付与するという手間がかかるが、検索が高速になるとともに、主題が一致しているにもかかわらず全文検索でヒットしないデータもヒットできるという特徴がある。PubMedや医中誌Webの場合、格納されているデータは、タイトル、著者名、抄録など限られたデータであり、全文検索で高率にヒットさせるのは難しい。そこで、各文献データにシソーラスに基づいたキーワードを付与することにより、キーワード検索を可能にしている。実際には、キーワード検索と同時に全文検索もおこなうことで検索ヒット率を上げている。たとえば、「糖尿病性腎硬化症」で医中誌データベースを全文検索するとわずか5件しかヒットしない。しかし、「糖尿病性腎硬化症」をキーワード検索を使って検索すると4960件にまでヒット数が跳ね上がる。これは、「医学用語シソーラス」の中で「糖尿病性腎硬化症」は「糖尿病性腎症」と同義語であると索引されていて、「糖尿病性腎症」というキーワードで検索しているからである。

前述したように、シソーラスは同義語の中でどれかひとつをキーワード(統制語、またはディスクリプタと呼ぶ)として指定している用語集である。たとえば、医学用語シソーラスでは、糖尿病性腎症を意味する用語として、「糖尿病性腎症」「糖尿病性腎硬化症」「糖尿病性腎合併症」「糖尿病性腎糸球体硬化症」「糖尿病性腎障害」「糖尿病性腎不全」の中で、「糖尿病性腎症」を統制語とし、他の言葉を同義語として登録している。したがって、医中誌Webにおいて、「糖尿病性腎硬化症」で検索をかけると、「糖尿病性腎硬化症」が統制語である「糖尿病性腎症」にマッピングされ、「糖尿病性腎症」がキーワードとして索引されている論文がヒットするのである。

シソーラスにはもう一つの役割があり、統制語同士の階層関係が定められている。たとえば、「水-電解質平衡異常」の下位に「高ナトリウム血症」や「低カリウム血症」などが指定されている(右図)ため、「水-電解質平衡異常」でこれらすべての関連論文をヒットさせることができる。

「医学用語シソーラス」は4年に一度改訂作業が行われているが、日進月歩の医学の世界では4年もすれば、新しいテーマや用語がたくさん出現する。したがって、「医学用語シソーラス」とは別に、医中誌データベースでは、随時、同義語を登録したり、新しい用語については「医中誌フリーキーワード」として登録して最新の論文にも対応している。これらの用語は、「医学用語シソーラス」改訂時に、統制語や同義語として取り込まれるかが検討される。

 

■医中誌Webの検索システムを理解する

具体的に、医中誌Webの検索がどのようにおこなわれているか説明しよう。医中誌Webで「狂牛病」を検索した場合、まず、「狂牛病」と同義語の言葉がシソーラス上にないか調べられる。シソーラス上で「狂牛病」の同義語として登録されている統制語は「ウシ海綿状脳症」であるので、「ウシ海綿状脳症」がキーワードとして索引されている文献がヒットする(459件)。また、同時に「狂牛病」で全文検索がおこなわれる(52件がヒット)。最終的な検索結果はキーワード検索と全文検索の集合和となり、463件がヒットするということになる。実は、このような検索の過程が医中誌Webではきちんと見えるようになっており、検索式として「(ウシ海綿状脳症/TH or 狂牛病/AL)」と表示されている。/のうしろのTHは「シソーラス」、ALは「すべてのフィールド」という意味である。

PubMedにおいても医中誌Webと似たような検索プロセスがおこなわれている。ただし、PubMedのインターフェースポリシーは「なるべくシンプルに」ということであるようで、表面的には検索式を見ることはできない。しかし、「Details」というタブをクリックすると、検索式を見ることができる(右図)。たとえば、「diabetic nephropathy」で検索してみると、検索式は「"diabetic nephropathies"[MeSH Terms] OR diabetic nephropathy[Text Word]」となっており、「diabetic nephropathy」という統制語でのキーワード検索と「diabetic nephropathy」による全検索がおこなわれているというのが確認できる。

 

■シソーラスを使って検索ヒット数を上げる

シソーラスを理解した上で、検索ヒット率を上げるための工夫を紹介しよう。日本語固有の問題を考えた場合、医学用語シソーラスの存在は非常に大きい。日本語の医学用語の場合、原文のままアルファベットで表記したり、カタカナで表記したり、様々な訳語が付けられることがあるからである。たとえば、アンギオテンシンⅡ受容体拮抗薬について調べたいとする。実際に、「アンギオテンシンⅡ受容体拮抗薬」で検索してみると、なんと、ヒット数は0である。一瞬、目を疑うが、実は、これには日本語特有の問題が隠れている。医中誌データベースではローマ数字を扱うことができないので、この場合、ローマ数字のⅡを大文字の「I」二つとして入力する必要がある。「アンギオテンシンII受容体拮抗薬」と入力すると、4596件がヒットする。こういった問題は他にもあって、ギリシャ文字などは扱うのが難しい。NFκ-B(nuclear factor κ-B)を意図して、「NFkappa-B」と入力すると、1件しかヒットしない。統制語はNF-Kappa Bでスラッシュとスペースの位置が微妙に違うのである。

では、このように予想外にヒット数が低く、どのような用語で検索すればよいのかわからないといったケースではどうしたらよいだろうか?その場合は、統制語が何かを調べるとよい。統制語を調べるにはアドバンスドモードの「候補語辞書の参照」をクリックしてシソーラスを検索する。たとえば、アンギオテンシンⅡ受容体拮抗薬で検索した場合に、あまりにも少ないヒット数で統制語にたどり着いていないことが予想されれば、該当する統制語を調べる。「候補語辞書の参照」の検索窓に「アンギオテンシン」だけ入力して参照ボタンをクリックすれば、「アンギオテンシン」を含むたくさんの同義語、統制語が登場する。それによれば、「アンギオテンシンⅡ受容体拮抗薬」の統制語が「Angiotensin II Receptor Antagonists」であることがわかる。「Angiotensin II Receptor Antagonists」にチェックを入れて「採用」ボタンを押せば、「Angiotensin II Receptor Antagonists/TH」が検索窓にはいって、もっともヒット率の高い検索ができる。NFκ-Bの場合、「nuclear factor」でシソーラス検索すれば、「NF-Kappa B」が統制語であることがわかる。

 

■絞り込みを上手におこなう

シソーラスを使うことによって、より多くの文献をヒットすることができるが、実際にはかなりの数(数千)がヒットしてしまい、自分が探している文献にたどり着くためには、そこから上手に絞り込みをおこなっていく必要がある。絞り込むためには、条件を複数組み合わせることによっておこなうことが基本となるが、その際には、検索履歴を使うと便利である。また、「絞り込み検索へ」というボタンを押すと「絞り込み検索画面」が開き(右図)、検索結果を様々な条件で絞り込むことが可能である。特に、医中誌データベースは会議録を多く含んでいるので、会議録を除外したいときには、「論文種類」の「会議録除く」にチェックを入れて絞り込むだけで、かなり絞り込むことができる。また、私の場合、医中誌Webで検索するときには、日本語で書かれた総説記事を探すことが多いのだが、その場合は、「論文種類」の「総説」と「解説」にチェックを入れて絞り込むと便利である。

 

■その他の小技

その他、いくつか検索達人になるための小技を紹介しよう。

・ダブルクォーテーション
医中誌Webではスペースや記号を含む検索語を検索する場合は、一工夫が必要である。たとえば、「amino acids」で検索する場合は、このまま「amino acids」と入力すると、医中誌Webではスペースはandと解釈されるので、「amino」の検索結果と「acids」の検索結果の集合和が検索され2,098件がヒットする。それを避けるためには、"amino acids"という具合にダブルクォーテーションで囲めばよく、こうすれば目的のものが検索され14,560件がヒットする。

・論理演算子
医中誌Webの場合、空白で検索語を切った場合、andと判断される。論理演算子として、論理積(and/スペース/*)、論理和(or/+)、論理差(not)、()が使用できる。

・フィールドの指定
検索語の末尾に/とフィールド名を付けることで検索するフィールドを指定することができる。TH(統制語)、AB(抄録)、AU(著者名)、IN(所属機関)、JN(収載誌名)、TI(タイトル)、AL(All Field)などである。

・完全一致検索
「田中明」という著者名で検索をかけると、487件がヒットし、その中には、「田中明」だけでなく、「田中明彦」「田中明美」などが含まれてしまっている。「田中明」のみを検索したい場合は、検索語全体を[ ]で囲み、フィールドを指定する。つまり、[田中明]/AUを検索窓に入力すればよい。この場合、196件がヒットした。ちなみに、著者名で検索するときには姓と名の間にスペースは入れない。また、英語雑誌の著者名はちょっと扱いが特殊である。ローマ字の著者名もスペースなしで続ける必要がある。たとえば、Yutaka Kobayashiの場合は、KobayashiYutakaで検索する。Kobayashi Yutakaとすると、KobayashiとYutakaの集合和になってしまうので、ものすごい数の検索がヒットしてしまう。ちなみに、2002年以降はすべての著者の名前が入力されているが、それ以前は、必ずしもすべての著者の名前がデータベースに入力されているわけではないので注意されたい。

 

■全文テキストへのリンク

最後に、もう一つ。検索効率という話ではないが、全文テキストへのアクセスという話をしておく。近年、医学データベースにおいては、全文テキストへのリンクというのが重要な機能となっている。医中誌WebもVer4から、全文テキストへのリンク機能が追加された。検索結果にはオンラインジャーナル等へのリンク、図書館の所蔵検索システムOPAC(Online Public Access Catalogue)へのリンクが張られている。日本語医学文献の場合、まだ全文テキストのオンライン公開が十分には進んでいないが、メディカルオンライン(メテオインターゲートの国内医学雑誌の全文PDF配信サービス)、PubMed、Cross Ref(世界の主要な学術出版社が共同で運営している電子ジャーナルのリンク情報管理提供システム)、Pier Online(サンメディアがホスティングするオンラインジャーナルサイト)、CiNii(国立情報学研究所の論文情報ポータルサイトCiNiiとの相互リンク)のリンクが張られている。今後、日本語文献の全文テキストの公開も進んでいくと思われ、使い心地もよくなっていくことであろう。全文テキストのオンライン公開が進んでいない状況では、各図書館における所蔵状況がわかることは便利であるが、それに関してはOPAC連携によって機能が果たされている(ただし、機関ごとの事前の登録が必要)。検索結果にあるOPACのリンクをクリックするとOPAC検索がダイレクトにおこなわれる。また、機関が所蔵している雑誌だけに所蔵アイコンを表示することもできる。

今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO医学中央雑誌刊行会の松田真美様に感謝いたします。

以上、医学のあゆみ220巻11号「医中誌Webの検索達人をめざす」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.23

医家向け電脳道具箱その弐「医学中央雑誌刊行会訪問記」

■医学中央雑誌刊行会を訪問した

医学中央雑誌(医中誌)といえば、日本語文献データベースのほとんど唯一無二の存在。医学英語文献を探すならPubMed、医学和文文献を探すなら医中誌Webというくらい、医師・医学研究者にはなくてはならない存在である。今回、医中誌を発行しているNPO法人医学中央雑誌刊行会を訪問し、お話しを伺う機会があった。医学情報データベースの裏側を見ることができる貴重な機会であったので紹介したい。

 

■個人事業として始まった医中誌

医中誌は1903年(明治36年)に刊行された抄録誌である(図1)。医中誌の初代の主幹、尼子四郎(1865〜1930)は、1887年に広島医学校を卒業後、芸備医学会(現在の広島医学会)創立に関わるなどの活動を経て、1903年に東京の谷中で開業、すぐに千駄木に移り、同年、医中誌を刊行した。この千駄木での開業時代に、同じ町内に住んでいた夏目漱石に主治医として、また友人として親しんだ。「吾輩は猫である」の登場人物「甘木先生」のモデルは尼子四郎であったとされている。

創刊当時の医中誌の編集・発行の作業は家内工業的であったが、二代目理事長、尼子富士郎(1928-1972年、医学中央雑誌刊行会理事長、医中誌発行の功績により多くの賞を受賞した)の時代になっても、編集・発行作業の方法は創刊時とそれほど変わらなかったらしい。現在の医学中央雑誌刊行会は、「こんなところに!」というような杉並区高井戸の閑静な住宅街にひっそりと建っている(図2)。現在の社屋は二代目の理事長であった尼子富士郎氏の自宅あとに建てられたもので、改築される前は尼子富士郎氏の自宅を兼ねていた。尼子富士郎氏は高井戸にある浴風会病院の医長を兼務しており、浴風会病院と自宅兼事務所を往復する日々を送っていた。文献の採択、抄録の編集、校正については、すべて尼子富士郎氏が目を通していたという。

医中誌創刊時の年間収録文献数は2000件弱(収載誌約60誌)で、月1回の発行だったが、現在では、年間収録文献数は30万件を超えている(収載誌約2400誌)。医中誌の形態は時の流れとともに変わってきており、長い間冊子体として提供されていたが、1992年よりCD-ROM版の提供が始まり、2000年よりインターネットによる医中誌Webの提供が始まると、読む雑誌というより、検索のためのデータベースとしての意味合いが強くなってきた。そして、冊子体での発行は2002年終了、CD-ROM版の提供も2006年3月に終了、現在ではインターネットによる医中誌Web(法人向け、図3)、医中誌パーソナルWeb(個人向け)による提供のみとなっている。医中誌データベースは長い間、そして現在においても、医学、歯学、薬学、看護学、獣医学および関連領域の国内の最大の文献データベースとして活用されている。

 

■医中誌の抄録は第三者抄録が中心

今回、医中誌データベースの作製過程を伺ったのだが、データベースが完全電子化され、閲覧もインターネットベースになっているにもかかわらず、データベース作製の過程において多くのステップに人手がかかっているということに驚いた。出版社からデジタルデータが送られてきてそれをデータベースに流し込んでいるという、ほとんど自動化されている作業を私はイメージしていた。しかし、日本の出版社の電子化が遅れていることなど、様々な要因によって、自動化できない部分が多いとのことであった。

また、恥ずかしながら私が知らなかったのが、医中誌データベースに掲載される抄録の多くが第三者抄録であるという点であった。Medlineでは原文の抄録がそのまま抄録として収載されているが、医中誌データベースでは長い間にわたって第三者抄録を原則としていた。第三者抄録とは専門家である第三者が論文を読み、独自に抄録をまとめたものである。医中誌データベースに収載されているデータは原著論文の他に総説、解説記事、会議録など多岐にわたるのが特徴であるが、原著論文には原則として抄録を付けることになっている。おおよそ90%の原著論文には抄録が付与されている。その他、総説や解説などにも場合によっては抄録が付与される。近年では、学会、出版社の了解を得て、著者が書いた抄録(著者抄録)をそのまま掲載する方向で進んでいるが、現在でも、抄録のうち著者抄録は3割にとどまり、7割が第三者抄録である。また、日本の学会誌が発行している英文誌も医中誌データベースに収録されるが、その場合、日本語の第三者抄録を付けることになっている。このあたりは日本語で情報を提供するという医中誌データベースのこだわりが感じられる。著者抄録と第三者抄録の見分け方は、医中誌Webで抄録の末尾に「著者抄録」と但し書きがついているものが著者抄録であり、但し書きがついていないのが、第三者抄録である。

 

■実際に文献を見ながらインデクシングがおこなわれる

データベースの機能を高めるためにインデクシングという作業が重要である。インデクシングとは、医学中央雑誌刊行会発行の「医学用語シソーラス」に基づいて、各文献にキーワード、副標目、チェックタグ、研究デザインタグなどを付与する作業である。「医学用語シソーラス」と、膨大な同義語が登録されている用語辞書を元に、タイトルからキーワードの自動抽出がおこなわれるが、最終的には、インデクサーが実際の文献に目を通しながら、キーワードを付与するという、これまた手作業である。実際にインデクシングを行うのは職員約10名、契約者約20名のインデクサーで、毎月25000件あまりの文献にインデクシングをおこなっている。一人のインデクサーが1日に100件近くの文献にインデクシングをおこなっていることになる。

 

■医中誌データベースの作製過程

では、医学中央雑誌データベースがどのようにして作られているのか、具体的な作業を紹介する。

(1)資料の収集と採択
医中誌データベースに収録される文献情報のもととなる資料は国内の大学、研究所、病院などから発行されている紀要や学内誌、各学会が発行する会議録、医学系出版社が発行する商業誌、公共資料や講演集などで、現在は約2400誌を数える。資料の半数は学会、大学、病院、出版社からの寄贈であり、半数は購入したものである。資料の採択は1〜2ヶ月に一度の検討会で決められている。

(2)文献の採択
届いた資料に掲載された論文、記事のうちどれをデータベースにのせるのかを担当者が決める。たとえば、掲載されている論文でも医学と関連が薄いと思われる論文(たとえば、野生動物の生態)は採択されない。また、インタビュー記事や書評などは採択されない。採択された文献には論文種類が指定され、同時に抄録が付与されるかどうかが決められる。

(3)書誌情報の入力
文献の書誌情報の入力は外部の専門の業者に依頼している。業者によって入力されたデータは医中誌データベース作成システムにのせられ、以降の作業はローカルネットワークシステム上でおこなわれる。また、この段階のデータは<Pre 医中誌>として公開される。なお、Medlineの場合、書誌情報、著者抄録などは出版者側からデジタルデータで渡されることが大半であるが、日本の場合、少しずつそのようなケースも増えているが、今でも多くの文献は書誌情報の入力が必要とのことである。

(4)抄録の作成
書誌情報の入力と並行して抄録の作成がおこなわれる。抄録が存在し、学会、出版社からの了解が得られれば著者抄録が収録される。その他の場合は、外部の専門家(50名ほどの抄録作成者がいる)に依頼して第三者抄録を作成する。

(5)インデクシング
データ作成の最終段階としてインデクシングがおこなわれる(図4)。インデクシングでは、医学中央雑誌発行の「医学用語シソーラス」に基づいて、キーワード、副標目、チェックタグ、研究デザインタグを付与される。インデクシングが終了すると、毎月1日と16日に完成データとして追加される。

(1)〜(5)の行程に、最短で1ヶ月、平均3〜4ヶ月かかっている。今後、この行程をどれだけ短くできるかが現在の課題とのことである。

以上、医中誌データベースの作製過程について紹介したが、抄録誌の刊行、データベースの運営は経済的にも困難が伴うことは想像に難くない。諸外国においてはそのほとんどが公共機関に依存している中、100年を超える長きにわたって独自の情報を提供してきた医学中央雑誌刊行会の活動に敬意を払いたい。また、日本語文献特有の困難がある中、高い検索ヒット率を確保している医中誌データベースの中身に強い興味を持った。その秘密については次回紹介させて頂きたいと思う。

今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO法人医学中央雑誌刊行会の松田真美様に感謝いたします。

 

以上、医学のあゆみ220巻7号「医学中央雑誌刊行会訪問記」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.21

医家向け電脳道具箱その壱「Google Scholarを使い倒す」

■Google Scholarは学術情報に特化した検索エンジン

「ググル」といえば、「Googleで検索すること」というくらい、検索エンジンとしてGoogleは普及している。Google社は、Google検索以外にも数多くのwebサービスを提供している。その中に、Google Scholar(http://scholar.google.com/)という検索サービスがあるのをご存じだろうか。

Google Scholarは学術情報に特化した検索エンジンである。通常のGoogle検索はネット上のあらゆるドキュメントを検索対象としているが、Google Scholarは検索対象を学術論文、学位論文、書籍、学術出版会社や学会、学術機関からの抄録や論文といった学術情報に絞っていることが最大の特徴である。Google Scholarは検索対象が学術情報に限られているだけでなく、通常のGoogle検索にはないユニークな機能を提供している。

 

■Google Scholarで論文のインパクトファクターが簡単にわかる?

Google Scholarのユニークな機能の一つが文献の引用関係を表示する機能である。Google Scholarの検索結果にリストアップされる各文献データには、「引用元 ○○」というリンクがついており、その文献が他のどの文献で引用されているか、また、他の論文に引用された回数が表示される。わかりやすく言えば、各文献データの「インパクトファクター」が一目でわかるのである。

インパクトファクターは、雑誌ごとの掲載論文1報あたりの年間の平均引用回数を指標化したものであり、毎年、トムソンサイエンティフィック社の引用文献データベースWeb of Scienceに収録されるデータを元に算出されている。また、各論文ごとの引用回数や引用している論文へのリンクもWeb of Scienceで調べることができ、「Times Cited」というリンクで表現されている。Google Scholarの「引用元 ○○」というリンクはWeb of Scienceの「Times Cited」というリンクとほぼ同じものといえる。ただし、Web of Scienceで計算された引用回数とGoogle Scholarで表示された引用回数はまったく同じではない。両者では集計に用いる雑誌が異なるし、雑誌収載にあたって審査をおこない、公開しているWeb of Scienceに対し、Google Scholarの検索対象雑誌は明らかになっていない。しかし、Web of Scienceは契約料がとても高いデータベースで、契約をしていない大学図書館も多い。無料で引用関係が調べられるデータベースは現在のところ、Google Scholarしかなく、その点だけでもGoogle Scholarの存在価値は高いといえる。

 

■Google Scholarは逆引き検索ができる

また、Google Scholarの引用文献へのリンクは、逆引き検索として利用できる。「逆引き検索」とは何か、例を挙げて説明する。2000年にNature誌に掲載された論文Aに興味を持ち、その論文に関連した論文を探したいとする。2000年以前の関連論文は論文Aの最後にある引用文献リストから見つけることができる。しかし、論文Aの研究データが、その後、どのように発展していったのか、2000年以降の関連論文を見つけるのは大変なことである。せいぜいPubMedでキーワードなどを使って再検索するくらいしか方法はない。しかし、Google Scholarの「引用元 ○○」のリンクをクリックすれば、論文Aが発表されたあとに論文Aを引用した論文の一覧を見ることができるので、その後の研究の進展状況、最新の関連論文を見つけることができる。このような逆引き検索は使い始めるととても便利なものである。

 

■裏技その1:Google Scholarを英語論文を書く際のお供に

ここまで話をしたGoogle Scholarの便利な機能はすでにWeb of Scienceに搭載されている機能である。しかもWeb of Scienceの方が正確であり、Web of Scienceを使える環境にいる方には、メリットとはいえない。しかし、Google ScholarがPubMedやWeb of Scienceに対して持っている大きなアドバンテージが一つある。それは、PubMedとWeb of Scienceが主に抄録を対象にして検索をかけているのに対して、Google Scholarは全文を対象にして検索をかけているという点である。そこで、全文検索であるメリットを生かしたGoogle Scholarの裏技を2つ紹介する。

ひとつは、英語論文を書く際の例文辞書として有用ということである。英語論文を書くときには、「本当にこんないいまわしでよいのか」、「前置詞はこれでよいのか」といった不安がつきまとう。そんなとき、Google Scholarが役立つのである。たとえば、「最もヒトの慢性腎炎に近いモデル」という英語のフレーズを作るのに、「a model most resembling human chronic nephritis」という文章を考えたとする。こんな表現でよかったかと心配になったら、"model most resembling"をGoogle Scholarにかけてみる。 このときかならずダブルクォーテーション(")でくくってフレーズ検索にすることがポイントである。Google Scholarでは、ストップワーズ(冠詞や前置詞など頻繁に使われる単語、記号、文字など)を無視するが、”でくくった場合は、ストップワーズは無視されない。また、通常検索では、model、most、resemblingがどこかにでている文章が検索されるが、"でくくれば、まさにその語順のものだけが検索される。実際に"model most resembling"で検索してみると、1件しかヒットしない。間違いではなさそうだが、こなれた表現ではないのかと思い、"model that most resembles"で検索してみたら、今度は27件がマッチした。検索結果画面に表示されるページ数は、検索をかけた表現が、どの程度、一般的に使われているか把握する目安となる。この場合、"model that most resembles"の方が一般的ということがわかる。

適切な前置詞探しは得意中の得意である。この場合、アスターリスク(*)を使う。ダブルクォーテーションマークをつけてフレーズ検索にした場合、アスターリスクは1文字のワイルドカードとして機能する。たとえば、mechanismとapoptosisを結ぶ前置詞はofかforか?こういった場合は、アスターリスクが有効である。
"mechanis * apoptosis"で検索すると、4040件がヒットし、圧倒的にofが多く、一部forなどが見られる。実際にどのくらいの頻度で使われているのかを調べるために、"mechanis of apoptosis"で再検索すると3110件、"mechanis for apoptosis"で再検索すると314件がヒットした。ということで、ofが一般的なようである。また、他にもinvolvingが見つかり、場合によっては、こっちの方がしっくり来る場合もある。

こうした巨大な英語例文集としての使い方は、Googleを使ってもいいのだが、英語論文に使う英語は、英語論文に限って探した方が、ぴったりの表現を探しやすいので、Google Scholarがおすすめである。

 

■裏技その2:Google Scholarは研究にも役立つ

さて、もう一つの裏技が、実験で使う試料の情報を得るための検索エンジンとしての使い方である。「免疫組織化学の抗体をどこから手に入れればよいのか」、「薬剤を投与するのにどのくらいの量を使えばよいのか」、こんな疑問を見事に解消してくれる。たとえば、Covance社が出している抗Cre recombinase抗体が免疫組織に使えるのかどうか調べたいとする。PubMedで「cre antibody covance」を検索しても一つも文献が引っかからないが、Google Scholarでは337件もひっかかる。そのリンクをたどれば、実際にこの抗体が免疫組織化学で使われているという報告があるかすぐにわかる。さらに、その論文には、実験ための条件やプロトコールが書かれているので大変参考になる。

 

■Google Scholarは進化し続ける

と、ここまで、Google Scholarの使い方を紹介してきたが、実はGoogle Scholarは執筆時点で未だベーター版である。Google Scholarがベーター版として最初に公開されたのが、2004年。その後、少しずつ機能が追加され進化し続けている。2006年4月には、「Recent articles」というソートオプションが追加された。それまでGoogle Scholarでの検索結果は、関連度の高い順、つまり、被引用数の高い順に並んでいた。当然のことながら、古い論文ほど被引用回数が多くなるので、検索結果の先頭の方には、古い論文が並ぶことになる。検索結果を新しいものから順番に並べられないことは、Google Scholarの欠点の一つだったわけだが、その欠点が一部解消した。2006年7月には、Google Scholarの日本語版が開始された。これによって、日本語での検索が可能になった。ただし、日本語の論文の電子化およびwebへの掲載が進んでいないこと、PubMedに相当するような日本語の論文検索データベースが存在しないこともあり、使い物になるにはもう少し時間がかかると思われる。2006年8月には、指定した図書館へのリンクが追加された。このように、次々と機能が追加され、使いやすくなっている。

Google Scholarは、それだけですべてまかなえるわけではないが、PubMedや他のデータベースと併用しながら、うまく使っていきたいデータベースである。

 

以上、医学のあゆみ220巻3号掲載「Google Scholarを使い倒す」より許可を得て転載

その他の回は医家向け電脳道具箱の一覧をごらん下さい。

2008.01.19

「電脳道具箱」全10回終了

2007年1月から、週刊医学のあゆみ誌上で、月1回のペースで「電脳道具箱」というタイトルでエッセイを書かせていただきました。本当は、月1回で12回で終了する予定だったのですが、途中、さぼってしまい、最終的に10回ということになりました。私がいうのも何ですが、とてもおもしろい記事になっています。第10回掲載号が1/19より書店に並びますので、是非、ご覧下さい。

出版社の許可を得て、古い物から順番にこのサイトで掲載することを許可いただきましたので、順次掲載していく予定です。

  1. Google Scholarを使い倒す」220巻3号(2007年1月20日発行号)
  2. 医学中央雑誌刊行会訪問記」220巻7号(2007年2月17日発行号)
  3. 医中誌Webの検索達人をめざす」220巻11号(2007年3月17日発行号)
  4. 最新論文を見逃さないための小道具達」221巻3号(2007年4月21日発行号)
  5. ソーシャルブックマークの可能性」221巻7号(2007年5月19日発行号)
  6. インパクトファクターを正しく理解する」221巻10号(2007年6月9日発行号)
  7. インパクトファクターで研究者の業績評価ができるか」222巻3号(2007年7月21日発行号)
  8. 「Keynoteで人とは違ったプレゼンテーションを」222巻11号(2007年9月15日発行号)
  9. 「学会ポスター大判1枚刷りに挑戦」223巻11号(2007年12月15日発行号)
  10. 「これだけは守りたいプレゼンテーション10の原則」224巻3号(2008年1月19日発行号)

アーカイブ

過去ログ一覧