前回の医家向け電脳道具箱では「医学中央雑誌刊行会訪問記」として医学中央雑誌(医中誌)データベースがどのように作られているのかを紹介した。データベース製作の裏側を見ることによって、医中誌Webでの検索ヒット率を上げる方法がいくつか見えてきたので紹介したい。なお、医中誌データベースのインターフェースは2つあり、大学や病院など法人での契約の場合「医中誌Web」となり、個人での契約では「医中誌パーソナルWeb」となる。両者には基本的な差異はないので、「医中誌Web」を使って話を進めることにする。
■アドバンスドモードを使う
医中誌Webの検索画面にはベーシックモード(左図)とアドバンスドモード(右図)の2つの検索モードが存在する。両者の違いは、ベーシックモードがシンプルなインターフェースであるのに対し、アドバンスドモードにはベーシックモードにはない2つの機能を備えていることにある。その機能とは、検索履歴が残り、その検索履歴を使った履歴検索ができることと、候補語辞書の参照ができることである。ユーザーの使用率では、ベーシックモードを使っているユーザーの方が多いようだが、検索達人を目指すなら、間違いなくアドバンスドモードを使うことをおすすめする。
■シソーラスを理解する
前回の「医学中央雑誌刊行会訪問記」では、医中誌データベース作製において、インデクシングという作業が行われているという話をした。インデクシングというのは、各文献に対してキーワードを付与する作業である。この際、重要なのが、勝手なキーワードを付けないように、キーワード集をあらかじめ用意しておくということである。このキーワード集をシソーラスという。医学領域のシソーラスとしてもっとも有名なのが、米国国立図書館(NLM)で作成しているMedical Subject Headings (MeSH)であり、MEDLINEの索引・検索に用いられている。医学中央雑誌刊行会でもMeSHにほぼ準拠した日本独自のシソーラスとして「医学用語シソーラス」を作製しており、最新版は第6版になっている。PubMedや医中誌Webの高い検索効率を支えているのが、シソーラスを用いたキーワード検索の仕組みである。
データベース検索には大きく分けて2つの方法がある。ひとつは、全文検索であり、データベース中に存在する文字列をすべて検索する方法である。全文検索はコンピュータ負荷が大きいが、近年ではコンピュータの高性能化が十分に進んだため、Googleなどの検索システムで採用されている。もう一つの検索方法がキーワード検索である。キーワード検索は、各データにキーワードを付け、それによって検索をおこなう方法である。キーワードを付与するという手間がかかるが、検索が高速になるとともに、主題が一致しているにもかかわらず全文検索でヒットしないデータもヒットできるという特徴がある。PubMedや医中誌Webの場合、格納されているデータは、タイトル、著者名、抄録など限られたデータであり、全文検索で高率にヒットさせるのは難しい。そこで、各文献データにシソーラスに基づいたキーワードを付与することにより、キーワード検索を可能にしている。実際には、キーワード検索と同時に全文検索もおこなうことで検索ヒット率を上げている。たとえば、「糖尿病性腎硬化症」で医中誌データベースを全文検索するとわずか5件しかヒットしない。しかし、「糖尿病性腎硬化症」をキーワード検索を使って検索すると4960件にまでヒット数が跳ね上がる。これは、「医学用語シソーラス」の中で「糖尿病性腎硬化症」は「糖尿病性腎症」と同義語であると索引されていて、「糖尿病性腎症」というキーワードで検索しているからである。
前述したように、シソーラスは同義語の中でどれかひとつをキーワード(統制語、またはディスクリプタと呼ぶ)として指定している用語集である。たとえば、医学用語シソーラスでは、糖尿病性腎症を意味する用語として、「糖尿病性腎症」「糖尿病性腎硬化症」「糖尿病性腎合併症」「糖尿病性腎糸球体硬化症」「糖尿病性腎障害」「糖尿病性腎不全」の中で、「糖尿病性腎症」を統制語とし、他の言葉を同義語として登録している。したがって、医中誌Webにおいて、「糖尿病性腎硬化症」で検索をかけると、「糖尿病性腎硬化症」が統制語である「糖尿病性腎症」にマッピングされ、「糖尿病性腎症」がキーワードとして索引されている論文がヒットするのである。
シソーラスにはもう一つの役割があり、統制語同士の階層関係が定められている。たとえば、「水-電解質平衡異常」の下位に「高ナトリウム血症」や「低カリウム血症」などが指定されている(右図)ため、「水-電解質平衡異常」でこれらすべての関連論文をヒットさせることができる。
「医学用語シソーラス」は4年に一度改訂作業が行われているが、日進月歩の医学の世界では4年もすれば、新しいテーマや用語がたくさん出現する。したがって、「医学用語シソーラス」とは別に、医中誌データベースでは、随時、同義語を登録したり、新しい用語については「医中誌フリーキーワード」として登録して最新の論文にも対応している。これらの用語は、「医学用語シソーラス」改訂時に、統制語や同義語として取り込まれるかが検討される。
■医中誌Webの検索システムを理解する
具体的に、医中誌Webの検索がどのようにおこなわれているか説明しよう。医中誌Webで「狂牛病」を検索した場合、まず、「狂牛病」と同義語の言葉がシソーラス上にないか調べられる。シソーラス上で「狂牛病」の同義語として登録されている統制語は「ウシ海綿状脳症」であるので、「ウシ海綿状脳症」がキーワードとして索引されている文献がヒットする(459件)。また、同時に「狂牛病」で全文検索がおこなわれる(52件がヒット)。最終的な検索結果はキーワード検索と全文検索の集合和となり、463件がヒットするということになる。実は、このような検索の過程が医中誌Webではきちんと見えるようになっており、検索式として「(ウシ海綿状脳症/TH or 狂牛病/AL)」と表示されている。/のうしろのTHは「シソーラス」、ALは「すべてのフィールド」という意味である。
PubMedにおいても医中誌Webと似たような検索プロセスがおこなわれている。ただし、PubMedのインターフェースポリシーは「なるべくシンプルに」ということであるようで、表面的には検索式を見ることはできない。しかし、「Details」というタブをクリックすると、検索式を見ることができる(右図)。たとえば、「diabetic nephropathy」で検索してみると、検索式は「"diabetic nephropathies"[MeSH Terms] OR diabetic nephropathy[Text Word]」となっており、「diabetic nephropathy」という統制語でのキーワード検索と「diabetic nephropathy」による全検索がおこなわれているというのが確認できる。
■シソーラスを使って検索ヒット数を上げる
シソーラスを理解した上で、検索ヒット率を上げるための工夫を紹介しよう。日本語固有の問題を考えた場合、医学用語シソーラスの存在は非常に大きい。日本語の医学用語の場合、原文のままアルファベットで表記したり、カタカナで表記したり、様々な訳語が付けられることがあるからである。たとえば、アンギオテンシンⅡ受容体拮抗薬について調べたいとする。実際に、「アンギオテンシンⅡ受容体拮抗薬」で検索してみると、なんと、ヒット数は0である。一瞬、目を疑うが、実は、これには日本語特有の問題が隠れている。医中誌データベースではローマ数字を扱うことができないので、この場合、ローマ数字のⅡを大文字の「I」二つとして入力する必要がある。「アンギオテンシンII受容体拮抗薬」と入力すると、4596件がヒットする。こういった問題は他にもあって、ギリシャ文字などは扱うのが難しい。NFκ-B(nuclear factor κ-B)を意図して、「NFkappa-B」と入力すると、1件しかヒットしない。統制語はNF-Kappa Bでスラッシュとスペースの位置が微妙に違うのである。
では、このように予想外にヒット数が低く、どのような用語で検索すればよいのかわからないといったケースではどうしたらよいだろうか?その場合は、統制語が何かを調べるとよい。統制語を調べるにはアドバンスドモードの「候補語辞書の参照」をクリックしてシソーラスを検索する。たとえば、アンギオテンシンⅡ受容体拮抗薬で検索した場合に、あまりにも少ないヒット数で統制語にたどり着いていないことが予想されれば、該当する統制語を調べる。「候補語辞書の参照」の検索窓に「アンギオテンシン」だけ入力して参照ボタンをクリックすれば、「アンギオテンシン」を含むたくさんの同義語、統制語が登場する。それによれば、「アンギオテンシンⅡ受容体拮抗薬」の統制語が「Angiotensin II Receptor Antagonists」であることがわかる。「Angiotensin II Receptor Antagonists」にチェックを入れて「採用」ボタンを押せば、「Angiotensin II Receptor Antagonists/TH」が検索窓にはいって、もっともヒット率の高い検索ができる。NFκ-Bの場合、「nuclear factor」でシソーラス検索すれば、「NF-Kappa B」が統制語であることがわかる。
■絞り込みを上手におこなう
シソーラスを使うことによって、より多くの文献をヒットすることができるが、実際にはかなりの数(数千)がヒットしてしまい、自分が探している文献にたどり着くためには、そこから上手に絞り込みをおこなっていく必要がある。絞り込むためには、条件を複数組み合わせることによっておこなうことが基本となるが、その際には、検索履歴を使うと便利である。また、「絞り込み検索へ」というボタンを押すと「絞り込み検索画面」が開き(右図)、検索結果を様々な条件で絞り込むことが可能である。特に、医中誌データベースは会議録を多く含んでいるので、会議録を除外したいときには、「論文種類」の「会議録除く」にチェックを入れて絞り込むだけで、かなり絞り込むことができる。また、私の場合、医中誌Webで検索するときには、日本語で書かれた総説記事を探すことが多いのだが、その場合は、「論文種類」の「総説」と「解説」にチェックを入れて絞り込むと便利である。
■その他の小技
その他、いくつか検索達人になるための小技を紹介しよう。
・ダブルクォーテーション
医中誌Webではスペースや記号を含む検索語を検索する場合は、一工夫が必要である。たとえば、「amino acids」で検索する場合は、このまま「amino acids」と入力すると、医中誌Webではスペースはandと解釈されるので、「amino」の検索結果と「acids」の検索結果の集合和が検索され2,098件がヒットする。それを避けるためには、"amino acids"という具合にダブルクォーテーションで囲めばよく、こうすれば目的のものが検索され14,560件がヒットする。
・論理演算子
医中誌Webの場合、空白で検索語を切った場合、andと判断される。論理演算子として、論理積(and/スペース/*)、論理和(or/+)、論理差(not)、()が使用できる。
・フィールドの指定
検索語の末尾に/とフィールド名を付けることで検索するフィールドを指定することができる。TH(統制語)、AB(抄録)、AU(著者名)、IN(所属機関)、JN(収載誌名)、TI(タイトル)、AL(All Field)などである。
・完全一致検索
「田中明」という著者名で検索をかけると、487件がヒットし、その中には、「田中明」だけでなく、「田中明彦」「田中明美」などが含まれてしまっている。「田中明」のみを検索したい場合は、検索語全体を[ ]で囲み、フィールドを指定する。つまり、[田中明]/AUを検索窓に入力すればよい。この場合、196件がヒットした。ちなみに、著者名で検索するときには姓と名の間にスペースは入れない。また、英語雑誌の著者名はちょっと扱いが特殊である。ローマ字の著者名もスペースなしで続ける必要がある。たとえば、Yutaka Kobayashiの場合は、KobayashiYutakaで検索する。Kobayashi Yutakaとすると、KobayashiとYutakaの集合和になってしまうので、ものすごい数の検索がヒットしてしまう。ちなみに、2002年以降はすべての著者の名前が入力されているが、それ以前は、必ずしもすべての著者の名前がデータベースに入力されているわけではないので注意されたい。
■全文テキストへのリンク
最後に、もう一つ。検索効率という話ではないが、全文テキストへのアクセスという話をしておく。近年、医学データベースにおいては、全文テキストへのリンクというのが重要な機能となっている。医中誌WebもVer4から、全文テキストへのリンク機能が追加された。検索結果にはオンラインジャーナル等へのリンク、図書館の所蔵検索システムOPAC(Online Public Access Catalogue)へのリンクが張られている。日本語医学文献の場合、まだ全文テキストのオンライン公開が十分には進んでいないが、メディカルオンライン(メテオインターゲートの国内医学雑誌の全文PDF配信サービス)、PubMed、Cross Ref(世界の主要な学術出版社が共同で運営している電子ジャーナルのリンク情報管理提供システム)、Pier Online(サンメディアがホスティングするオンラインジャーナルサイト)、CiNii(国立情報学研究所の論文情報ポータルサイトCiNiiとの相互リンク)のリンクが張られている。今後、日本語文献の全文テキストの公開も進んでいくと思われ、使い心地もよくなっていくことであろう。全文テキストのオンライン公開が進んでいない状況では、各図書館における所蔵状況がわかることは便利であるが、それに関してはOPAC連携によって機能が果たされている(ただし、機関ごとの事前の登録が必要)。検索結果にあるOPACのリンクをクリックするとOPAC検索がダイレクトにおこなわれる。また、機関が所蔵している雑誌だけに所蔵アイコンを表示することもできる。
今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO医学中央雑誌刊行会の松田真美様に感謝いたします。
以上、医学のあゆみ220巻11号「医中誌Webの検索達人をめざす」より許可を得て転載
その他の回は医家向け電脳道具箱の一覧をごらん下さい。