医家向け電脳道具箱その弐「医学中央雑誌刊行会訪問記」
■医学中央雑誌刊行会を訪問した
医学中央雑誌(医中誌)といえば、日本語文献データベースのほとんど唯一無二の存在。医学英語文献を探すならPubMed、医学和文文献を探すなら医中誌Webというくらい、医師・医学研究者にはなくてはならない存在である。今回、医中誌を発行しているNPO法人医学中央雑誌刊行会を訪問し、お話しを伺う機会があった。医学情報データベースの裏側を見ることができる貴重な機会であったので紹介したい。
■個人事業として始まった医中誌
医中誌は1903年(明治36年)に刊行された抄録誌である(図1)。医中誌の初代の主幹、尼子四郎(1865〜1930)は、1887年に広島医学校を卒業後、芸備医学会(現在の広島医学会)創立に関わるなどの活動を経て、1903年に東京の谷中で開業、すぐに千駄木に移り、同年、医中誌を刊行した。この千駄木での開業時代に、同じ町内に住んでいた夏目漱石に主治医として、また友人として親しんだ。「吾輩は猫である」の登場人物「甘木先生」のモデルは尼子四郎であったとされている。
創刊当時の医中誌の編集・発行の作業は家内工業的であったが、二代目理事長、尼子富士郎(1928-1972年、医学中央雑誌刊行会理事長、医中誌発行の功績により多くの賞を受賞した)の時代になっても、編集・発行作業の方法は創刊時とそれほど変わらなかったらしい。現在の医学中央雑誌刊行会は、「こんなところに!」というような杉並区高井戸の閑静な住宅街にひっそりと建っている(図2)。現在の社屋は二代目の理事長であった尼子富士郎氏の自宅あとに建てられたもので、改築される前は尼子富士郎氏の自宅を兼ねていた。尼子富士郎氏は高井戸にある浴風会病院の医長を兼務しており、浴風会病院と自宅兼事務所を往復する日々を送っていた。文献の採択、抄録の編集、校正については、すべて尼子富士郎氏が目を通していたという。
医中誌創刊時の年間収録文献数は2000件弱(収載誌約60誌)で、月1回の発行だったが、現在では、年間収録文献数は30万件を超えている(収載誌約2400誌)。医中誌の形態は時の流れとともに変わってきており、長い間冊子体として提供されていたが、1992年よりCD-ROM版の提供が始まり、2000年よりインターネットによる医中誌Webの提供が始まると、読む雑誌というより、検索のためのデータベースとしての意味合いが強くなってきた。そして、冊子体での発行は2002年終了、CD-ROM版の提供も2006年3月に終了、現在ではインターネットによる医中誌Web(法人向け、図3)、医中誌パーソナルWeb(個人向け)による提供のみとなっている。医中誌データベースは長い間、そして現在においても、医学、歯学、薬学、看護学、獣医学および関連領域の国内の最大の文献データベースとして活用されている。
■医中誌の抄録は第三者抄録が中心
今回、医中誌データベースの作製過程を伺ったのだが、データベースが完全電子化され、閲覧もインターネットベースになっているにもかかわらず、データベース作製の過程において多くのステップに人手がかかっているということに驚いた。出版社からデジタルデータが送られてきてそれをデータベースに流し込んでいるという、ほとんど自動化されている作業を私はイメージしていた。しかし、日本の出版社の電子化が遅れていることなど、様々な要因によって、自動化できない部分が多いとのことであった。
また、恥ずかしながら私が知らなかったのが、医中誌データベースに掲載される抄録の多くが第三者抄録であるという点であった。Medlineでは原文の抄録がそのまま抄録として収載されているが、医中誌データベースでは長い間にわたって第三者抄録を原則としていた。第三者抄録とは専門家である第三者が論文を読み、独自に抄録をまとめたものである。医中誌データベースに収載されているデータは原著論文の他に総説、解説記事、会議録など多岐にわたるのが特徴であるが、原著論文には原則として抄録を付けることになっている。おおよそ90%の原著論文には抄録が付与されている。その他、総説や解説などにも場合によっては抄録が付与される。近年では、学会、出版社の了解を得て、著者が書いた抄録(著者抄録)をそのまま掲載する方向で進んでいるが、現在でも、抄録のうち著者抄録は3割にとどまり、7割が第三者抄録である。また、日本の学会誌が発行している英文誌も医中誌データベースに収録されるが、その場合、日本語の第三者抄録を付けることになっている。このあたりは日本語で情報を提供するという医中誌データベースのこだわりが感じられる。著者抄録と第三者抄録の見分け方は、医中誌Webで抄録の末尾に「著者抄録」と但し書きがついているものが著者抄録であり、但し書きがついていないのが、第三者抄録である。
■実際に文献を見ながらインデクシングがおこなわれる
データベースの機能を高めるためにインデクシングという作業が重要である。インデクシングとは、医学中央雑誌刊行会発行の「医学用語シソーラス」に基づいて、各文献にキーワード、副標目、チェックタグ、研究デザインタグなどを付与する作業である。「医学用語シソーラス」と、膨大な同義語が登録されている用語辞書を元に、タイトルからキーワードの自動抽出がおこなわれるが、最終的には、インデクサーが実際の文献に目を通しながら、キーワードを付与するという、これまた手作業である。実際にインデクシングを行うのは職員約10名、契約者約20名のインデクサーで、毎月25000件あまりの文献にインデクシングをおこなっている。一人のインデクサーが1日に100件近くの文献にインデクシングをおこなっていることになる。
■医中誌データベースの作製過程
では、医学中央雑誌データベースがどのようにして作られているのか、具体的な作業を紹介する。
(1)資料の収集と採択
医中誌データベースに収録される文献情報のもととなる資料は国内の大学、研究所、病院などから発行されている紀要や学内誌、各学会が発行する会議録、医学系出版社が発行する商業誌、公共資料や講演集などで、現在は約2400誌を数える。資料の半数は学会、大学、病院、出版社からの寄贈であり、半数は購入したものである。資料の採択は1〜2ヶ月に一度の検討会で決められている。
(2)文献の採択
届いた資料に掲載された論文、記事のうちどれをデータベースにのせるのかを担当者が決める。たとえば、掲載されている論文でも医学と関連が薄いと思われる論文(たとえば、野生動物の生態)は採択されない。また、インタビュー記事や書評などは採択されない。採択された文献には論文種類が指定され、同時に抄録が付与されるかどうかが決められる。
(3)書誌情報の入力
文献の書誌情報の入力は外部の専門の業者に依頼している。業者によって入力されたデータは医中誌データベース作成システムにのせられ、以降の作業はローカルネットワークシステム上でおこなわれる。また、この段階のデータは<Pre 医中誌>として公開される。なお、Medlineの場合、書誌情報、著者抄録などは出版者側からデジタルデータで渡されることが大半であるが、日本の場合、少しずつそのようなケースも増えているが、今でも多くの文献は書誌情報の入力が必要とのことである。
(4)抄録の作成
書誌情報の入力と並行して抄録の作成がおこなわれる。抄録が存在し、学会、出版社からの了解が得られれば著者抄録が収録される。その他の場合は、外部の専門家(50名ほどの抄録作成者がいる)に依頼して第三者抄録を作成する。
(5)インデクシング
データ作成の最終段階としてインデクシングがおこなわれる(図4)。インデクシングでは、医学中央雑誌発行の「医学用語シソーラス」に基づいて、キーワード、副標目、チェックタグ、研究デザインタグを付与される。インデクシングが終了すると、毎月1日と16日に完成データとして追加される。
(1)〜(5)の行程に、最短で1ヶ月、平均3〜4ヶ月かかっている。今後、この行程をどれだけ短くできるかが現在の課題とのことである。
以上、医中誌データベースの作製過程について紹介したが、抄録誌の刊行、データベースの運営は経済的にも困難が伴うことは想像に難くない。諸外国においてはそのほとんどが公共機関に依存している中、100年を超える長きにわたって独自の情報を提供してきた医学中央雑誌刊行会の活動に敬意を払いたい。また、日本語文献特有の困難がある中、高い検索ヒット率を確保している医中誌データベースの中身に強い興味を持った。その秘密については次回紹介させて頂きたいと思う。
今回のエッセイを書くに当たり、多くの資料を提供してくださったNPO法人医学中央雑誌刊行会の松田真美様に感謝いたします。
以上、医学のあゆみ220巻7号「医学中央雑誌刊行会訪問記」より許可を得て転載
その他の回は医家向け電脳道具箱の一覧をごらん下さい。