![]()
Top > コラム&レビュー
| アウトサイダーが見た図書館(4)〜「蔵書のデジタル化」の実態 | |||
|---|---|---|---|
図書館の蔵書をデジタル化してテキストデータとしてインターネットに公開するという話が、いよいよ現実のものになってきました。既にご存知と思いますが、2004年12月14日(PST)に米国Googleが5つの図書館との共同プロジェクトを発表しました。プレスリリースの要点は以下の通りです。
|
|||
| ここに出てくる「Google Print(TM)」は、本の内容(通常は部分的)を実際の組体裁で、中身の読める商品見本としてWebに公開する出版社向けのサービスです。Googleは「Buy this Book」リンクで取引先のオンライン書店に誘導したり、広告と併用することを奨めています。類似のサービスとしては米国Amazon.comの「Search Inside the Book(R)」が既に同社サイトで実用化されていますし、自社Webサイトで本の一部を見せている出版社は珍しくありません。PDFと異なる点は1ページ分ずつ転送されることです。これだと読む側も楽です。 | |||
|
しかし、どうもこのプレスリリースだけでは要領を得ません。Googleサーチを経由しないと読めないのでは「情報の囲い込み」ではないのでしょうか。そこでハーバード大学図書館のサイトを覗いてみると、少し具体的なことがわかってきました。 ◆ハーバード大学図書館◆ ※大学図書館のホームページへリンク。発表本文とFAQへのリンクあり。
|
|||
| ◆スタンフォード大学図書館◆ ※大学のプレスリリースへリンク。スキャナ説明ビデオあり。 スタンフォード大学はGoogleの創業者コンビ、Larry Page氏とSergey Brin氏の母校です。そのためか、同校の公式発表は極めて好意的…というよりセールスプロモーションのようです。中身は希薄で、蔵書を10万冊から100万冊の単位でデジタル化すること、およびデジタル化の作業はGoogle社内で行われる(実は大学のすぐ隣にある)ということ以外、スケジュールや費用などプロジェクト詳細は不明です。 なお、同校のWebページには高速スキャナがちらりと見える2分間ほどのビデオが掲載されています。私は未確認ですが、興味のある方はアクセスしてみて ください。スキャナの使用開始は2002年とのことです。 |
|||
| ◆ミシガン大学図書館◆
※大学のプレスリリースへリンク。Q&Aへのリンクあり。 ミシガン大学は最も野心的で、約700万冊の蔵書を全てデジタル化する予定だと発表しました。「これを従来の方法でデジタル化するには1000年かかる」ということですが、このプロジェクトでは6年で完了させる予定だそうで、大学側はかなり期待しています。Googleは2002年に同校に声をかけ、構内で密かに高速スキャナのテストを続けてきました。現在はパイロット・プロジェクトですが数カ月以内に本プロジェクトに移行する予定です。対象が専門書中心の全蔵書ということで著作権の扱いにはかなり神経質になっているようです。費用については説明がありません。 |
|||
| ◆オックスフォード大学図書館◆
※大学のプレスリリースへリンク。 オックスフォード大学の場合はデジタル化の対象が明解です。19世紀の出版物のコレクションである「ボドリーアン図書館」(The Bodleian)をデジタル化すると発表しました。本以外に逐次刊行物も含まれ、中にはチャールズ・ダーウィンやエドガー・アラン・ポーの著作(当然、初版本なのでしょう)もあります。これらは明らかに著作権失効ですから、全文が公開されることになりそうです。稀覯書と呼んでもいい本を傷めずににスキャンすることは必須条件です。 |
|||
| ◆ニューヨーク公共図書館◆
※プレスリリースへリンク。 代表的な公共図書館であるNYPLの場合は少し違いがあります。89館からなるこの図書館ネットワークの総責任者Paul LeClerc氏によれば、同館の約2000万冊の蔵書から次の3つの基準を全て満たす本を選ぶそうです。
|
|||
| ◆素朴な疑問◆ このように図書館ごとに方針が微妙に異なります。ビジネス的な観点からいろいろ透けて見えてくることがありますが、それは省略し、一番気になることを1点あげておくことにします。 |
|||
| それは「なぜGoogleのスキャナはそんなに速いのか?」という疑問です。GoogleはXerox、HP、Kodakなどと違い、ドキュメントを「物」として取り扱うノウハウを持っていません。そこで私はソフトウェアによる画像処理を最大限に利用しているのではないかとにらんでいます。一般的なフラットベッドスキャナでは本のノドに近い部分がうまく読めず、無理して本を傷めることが多いものです。しかし、本を平らに開けなくても、複数のカメラで1ページを同時に分割撮影し、ソフトで合成してしまえばなんとかなります。モノクロでよければレーザースキャンでもOKです。文字が少しぼけていたり、ページが多少傾いたり歪んだりしても補正できます。これを銀行にある「お札」を数える機械のようなスピードでやるとすればどうでしょう。ページが完成してしまえば文字認識ソフトでテキスト化するのは簡単です。これらの機能を個別に持つソフトは既に存在します(実は私も持っています)が手作業では膨大な時間がかかります。Googleのスキャナは強力なコンピュータを利用して、これらの作業を高速化し自動化したものだと思います。(CTスキャンのような全く別の原理を利用するという可能性もありますが…) | |||
| 残る問題は「どうやって本のページをめくるのか?」ということです。私には、深夜の図書館で黙々とページをめくりながら、ひたすら本を読むロボットの姿が見えるような気がします。ホンダのASIMOのように走ってみせたり、ソニーのQRIOのように太極拳をしてみせたりするのも機械工学的に無意味ではありませんが…『他にやるべきことがあるでしょう、日本のロボット諸君!』 | |||
| [注] "Public Domain"は必ずしも著作権が期限切れになったことだけを意味しませんが、記述の簡略化のため「著作権失効」という表現を使っています。 | |||
| 当コラムのご感想は、reference-club@nichigai.co.jp まで。 | |||
| Back|Next | 2005/1/6 UP | ||
| 田村 洋一 <タムラ・ヨウイチ> |
|||