Top > コラム&レビュー
コラム&レビュー
   
アウトサイダーが見た図書館(4)〜「蔵書のデジタル化」の実態
 図書館の蔵書をデジタル化してテキストデータとしてインターネットに公開するという話が、いよいよ現実のものになってきました。既にご存知と思いますが、2004年12月14日(PST)に米国Googleが5つの図書館との共同プロジェクトを発表しました。プレスリリースの要点は以下の通りです。
  1. 同社はハーバード大学、スタンフォード大学、ミシガン大学、オックスフォード大学、ニューヨーク公共図書館(NYPL)と協力し、その蔵書をスキャンしてデジタル化し、Web上のGoogleサーチを通じて全世界のユーザーに公開する作業を進めている。
  2. Googleサーチの検索結果に関連する本がある場合、同社の「Google Print」へのリンクが表示される。そのページでは、著作権失効(正確にはPublic Domain)であれば全文を、著作権有効の場合は抜粋と書誌データ(どちらか一方の場合もある)を読める。
 
 ここに出てくる「Google Print(TM)」は、本の内容(通常は部分的)を実際の組体裁で、中身の読める商品見本としてWebに公開する出版社向けのサービスです。Googleは「Buy this Book」リンクで取引先のオンライン書店に誘導したり、広告と併用することを奨めています。類似のサービスとしては米国Amazon.comの「Search Inside the Book(R)」が既に同社サイトで実用化されていますし、自社Webサイトで本の一部を見せている出版社は珍しくありません。PDFと異なる点は1ページ分ずつ転送されることです。これだと読む側も楽です。
 
 しかし、どうもこのプレスリリースだけでは要領を得ません。Googleサーチを経由しないと読めないのでは「情報の囲い込み」ではないのでしょうか。そこでハーバード大学図書館のサイトを覗いてみると、少し具体的なことがわかってきました。

ハーバード大学図書館
 ※大学図書館のホームページへリンク。発表本文とFAQへのリンクあり。
  1. 今回発表されたGoogleとのデジタル化プロジェクトは試行的なパイロット・プロジェクトである。
  2. デジタル化の対象は同校の約1500万冊の蔵書からランダムに選ばれる4万冊。新聞などの大判の図書資料、大学の各種記録文書、その他の冊子体ではない資料は含まれない。
  3. デジタル化される対象には著作権有効の本も失効の本も含まれる。
  4. デジタル化作業はGoogleの技術者により同校構内にある図書収蔵庫(Harvard Depository)で行わる。Googleが持ち込む高速スキャナ(※詳細不詳)でデジタルイメージに変換し、テキストへの変換と校正はGoogle社内で行う。作業は今後数ヶ月間行われる予定。
  5. 使用される高速スキャナは資料を傷めにくいもの(もちろん本の解体は不要)であることを確認済みだが、スキャンに適さない資料は対象から除外する。
  6. デジタル化に着手しても、本の収蔵や購入をやめることは考えていない。デジタル化の適否を見極める基準づくりも当プロジェクトの目的の一つ。
  7. 同校がGoogleとさらに大規模なプロジェクトを実施するかどうかは、当プロジェクトの状況を見て決定される。(※図書館側はかなり乗り気の様子だが、既に実施中の別のデジタル化プロジェクトとの兼ね合いもある)
  8. 当プロジェクトでデジタル化された資料がGoogleサーチでアクセスできるようになる時期は未定。
  9. 当プロジェクトのデジタル化に関わる費用は一切をGoogleが負担する。
 「タダならやってみようか」というところでしょうか。
 
スタンフォード大学図書館
 ※大学のプレスリリースへリンク。スキャナ説明ビデオあり。

  スタンフォード大学はGoogleの創業者コンビ、Larry Page氏とSergey Brin氏の母校です。そのためか、同校の公式発表は極めて好意的…というよりセールスプロモーションのようです。中身は希薄で、蔵書を10万冊から100万冊の単位でデジタル化すること、およびデジタル化の作業はGoogle社内で行われる(実は大学のすぐ隣にある)ということ以外、スケジュールや費用などプロジェクト詳細は不明です。
 なお、同校のWebページには高速スキャナがちらりと見える2分間ほどのビデオが掲載されています。私は未確認ですが、興味のある方はアクセスしてみて ください。スキャナの使用開始は2002年とのことです。
 
ミシガン大学図書館
 ※大学のプレスリリースへリンク。Q&Aへのリンクあり。

  ミシガン大学は最も野心的で、約700万冊の蔵書を全てデジタル化する予定だと発表しました。「これを従来の方法でデジタル化するには1000年かかる」ということですが、このプロジェクトでは6年で完了させる予定だそうで、大学側はかなり期待しています。Googleは2002年に同校に声をかけ、構内で密かに高速スキャナのテストを続けてきました。現在はパイロット・プロジェクトですが数カ月以内に本プロジェクトに移行する予定です。対象が専門書中心の全蔵書ということで著作権の扱いにはかなり神経質になっているようです。費用については説明がありません。
 
オックスフォード大学図書館
 ※大学のプレスリリースへリンク。

  オックスフォード大学の場合はデジタル化の対象が明解です。19世紀の出版物のコレクションである「ボドリーアン図書館」(The Bodleian)をデジタル化すると発表しました。本以外に逐次刊行物も含まれ、中にはチャールズ・ダーウィンやエドガー・アラン・ポーの著作(当然、初版本なのでしょう)もあります。これらは明らかに著作権失効ですから、全文が公開されることになりそうです。稀覯書と呼んでもいい本を傷めずににスキャンすることは必須条件です。
 
ニューヨーク公共図書館
 ※プレスリリースへリンク。

  代表的な公共図書館であるNYPLの場合は少し違いがあります。89館からなるこの図書館ネットワークの総責任者Paul LeClerc氏によれば、同館の約2000万冊の蔵書から次の3つの基準を全て満たす本を選ぶそうです。
  1. 著作権失効(Public Domain)であること。
  2. スキャン作業で破損する恐れがないこと。
  3. 利用者の関心が高いこと。
 また、デジタル化した本は、GoogleサーチだけでなくNYPLのWebページからも アクセスできるようになり、誰でも全文を読めるようになります。ただし、これ はパイロット・プログラムで、デジタル化する本の総数は公表されていません。 小手調べというところです。NYPLの予算は非公開ではないので具体的な費用は調 べられそうですが、こちらも無償かもしれません 。
 
  ◆素朴な疑問◆

  このように図書館ごとに方針が微妙に異なります。ビジネス的な観点からいろいろ透けて見えてくることがありますが、それは省略し、一番気になることを1点あげておくことにします。
   
   それは「なぜGoogleのスキャナはそんなに速いのか?」という疑問です。GoogleはXerox、HP、Kodakなどと違い、ドキュメントを「物」として取り扱うノウハウを持っていません。そこで私はソフトウェアによる画像処理を最大限に利用しているのではないかとにらんでいます。一般的なフラットベッドスキャナでは本のノドに近い部分がうまく読めず、無理して本を傷めることが多いものです。しかし、本を平らに開けなくても、複数のカメラで1ページを同時に分割撮影し、ソフトで合成してしまえばなんとかなります。モノクロでよければレーザースキャンでもOKです。文字が少しぼけていたり、ページが多少傾いたり歪んだりしても補正できます。これを銀行にある「お札」を数える機械のようなスピードでやるとすればどうでしょう。ページが完成してしまえば文字認識ソフトでテキスト化するのは簡単です。これらの機能を個別に持つソフトは既に存在します(実は私も持っています)が手作業では膨大な時間がかかります。Googleのスキャナは強力なコンピュータを利用して、これらの作業を高速化し自動化したものだと思います。(CTスキャンのような全く別の原理を利用するという可能性もありますが…)
   
   残る問題は「どうやって本のページをめくるのか?」ということです。私には、深夜の図書館で黙々とページをめくりながら、ひたすら本を読むロボットの姿が見えるような気がします。ホンダのASIMOのように走ってみせたり、ソニーのQRIOのように太極拳をしてみせたりするのも機械工学的に無意味ではありませんが…『他にやるべきことがあるでしょう、日本のロボット諸君!』
   
  [注] "Public Domain"は必ずしも著作権が期限切れになったことだけを意味しませんが、記述の簡略化のため「著作権失効」という表現を使っています。
   
当コラムのご感想は、reference-club@nichigai.co.jp まで。
  BackNext 2005/1/6 UP

大串夏身氏の肖像

田村 洋一 <タムラ・ヨウイチ>
 東京生まれ。1973年、図書館学講習修了。SEとして日米のコンピュータ会社に勤務し業界の栄枯盛衰を目の当たりにしてきた。現在はフリーの翻訳者、編集者、ライター。仕事がら海外のWebサーチを頻繁に利用している。「書物には内容に相応しい装丁があるべき」と考え、自分の眼を信じる美術愛好家でもある。

 
(C)日外アソシエーツ株式会社