記事登録
2008年11月13日(木) 11時50分

ゲノミクス研究から誕生、「ディープ・ウェブ」を検索するエンジン『DeepDyve』WIRED VISION

関係記事がどのように関連するかを図示する機能もある

ヒトゲノム計画に参加する科学者たちが立ち上げた研究向け検索エンジンは、『Google』でさえも未踏の領域、「ディープ・ウェブ」に到達すると主張している。

米DeepDyve社の検索エンジン『DeepDyve』は、他の検索エンジンからは拾い上げられないデータの99%(後述するカリフォルニア大学バークレー校の調査を引用した自社評価)を検索するように設計されている。

他の検索エンジンは、主に人気の解釈に基づいてページを返しており、ページが見つかる場合しか機能しない。有料会員しか閲覧できないコンテンツや、ページランクを稼げるほど十分な数のサイトにリンクされていないページなどは人目に触れないままになっている。だが、こうしたコンテンツは往々にして、本格的な研究に必要な原資料を含んでいる。

これは「干草の山の中から針1本を探す」という、古典的な問題だ。存在することはわかっているし、たどり着けることもわかっている……だがどうやって?

DeepDyveは、ゲノミクス[ゲノムと遺伝子を研究する生命科学の一分野]でDNA鎖を識別するのに利用されている手法(パターンや遺伝子記号のマッチングなど)によって、このギャップを埋めようとするものだ。

DeepDyve社の技術は、『KeyPhrase』と名付けたアルゴリズムを使用している。これは1語のキーワードではなく、20語までの句にインデックスをつけるものだ[同社サイトによると、KeyPhraseおよびKeyPhrasesで商標登録したという]。この技術はもともと、長くて複雑なDNA鎖を識別するために考案されたもので、意味を解釈する必要はなく、ゲノム配列解析のための記号認識を行なうだけのものだった。

DeepDyve社の最高経営責任者(CEO)を務めるWilliam Park氏は、ワイアードの取材に応えて次のように語った。「パターン・マッチングを行なっていて、言語にはまったく依存していない。言語としての意味については関知しない」

DeepDyveの最も興味深い機能は、長文のテキストや、2万5000文字までの論文全体でさえも、キーフレーズとして検索を実行する能力だ。これは、『Google Scholar』などの学術資料検索機能との差別化にもなっている(なお、Googleでは32語までしか検索キーに使えない)。

「青い目を構成する遺伝子配列を探そうとすると、膨大な長さになる可能性がある」とPark氏は語る。「いわゆるクエリを非常に長くしなければならない」

DeepDyveは、テキストの文字列全体をスキャンし、頻出する部分を探して、順位を付けて整理し、それが見つかった最も適切な記事を最終的に特定する。

「純粋に統計学的であり、まさにゲノミクスと同じだ」とPark氏。

記事冒頭部分でDeepDyve社が引用したものとして紹介した、カリフォルニア大学バークレー校で行なわれたディープ・ウェブの調査『How Much Information?』は、現在Google社で主席エコノミストを務めるHal Varian氏が2003年に実施したものだ。Varian氏は、ディープ・ウェブには約9万1000テラバイトの情報があるが、そのうちわずか167テラバイトしか表面に出てこないと述べた。

ただし、『Search Engine Land』の編集責任者を務めるChris Sherman氏は、検索されないものの正確な数を突き止めるのは困難だと話す。

Sherman氏は、「情報があることは分かっているがアクセスできないという場合、正確な量を定めるのはほぼ不可能だ」と語り、データベースやコンテンツ管理システムは一般的なウェブ・ページとは異なると指摘する。

Sherman氏自身も、6年前に『The Invisible Web』という本を執筆したときにディープ・ウェブを調査し、利用されていない情報が2〜50倍の範囲内で存在するという結論に至った。

Sherman氏は、DeepDyve社——および同社の無料サービス——について、判例・法令データベースの『LexisNexis』などの競合サービスと比較した場合、こうした未知の領域を探究する大きな可能性を秘めていると考えている。

DeepDyve社は、数ヵ月前の『DEMO』会議で有料会員向けサービスを初めて披露したが、9月11日(米国時間)には広告支援型の無料バージョンを発表した。さらに、同社の検索を利用してコンテンツを公開する新たなパブリッシャーを積極的に探している。

「パブリッシャーを訪問して、『iTunes』のような形で貴社のパートナーにしてください、ともちかけている。知的所有権や著作権の問題が起きない方法でコンテンツを再販するプラットフォームを一緒に確立しましょう、われわれが貴社の情報を見つけやすくします、というわけだ」とPark氏は語る。

DeepDyve社は現在、約5億ページをインデックス化しており、多数のパブリケーションと提携して自社のコンテンツに無料でアクセスできるようにしている。同社は、健康と生命科学および特許に対象を絞ってきたが、今年の10〜12月期には、情報技術、クリーン技術、エネルギーを含む物理科学に範囲を拡大する計画だ。

[米Cuil社は今年7月、“世界最大”と称する検索エンジン『Cuil』を一般に向けて公開した。1200億ページをインデックスしており、「他のどの検索エンジンと比べても3倍以上大きい」と同社は主張している]

http://headlines.yahoo.co.jp/hl?a=20081113-00000003-wvn-sci