2008年06月27日
グーグル幹部が検索品質を語る
CNET Japan『「人間はやっと解かれ始めたばかりのパズル」--グーグル幹部、検索品質を語る』より
Udi Manber氏は、Googleの主な課題を「入力したことに対して、必要な情報を与えてほしい」という人々の期待を代弁する表現を使って要約した。
Udi ManberさんはGoogleの検索に関するエンジニアリング担当バイスプレジデントらしいです。
サンフランシスコで講演したようですね。
こういったポジションの人がグーグルの検索について語るのって珍しいですよね。
ちょっと気になったコメントがあったので、メモとして投稿しようと思います。
Udi Manberさんは次のように語っています。
「ユーザーの質問を理解し、すべての知識を理解し、2つを適合させるのが理想だ」
でも、この理想は今は実現していないので、グーグルはすべてのコンテンツを分析してまとめ、ユーザーのクエリを要約して、2つを適合させようとしているそうです。
これでも、すごく難しそうですが。。
でも、グーグルの目標はすごく高いようです。
Udi Manberさんは次のようにも語ります。
「Googleは、すべての言語で、かつ独自のやり方で、すべての質問に100ミリ秒以下で答えようと努力している。それも無料で」
無料は当たり前のような気がしますが。。。ユーザーに無料で使ってもらって広告で儲けてるんだし。。
有料にしたら、使う人は激減するでしょうから、広告モデルが成り立ちません。。
そして、Udi Manberさんはまだまだ語ります。
「20世紀は自然を侵略した世紀だった。21世紀は人というものを理解する世紀になる」
ふっ、深い。。。20世紀は確かに人間が自然を侵略した100年だったかもしれません。今頃、地球温暖化とか騒いでますが。。
そして、21世紀はコンピュータが人間を理解する100年になるということでしょうか?
まるで映画のようです。
Udi Manberさんはまだまだグーグルの検索について語ってくれます。
Googleが検索結果の順番を決定するのに使用している「シグナル」は100以上あると述べた。言語から場所、さらにはユーザーのそれまでの検索行動まで(これは、ユーザーに合わせて検索結果を表示するGoogleの検索履歴機能が有効に設定されている場合だが)、さまざまなものがシグナルとなる。
100以上というのが微妙ですね。150なのか、それとも500とか800とかあるのかな?
Googleには検索結果の質の分析にのみ従事する、何十人もの人たちからなるチームからなるチームが存在し、何百ものチャートによって質が測定されている。
グーグルというと完全自動化というイメージがありますが、過去の事例を見る限り、人の手も使っていますよね。
また、完全自動化の裏にはたくさんの人がチームになって動いているんですね。
「Googleでわたしが率いているグループは、数ペタバイトの記憶容量を持つ、数千台のマシンを自由に使っている。これはわれわれ専用で、ユーザーのクエリの処理用ではない」
「ペタバイト」って何??と思ったので、調べてみました。
キロバイト(KB)→メガバイト(MB)→ギガバイト(GB)→テラバイト(TB)→ペタバイト(PB)
とにかく、すごい大きなハードディスクを使っているんですね。
ちなみに、ペタバイト(PB)以降は次のような名称のようです。
ペタバイト(PB)→エクサバイト (EB)→ゼタバイト (ZB)→ヨタバイト (YB)
ホームサーバーとかだとテラバイトって出てきますけど、その上のペタバイトというのは初めて聞きました。
あと10年もしたら、ヨタバイトとか普通に使われるのかな?
話をグーグルの検索品質に戻します。
Googleはユーザーで検索アルゴリズムの変更をテストしている。グループ分けされたユーザーは、A/Bスプリットテストと呼ばれる比較プロセスにより、異なる検索結果を受け取ることになる。
どっちの検索結果がいいかテストしているんですね。ユーザーの動向を見てテストしていると思いますが、何を基準にしているのかな?
ちなにみ、2007年は450回ほど検索アルゴリズムを変更したそうです。
グーグルは今まで検索品質については多くを語ってきませんでした。
しかし、今後数ヶ月に間に検索品質について明かしていくとUdi Manberさん言います。
どんなことが明らかになるでしょうか?楽しみですね。
でも、僕はグーグルのアルゴリズムってもう終わっていると思っているんですよね。
昔(1997年頃)は内部要因によって検索順位が決まっていました。
しかし、隠しテキストやメタタグをサイトオーナーが操作したスパムが横行しました。
そこで、外部リンクを評価するページランクというアルゴリズムを持ったグーグルの登場です。
でも、今は誰でも安くサーバーを借りれる時代です。無料で使えるブログやサイトもいっぱいあります。
つまり、リンク自体が自作自演出来てしまいます。500サイトくらい誰でも持てるんですよね。
昔の内部要因のように、サイトオーナーがリンクを操作できてしまう時代です。
だから、リンクポピュラリティーという概念自体がもう終わっていると思っているんですよね。
リンクポピュラリティーの次の概念をグーグルが創り出すのか?それとも、今は無名の会社が創り出すのか?
今のままじゃ、ゴミサイトでも上位に来ることは可能ですからね。
