記事登録
2007年11月16日(金) 19時33分

「非公開」でも「拒否設定」しないと グーグル・ロボットで「情報流出」J-CASTニュース

 Winnyなどでの情報流出が相次ぐなか、今度は検索エンジン経由の情報流出が発覚した。サーバーにアップロードしていた資料が、検索エンジンの「ロボット」に引っかかるようになっていた。ロボットから逃れるには、明示的に巡回を拒否するという設定が必要だ。

■作業ミスで外部からアクセスできる状態に

 流出したのは、NHKの子会社「NHKエンタープライズ(NEP)」が文化庁から企画運営を委託されているイベント「国際文化フォーラム」に関連する資料だ。同イベントは奈良市で2007年11月10日に開幕。開会式には秋篠宮ご夫妻もご出席なさったが、流出した資料には、ご夫妻の日程や宿泊先、会場の見取り図も含まれていた。

 文化庁が11月12日、グーグルで資料の内容が検索できることをNEPに指摘して問題が発覚した。

 NEPが調査したところ、問題のデータは、同社の契約スタッフが試用していたサーバーに保存されていたもので、元々はIDとパスワードがないとアクセスできない設定になっていた。しかし、作業ミスで外部からアクセスできる状態になっていたため、グーグルで検索可能になっていた模様だ。

 指摘を受けたNEPは、直後にサーバーからデータを削除、グーグルにも検索結果に反映されないように依頼し、11月14日に対応が完了したという。問題となったデータがサーバーにアップロードされたのは11月5日なので、10日近くにわたって、データが一般にさらされていたことになる。

■「そのサーバーの存在を隠しておくことはほぼ不可能です」

 グーグルでは、「グーグルボット(Googlebot)」と呼ばれるロボットがウェブ上を巡回しており、ロボットが「探検した成果」が、検索対象としてデータベースに反映される仕組みだ。しかも、「私のサイトは、どこからもリンクをされていないから見つからない」という訳にはいかないようなのだ。

 グーグルが提供しているウェブサイト管理者向けの文書には「Googlebot が 『非公開』のウェブサーバーから情報をダウンロードするのはなぜですか」という質問項目があり、その答えでは

  「ウェブサーバーへのリンクを公開しなくても、そのサーバーの存在を隠しておくことはほぼ不可能です」

と断言している。
 グーグルボットから逃れるためには、明示的に巡回を拒否するという設定が必要だ。今回の流出事件は、ID・パスワードをかけていなかったのはもちろん、この設定を怠っていたことが原因だとも言えそうだ。


■関連記事
日本のメディア芸術100選 「エヴァンゲリオン」「スラムダンク」が1位 : 2006/10/04
新聞「読む」が79%、「読まない」が21% : 2007/09/10
NHK未払い訴訟 費用かさみ「倒産」説 : 2006/10/06
受信料義務化見送りでNHKが恐れる事態 : 2007/03/29
NHK情報流出で判明 北海道庁の絶大な威光 : 2007/02/19

http://headlines.yahoo.co.jp/hl?a=20071116-00000002-jct-soci