検索エンジンとしておなじみの Google 。天気予報や株価といったポータルサイトとしてではなく、検索に重点を置いて、実際に使ってみても応答も早い、検索エンジンの最高水準と言った感じです。
そんなGoogleの表示に、いくつか別のバリエーションが存在するようです。
http://www.google.com/linux
http://www.google.com/mac
http://www.google.com/microsoft
http://www.google.com/bsd
http://www.google.com/unclesam?
有名といえば有名です。
この手の検索エンジンは、自動的にページにあるリンクを次々にたどって、ひたすらWebページをデータベースに追加していくそうです。この単純な仕組みはサイト管理人としては「外部からリンクさえ張られていれば、勝手に検索されるようになる」というメリットがありますが、それがかえって不都合な場合もあります。
そういう状況はあまり思い浮かびませんが、例えば内輪向けに作ったページなど、検索から来られると困るなぁ... という場合などです。そんなときのために、検索エンジンへの登録を防ぐための方法があり、そのうちのひとつがrobots.txtの使用です。
robots.txtには、「ここに書いてあるディレクトリ以下は巡回しないでね」という指示を書いておき、サーバにアップしておきます。すると、検索ロボットはまずrobots.txtを読み、指示通りに巡回します。
Googleの場合も、他社の検索エンジンに巡回されないためか、自社のロボットをはじくためかわかりませんが、
http://www.google.com/robots.txtは存在します。
ここを調べるとある程度推測できてしまう、というわけです。

コメントする