Google Danceの情報 グーグル ダンス集大成

Googlebot Crawler(クローラー)



●Google Dance トップ
●Google対策
 ・PageRank
 ・テキストマッチ
 ・サイトテーマ
●検索結果と順位変動
・Googlebot
・Google's Data Centers
・Google Dance Tool
・Googleの検索方法
・Google Toolbar
・Google etc
●実録Google上位表示
 ・ローカル編
 ・メジャー編
 ・サイト編
・SEO検索エンジン最適化
・検索エンジンスパム
 ・スパム実践解説サイト
・リンクサイト

・SEO対策 リンク集
●実況 ・2003/05(カウントダウン グーグルダンス・ ネクスト) ・2003/06(カウントダウン2 グーグルダンス・ネクスト2

注意 このページのチップスは、2003年当時の最新情報であり、4年経った今は大きく変化しています。

Googlebotの情報、Googleのロボットの最新情報は、SEO塾ブログでyahooとgoogleの検索対策などをご覧ください。

Googleの巡回ロボット、スパイダーは、Googlebotと名付けられ、またCrawler(クローラー)とも言われています。
 
GoogleのスパイダーGooglebot(グーグルボットクローラー)の一覧
  crawlx.googlebot.com
   
Crawl1 216.239.46.1 216.239.46.30 Crawl21 64.68.85.189 64.68.85.208
Crawl2   216.239.46.31 216.239.46.60   Crawl22   64.68.80.1 64.68.80.30
Crawl3   216.239.46.61 216.239.46.80   Crawl23   64.68.80.31 64.68.80.60
Crawl4   216.239.46.81 216.239.46.110   Crawl24   64.68.80.61 64.68.80.80
Crawl5   216.239.46.111 216.239.46.140   Crawl25   64.68.80.129 64.68.80.158
Crawl6   216.239.46.141 216.239.46.160   Crawl26   64.68.80.159 64.68.80.188
Crawl7   216.239.46.161 216.239.46.189   Crawl27   64.68.80.189 64.68.80.208
Crawl8   216.239.46.190 216.239.46.219   Crawl28   64.68.81.1 64.68.81.30
Crawl9   216.239.46.220 216.239.46.240   Crawl29   64.68.81.31 64.68.81.60
Crawl10   64.68.84.1 64.68.84.30   Crawl30   64.68.81.61 64.68.81.80
Crawl11   64.68.84.31 64.68.84.60   Crawl31   64.68.88.1 64.68.88.30
Crawl12   64.68.84.61 64.68.84.80   Crawl32   64.68.88.31 64.68.88.60
Crawl13   64.68.84.129 64.68.84.158   Crawl33   64.68.88.61 64.68.88.80
Crawl14   64.68.84.159 64.68.84.188   Crawl34   64.68.88.129 64.68.88.158
Crawl15   64.68.84.189 64.68.84.208   Crawl35   64.68.88.159 64.68.88.188
Crawl16 64.68.85.1 64.68.85.30   Crawl36   64.68.88.189 64.68.88.208
Crawl17   64.68.85.31 64.68.85.60            
Crawl18   64.68.85.61 64.68.85.80            
Crawl19   64.68.85.129 64.68.85.158            
Crawl20   64.68.85.159 64.68.85.188            
  crawlerx.googlebot.com
   
Crawler1 64.68.86.1 64.68.86.30 Crawler10   64.68.82.1 64.68.82.30
Crawler2   64.68.86.31 64.68.86.60   Crawler11 64.68.82.31 64.68.82.60
Crawler3   64.68.86.61 64.68.86.80   Crawler12   64.68.82.61 64.68.82.80
Crawler4   64.68.86.130 64.68.86.158   Crawler13   64.68.82.129 64.68.82.158
Crawler5   64.68.86.159 64.68.86.188   Crawler14   64.68.82.159 64.68.82.188
Crawler6   64.68.86.189 64.68.86.208   Crawler15   64.68.82.189 64.68.82.208
Crawler7   64.68.87.1 64.68.87.30   Crawler16      
Crawler8   64.68.87.31
64.68.87.60   Crawler17      
Crawler9   64.68.87.61 64.68.87.80   Crawler18      
 
Deep CrawlDeepbot(ディープクロール:ディープボット)
  Crawl1Crawl9
    海外サイトで見つけた情報ですが、IPが216.239.46.xのGooglebot(グーグルボット)ということです。
    Google Dance終了後に活動を開始して、いくつかのページをインデックスし、PageRank(ページランク)とリンク構造(被リンク状況、リンクポピュラリティ)の"深さ"を確定させるためのロボットらしいです。
   

ちなみにDeep Crawl(ディープクロール)については、国内情報は錯綜しています。
あるところでは月一のインデックス更新のためにページ巡回するロボットのことと書いています。
別のところでは、ディレクトリの下の階層をインデックスするロボットの行動を表現しています。

    ただ実際のサーバーログを見る限りでは、このDeepbotとFreshbotしかきていませんので、Deepbotがいわゆる正規のGooglebotかなと思っています。
    pdfファイルは、このDeepbotだけが収集していますね。
    Main Crawl(メインクロール)と呼ばれることもあります。
 
Fresh CrawlFreshbot(フレッシュクロール:フレッシュボット)
  Crawler10Crawler15
    これも海外サイトの情報ですが、IPが64.68.82.xのGooglebot(グーグルボット)ということです。
    正規の検索用インデックスを集めるロボットとは別の役割を持ったGooglebotということです。これも実際のところ確実な情報はありません。
    ニュースサイトや頻繁に情報を更新するところは、Googleの月一のインデックス更新による検索表示では、何の意味もないため、ほぼリアルタイムで検索に引っ掛かるように、一日に何回もロボットを派遣してページをキャッシュしているとのことです。
    結果表示画面で日付入りキャッシュになっているとか、48時間で消えてしまうとか、突発的に上位表示されるとか、様々な現象が見られます。ただこれがFreshbotの仕業と断定できるのか?
    Freshbot来訪の条件も、PageRank(ページランク)や、ページの更新頻度や、色々取りざたされていますが、確実なことは何一つ分かっていません。
    さらにはFreshbotが来る来ないだけでなく、Fresh Crawl(フレッシュクロール)によって取得したページが検索で表示される条件すら全く把握できていません。
    海外サイト情報によると、FreshbotはhtmlとtxtのみGETするとのことらいしです。
    フレッシュクロールによる日付入りキャッシュによって、瞬間順位変動が起こっています。
    さらにEverfluxと呼ばれる現象があります。月一更新を待たずに順位変動が起こっています。フレッシュクロールによって、インデックスの追加、更新、削除が起こっていると言われています。ここでの順位は、バックリンクやPageRankの再計算は、当然行なっておらず、もっぱらテキストマッチのみでしょう。しかもアンカーテキストも、追加カウントはされていないはず。
    (2003/06/01 17:55追記)
 
Image CrawlImagebot(イメージクロール:イメージボット)
  Crawl10Crawl21 Crawler1Crawler6
    IPが64.68.84.x64.68.85.x64.68.86.xのGooglebot(グーグルボット)"らしい"です。
    去年(2002年)末のサーバーログによると、これらのいくつかは、Googlebot-Image/1.0 (+http://www.googlebot.com/bot.html) というUSER-AGENTにて、イメージファイルを収集して帰った痕跡がありました。Crawl10Crawl13Crawl15Crawl16
    ただし、今年(2003年)はイメージファイルの収集はされていません。
    USAサイト・ページを検索して、推測を交えています。
    (2003/05/27 21:40追記)
 
Other Crawl:他のGooglebot
  Crawl22Crawl30 Crawler7Crawler9
    IPが64.68.80.x64.68.81.x64.68.87.xのGooglebot(グーグルボット)です。
    ところでこのGooglebotの役目、正体は何でしょう?
    IPを判断材料にするならば、これらのGooglebotはFreshbot、ホスト名ならCrawlxがDeepbot、CrawlerxがFreshbotになるでしょう。
    Googleのサーバー(データセンター)のIPは、すべて216.239.x.xとなっています。ここから、同じIPではじまる216.239.46.xのみがDeepbotで、これらの64.68.x.xのIPを持つGooglebotはFreshbotと推察したいですね。
    (2003/05/27 21:45修正)
 
新種?
  Crawl31Crawl36
    IPが64.68.88.xのGooglebot(グーグルボット)です。
    正体は分かりません。
    2003/07/04に初登場です。
    (2003/07/04 21:35追加)
 
結論めいたこと
  実際のところ、サーバーのログを落としてきて色々見ているのですが、何の理屈も浮かびません。
    去年末より今年に入ってからの方がFreshbotの来訪が非常に多くなっています。
    また2003年4月までは、DeepbotとFreshbot以外のGooglebotはほとんどやって来ていません。
    同じ日に、違うGooglebotが複数やって来て、複数ページを取得して帰っています。
    Freshbotが取得したファイルがあっても、検索で表示されない場合がほとんどです。
    参考:Googleクローラ(Googlebot)の巡回&更新周期表
  ※2003年4月29日から、DeepbotとFreshbot以外の他のGooglebotが巡回しています。ホントに何なんでしょう? しかも、IPが64.68.80.xのCrawl23Crawl27です。
  2003/05/10の暫定結論
    IPが64.68.80.xのGooglebotはおそらくFreshbotでしょう。かつ現在はCrawlerxとは別のディレクトリにアクセスしています。正規のFreshbot(IPが64.68.82.x)の方は、たまたまかもしれませんが、Googleディレクトリに登録されている方へ行っています。その他のディレクトリが64.68.80.xに任されている?
ということは、本来Freshbotと呼ばれているものは、重要サイトのフレッシュクロールがその役割であり、たまに一般?サイトも巡回していたのが、4月末ごろ以降、フレッシュクロールのターゲットを拡大し、こちらのサイトは64.68.80.xのFreshbotが巡回するようになった、と。
  2003/05/26の仮説
    今回の更新以降に限ってですが、不思議なパターンを発見しました。64.68.80.xはネガティブクロールとでも呼べるような巡回をしています。robots.txtを見てはいるのですが、かつて取得したURL情報などから、今はリンクされていないファイルを狙ってGETしています。あとはCGIなどの動的ファイルですね。逆にFreshbotの方は、まずrobots.txtを見て、サイトトップやディレクトリなどをGETし、そこからリンクをたどっていくようなパターンですね。まぁ自サイトのみの観測データですから、資料不足なんですが… 情報をお寄せください。
    Googleクローラ(Googlebot)の巡回&更新周期表のzeroさんにうかがったところ、この仮説は成り立たないような… サーバーによっても違うのかな?
  2003年6月11日からは、IPが64.68.84.xCrawl10Crawl1464.68.85.xCrawl16が巡回をしています。
    これはおそらくFreshbotでしょう。Freshbotと認められているロボットと同じディレクトリ・ファイルにアクセスしています。
    Googleの検索と順位、Googlebot、更新などの関係は、検索結果と順位変動
 
情報
  アクセスログで確認できるGooglebotのUSER-AGENTは、Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    64.68.82.28 - - [07/May/2003:15:57:19 +0900] "GET /google/ HTTP/1.0" 200 36657 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
    その他の検索エンジンについては、WEB雑記2 USER-AGENT(サイトを訪れるユーザーエージェントについて)
    上記ログの「200」は、HTTPステータスコードといいます。「301」「302」「304」「401」「404」などと記録されることがあります。
   
ステータス・コード 意味 参照
200 OK   Googlebotのファイル取得   HTTPステータス・コード
HTTPステータスコード
301   Moved Permanently   別のアドレスへ移動  
302   Moved Temporarily   一時的に別のアドレスに移動  
304   Not Modified   未更新  
401   Unauthorized   認証が必要  
404   Not Found   ページなし  
  ついでに、Yahooディレクトリのサーファーが訪問した時のReferer
    http://surf00.yahoo.co.jp:8081/surf/submissions/registration/judgement.cgi
  おまけに、Dmozのエディタが訪問した時のReferer
    http://dmoz.org:8080/editors/editunrev.cgi
http://dmoz.org:8080/editors/editunrev2.cgi
http://dmoz.org:8080/editors/editcat-unrev.cgi


Google Dance グーグル ダンス SEO対策     株式会社アルゴリズム運営のSEO塾