"الزاحف" هو مصطلح عام لأي برنامج (مثل الروبوت أو العنكبوت) يتم استخدامه لاكتشاف مواقع الويب وفحصها تلقائيًا من خلال تتبع الروابط من صفحة ويب إلى أخرى. والزاحف الرئيسي لـ Google اسمه Googlebot. يضم هذا الجدول معلومات عن برامج زحف Google الشائعة التي قد تراها في سجلات المراجع، وكيفية تحديدها في ملف robots.txt والعلامات الوصفية لبرامج الروبوت وأوامر X-Robots-Tag في HTTP.
الزاحف وكلاء المستخدم وكيل المستخدم لطلبات HTTP(S)
Googlebot (بحث الويب من Google) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
أو
(نادرًا ما يستخدم): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot News Googlebot-News
(Googlebot) Googlebot-News
Googlebot Images Googlebot-Image
(Googlebot) Googlebot-Image/1.0
Googlebot Video Googlebot-Video
(Googlebot) Googlebot-Video/1.0
Google للجوال Googlebot-Mobile
[أنواع متعددة من أجهزة الجوال] (compatible; Googlebot-Mobile/2.1؛ +http://www.google.com/bot.html)
Google AdSense للجوال Mediapartners-Google
أو
Mediapartners
(Googlebot) [أنواع متعددة من أجهزة الجوال] (compatible; Mediapartners-Google/2.1؛ +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google
Mediapartners
(Googlebot) Mediapartners-Google
فحص الجودة للصفحة المقصودة من Google AdsBot AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)
robots.txt
عندما يتم التعرف على العديد من وكلاء المستخدم في ملف robots.txt، يتبع Google وكيل المستخدم الأكثر تحديدًا. إذا كنت تريد أن يصبح Google قادرًا على الزحف إلى صفحاتك بشكل تام، فلا يلزمك ملف robots.txt على الإطلاق. إذا كنت تريد حظر أو السماح لجميع برامج الزحف من Google بالدخول إلى بعض محتوياتك، يمكنك إجراء ذلك من خلال تحديد Googlebot كوكيل المستخدم. على سبيل المثال، إذا كنت تريد أن تظهر جميع صفحاتك في بحث Google، وإذا كنت تريد أن تظهر إعلانات AdSense على صفحاتك، فلا يلزمك ملف robots.txt. وبالمثل، إذا كنت تريد حظر بعض الصفحات من الظهور في بحث Google نهائيًا، فسيؤدي حظر وكيل المستخدم Googlebot أيضًا إلى حظر جميع وكلاء المستخدم الآخرين من Google.
ولكن إذا أردت مزيدًا من التحكم بالغ الدقة، يمكن أن تصبح أكثر تحديدًا. على سبيل المثال، قد تريد أن تظهر جميع صفحاتك في بحث Google، ولكن لا تريد أن يتم الزحف إلى الصور في دليلك الشخصي. في هذه الحالة، استخدم ملف robots.txt لمنع وكيل المستخدم Googlebot-Image من الزحف إلى الملفات في دليلك الشخصي (مع السماح لبرنامج Googlebot بالزحف إلى جميع الملفات)، على هذا النحو:
User-agent: Googlebot
Disallow:
User-agent: Googlebot-Image
Disallow: /personal
ولنأخذ مثالاً آخر، لنفترض أنك تريد نشر إعلانات على جميع صفحاتك، لكنك لا تريد أن تظهر هذه الصفحات في بحث Google. في هذه الحالة، يمكن أن تحظر Googlebot، مع السماح لبرنامج Mediapartners-Google، على هذا النحو:
User-agent: Googlebot
Disallow: /
User-agent: Mediapartners-Google
Disallow:
علامة meta لبرامج الروبوت
تستخدم بعض الصفحات عدة علاماتmeta لبرامج الروبوت لتحديد الأوامر لبرامج الزحف المختلفة، على النحو التالي:
وفي هذه الحالة، يستخدم Google إجمالي الأوامر السلبية ويتبع برنامج Googlebot كلاً من الأمرين noindex وnofollow