منع الصفحات أو إزالتها باستخدام ملف robots.txt
يقيد ملف robots.txt file الدخول إلى موقعك بوحدات روبوت محركات البحث التي تزحف على الويب. وبرامج التتبع هذه تلقائية، وقبل أن تصل إلى صفحات أحد المواقع، تتحقق أولاً من وجود ملف robots.txt الذي يمنعها من الوصول إلى صفحات محددة. (جميع برامج الروبوت حسنة السمعة تحترم الأوامر المضمنة في ملف robots.txt، إلا أن البعض قد يفسرها على نحو مختلف. ومع ذلك، ليس ملف robots.txt ملزمًا، وقد يتجاهله بعض مرسلي الرسائل غير المرغوب فيها ومثيري المتاعب الآخرين. ولهذا السبب، ننصح باستخدام كلمة مرور لحماية المعلومات السرية.)
ولا يلزم ملف robots.txt إلا إذا كان موقعك يتضمن محتوى لا تريد أن تفهرسه محركات البحث. أما إذا أردت أن تفهرس محركات البحث جميع محتوى موقعك، فلا يلزمك وجود ملف robots.txt (حتى ولو كان فارغًا).
على الرغم من أن محرك بحث Google لن يزحف إلى محتوى الصفحات الممنوعة عن طريق ملف robots.txt أو يفهرس هذا المحتوى، إلا أننا قد نستمر في فهرسة عناوين URL إذا وجدناها على صفحات أخرى على الويب. ونتيجة لذلك، قد يظهر عنوان URL للصفحة وربما المعلومات الأخرى المتاحة بشكل عام مثل النص الأساسي لروابط الموقع، أو العنوان من مشروع الدليل المفتوح (
[ندعوك للتسجيل في المنتدى أو التعريف بنفسك لمعاينة هذا الرابط] ضمن نتائج بحث Google.
لاستخدام ملف robots.txt، يلزم الدخول إلى جذر النطاق (وإن لم تكن متأكدًا من ذلك، فراجع الأمر مع مضيف الويب). إذا لم يكن لك حق الوصول إلى جذر النطاق، فيمكنك تقييد الوصول باستخدام علامة وصفية لبرامج الروبوت.
لمنع إدراج محتويات الصفحة تمامًا في فهرس الويب لـ Google، حتى ولو كانت المواقع الأخرى بها روابط إليها، استخدم العلامة الوصفية لمنع الفهرسة. وأثناء بحث Googlebot عن الصفحة وجلبها إياها، ترصد العلامة الوصفية لمنع الفهرسة وتمنع ظهور هذه الصفحة في فهرس الويب.