إعداد وتكوين ملف robots.txt لتوجيه عناكب البحث


إعداد وتكوين ملف robots.txt لتوجيه عناكب البحث

إعداد وتكوين ملف robots.txt لتوجيه عناكب البحث

يا هلا والله بالجميع! اليوم بنتكلم عن ملف robots.txt، هذا الملف الصغير بس المهم اللي كثير يغفلون عنه. ببساطة، هو دليلك لعناكب البحث (مثل قوقل وبينج) عشان تقول لهم: "هنا تقدر تدخل، وهنا لا تقرب!".

وش هو ملف robots.txt وليش نحتاجه؟

ملف robots.txt هو ملف نصي بسيط تحطه في الجذر الرئيسي لموقعك (يعني لو موقعك example.com، بيكون مساره example.com/robots.txt). وظيفته الأساسية هي إعطاء إرشادات لعناكب البحث عن الأجزاء اللي مسموح لها تزحف فيها وتفهرسها، والأجزاء اللي ممنوع تدخلها.

ملاحظة مهمة: ملف robots.txt ماهو حماية قوية 100% للمحتوى السري. هو بس توجيه للعناكب اللي تحترم البروتوكول. لو عندك معلومات حساسة جداً، استخدم حماية أقوى مثل كلمة مرور أو منع الوصول من جانب السيرفر.

كيف شكله؟ الأوامر الأساسية

الملف يتكون من سطر أوامر بسيطة. أهمها:

  • User-agent: يحدد عنكبوت البحث اللي توجه له الأمر. ممكن يكون عنكبوت معين (مثل Googlebot) أو لكل العناكب (*).
  • Disallow: يمنع عنكبوت البحث من الوصول لمسار معين.
  • Allow: يسمح لعنكبوت البحث بالوصول لمسار معين، حتى لو كان ضمن مسار ممنوع (هذا مفيد جداً).
  • Sitemap: يحدد مسار ملف خريطة الموقع (Sitemap) عشان تساعد العناكب تكتشف صفحاتك.

أمثلة وتطبيقات عملية

1. منع كل العناكب من كل شيء (نادراً ما تحتاجه!)

هذا بيخلي موقعك مختفي تماماً عن محركات البحث. ممكن تستخدمه لو موقعك تحت الإنشاء وما تبغى أحد يشوفه:

User-agent: *
Disallow: /

2. السماح لكل العناكب بكل شيء

هذا هو الإعداد الافتراضي لو ما عندك ملف robots.txt أصلاً، بس ممكن تحطه كوضوح:

User-agent: *
Disallow:

أو ببساطة:

User-agent: *
Allow: /

3. منع مجلد معين

لو عندك مجلد اسمه private ما تبغى قوقل يوصل له:

User-agent: *
Disallow: /private/

4. منع ملف معين

لو عندك ملف اسمه secret.html في الجذر الرئيسي:

User-agent: *
Disallow: /secret.html

5. السماح بملف داخل مجلد ممنوع

هذي حركة حلوة! لو منعت مجلد images بس تبغى صورة معينة اسمها logo.png تظهر في البحث:

User-agent: *
Disallow: /images/
Allow: /images/logo.png

ترتيب الأوامر: عناكب البحث تمشي على أول أمر يطابق المسار. لو عندك Disallow و Allow لنفس المسار أو جزء منه، الأمر الأكثر تحديداً هو اللي بيفوز. في مثالنا هذا، Allow لـ logo.png أقوى من Disallow لـ images/.

6. منع ملفات معينة بناءً على الامتداد

لو تبغى تمنع كل ملفات الـ pdf:

User-agent: *
Disallow: /*.pdf$

علامة الدولار $ تعني نهاية المسار، والنجمة * تعني أي شيء قبلها.

7. تحديد خريطة الموقع (Sitemap)

هذا السطر بيساعد محركات البحث تعرف وين تلقى خريطة موقعك عشان تفهرس صفحاتك بشكل أسرع وأفضل:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml

وين تحط ملف robots.txt؟

لازم تحطه في الجذر الرئيسي لموقعك. يعني لو موقعك https://www.yourdomain.com/، ملف robots.txt بيكون على هذا المسار: https://www.yourdomain.com/robots.txt.

نصائح أخيرة

  • اختبر ملفك: استخدم أدوات قوقل لمديري المواقع (Google Search Console) عشان تختبر ملف robots.txt وتتأكد إنه شغال صح وما فيه أخطاء.
  • لا تفرط في الاستخدام: لا تمنع صفحات مهمة عن طريق الخطأ، هذا بيضر ترتيب موقعك في البحث.
  • تذكر: منع صفحة في robots.txt ما يعني إنها ما راح تظهر في نتائج البحث أبداً. ممكن تظهر بدون وصف لو روابط خارجية تشير لها. لمنع ظهورها تماماً، استخدم وسم noindex في رأس الصفحة أو استجابة X-Robots-Tag في الـ HTTP.

وبكذا، نكون غطينا أساسيات ملف robots.txt وكيف تستخدمه صح. طبقوها وبتشوفون فرق في طريقة تعامل محركات البحث مع موقعكم. بالتوفيق يا شباب!