إعداد وتكوين ملف robots.txt لتوجيه عناكب البحث
يا هلا والله بالجميع! اليوم بنتكلم عن ملف robots.txt، هذا الملف الصغير بس المهم اللي كثير يغفلون عنه. ببساطة، هو دليلك لعناكب البحث (مثل قوقل وبينج) عشان تقول لهم: "هنا تقدر تدخل، وهنا لا تقرب!".
وش هو ملف robots.txt وليش نحتاجه؟
ملف robots.txt هو ملف نصي بسيط تحطه في الجذر الرئيسي لموقعك (يعني لو موقعك example.com، بيكون مساره example.com/robots.txt). وظيفته الأساسية هي إعطاء إرشادات لعناكب البحث عن الأجزاء اللي مسموح لها تزحف فيها وتفهرسها، والأجزاء اللي ممنوع تدخلها.
ملاحظة مهمة: ملف
robots.txtماهو حماية قوية 100% للمحتوى السري. هو بس توجيه للعناكب اللي تحترم البروتوكول. لو عندك معلومات حساسة جداً، استخدم حماية أقوى مثل كلمة مرور أو منع الوصول من جانب السيرفر.
كيف شكله؟ الأوامر الأساسية
الملف يتكون من سطر أوامر بسيطة. أهمها:
User-agent: يحدد عنكبوت البحث اللي توجه له الأمر. ممكن يكون عنكبوت معين (مثلGooglebot) أو لكل العناكب (*).Disallow: يمنع عنكبوت البحث من الوصول لمسار معين.Allow: يسمح لعنكبوت البحث بالوصول لمسار معين، حتى لو كان ضمن مسار ممنوع (هذا مفيد جداً).Sitemap: يحدد مسار ملف خريطة الموقع (Sitemap) عشان تساعد العناكب تكتشف صفحاتك.
أمثلة وتطبيقات عملية
1. منع كل العناكب من كل شيء (نادراً ما تحتاجه!)
هذا بيخلي موقعك مختفي تماماً عن محركات البحث. ممكن تستخدمه لو موقعك تحت الإنشاء وما تبغى أحد يشوفه:
User-agent: *
Disallow: /
2. السماح لكل العناكب بكل شيء
هذا هو الإعداد الافتراضي لو ما عندك ملف robots.txt أصلاً، بس ممكن تحطه كوضوح:
User-agent: *
Disallow:
أو ببساطة:
User-agent: *
Allow: /
3. منع مجلد معين
لو عندك مجلد اسمه private ما تبغى قوقل يوصل له:
User-agent: *
Disallow: /private/
4. منع ملف معين
لو عندك ملف اسمه secret.html في الجذر الرئيسي:
User-agent: *
Disallow: /secret.html
5. السماح بملف داخل مجلد ممنوع
هذي حركة حلوة! لو منعت مجلد images بس تبغى صورة معينة اسمها logo.png تظهر في البحث:
User-agent: *
Disallow: /images/
Allow: /images/logo.png
ترتيب الأوامر: عناكب البحث تمشي على أول أمر يطابق المسار. لو عندك
DisallowوAllowلنفس المسار أو جزء منه، الأمر الأكثر تحديداً هو اللي بيفوز. في مثالنا هذا،Allowلـlogo.pngأقوى منDisallowلـimages/.
6. منع ملفات معينة بناءً على الامتداد
لو تبغى تمنع كل ملفات الـ pdf:
User-agent: *
Disallow: /*.pdf$
علامة الدولار $ تعني نهاية المسار، والنجمة * تعني أي شيء قبلها.
7. تحديد خريطة الموقع (Sitemap)
هذا السطر بيساعد محركات البحث تعرف وين تلقى خريطة موقعك عشان تفهرس صفحاتك بشكل أسرع وأفضل:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.example.com/sitemap.xml
وين تحط ملف robots.txt؟
لازم تحطه في الجذر الرئيسي لموقعك. يعني لو موقعك https://www.yourdomain.com/، ملف robots.txt بيكون على هذا المسار: https://www.yourdomain.com/robots.txt.
نصائح أخيرة
- اختبر ملفك: استخدم أدوات قوقل لمديري المواقع (Google Search Console) عشان تختبر ملف
robots.txtوتتأكد إنه شغال صح وما فيه أخطاء. - لا تفرط في الاستخدام: لا تمنع صفحات مهمة عن طريق الخطأ، هذا بيضر ترتيب موقعك في البحث.
- تذكر: منع صفحة في
robots.txtما يعني إنها ما راح تظهر في نتائج البحث أبداً. ممكن تظهر بدون وصف لو روابط خارجية تشير لها. لمنع ظهورها تماماً، استخدم وسمnoindexفي رأس الصفحةأو استجابةX-Robots-Tagفي الـ HTTP.
وبكذا، نكون غطينا أساسيات ملف robots.txt وكيف تستخدمه صح. طبقوها وبتشوفون فرق في طريقة تعامل محركات البحث مع موقعكم. بالتوفيق يا شباب!