المقدمـة: ما هو دور robots.txt وكيف يتم إنشاؤه؟
≡ ملف Robots.txt هو ملف يخبر محركات البحث بالمحتوى المطلوب فهرسته أو منعه من الفهرسة بموقعك .
ما هو دوره بالضبط؟ كيف تُنْشِئُ ملف robots.txt؟ وكيف تستخدمه لتحسين ظهور موقعك بمحركات البحث ” SEO ” ؟
ما هو ملف robots.txt؟
ملف robots.txt هو ملف نصّي، يقوم بمنع روبوتات محركات البحث من فهرسة مناطق معينة بموقعك. ويمكنك العثور عليه بين مجلداتك وملفاتك بجذر موقعك. ويعد ملف robots.txt أحد الملفات الأولى التي يتم تحليلها بواسطة عناكب الشبكة (الروبوتات).
ما هو دور ملف robots.txt؟
يقوم ملف robots.txt بإعطاء تعليمات لروبوتات محرك البحث التي تحلل موقعك ، إنه بروتوكول استبعاد الروبوتات أيضاً. بفضل هذا الملف ، تستطيع منع زحف روبوتات معينة إلى موقعك ( زحف العناكب) ، كما يقوم بحظر أرشفة بعض صفحات موقعك لبعض الروبوتات.
توضيح : لنفهم جيداً فائدة ملف robots.txt ، يمكننا أن نأخذ على سبيل المثال موقعاً مُكوناً من منطقة عامة للتواصل مع العملاء و منطقة خاصة بالموظفين. في هذه الحالة ، يمكن للروبوتات الوصول إلى المنطقة العامة بينما المنطقة الخاصة بالموظفين يتم حظرها.
يخبر هذا الملف أيضاً محركات البحث بعنوان ” ملف خريطة موقعك ”
- ما هو ملف robots.txt؟
- ما هو دور ملف robots.txt؟
- أين يمكنني العثور على ملف ROBOTS.TXT؟
- كيف أقوم بإنشاء ملف robots.txt؟
- كيفية بناء الجملة والتعليمات الخاصة بملف robots.txt
- علاقة Robots.txt ب SEO
- كيف تختبر ملف robots.txt الخاص بموقعك؟
- الحالات الرئيسية لاستخدام منشئ robots.txt
- ما هي الطريقة الأفضل: منشئ robots.txt أم noindex؟
- ملف robots.txt خاص بمواقع ووردبريس
أين يمكنني العثور على ملف ROBOTS.TXT؟
إذا أردت العثور على ملف robots.txt ، فإنك ستجده بجذر موقعك، حيث توجد كل مجلدات وملفات مدونتك . للوصول إليه يمكنك استعال بروتوكول نقل الملفات FTP بأحد برامج نقل الملفات مثل FileZilla . ولكي تتحقق من وجود ملف robots.txt بموقعك، أكتب في شريط العنوان في متصفحك مسار الملف مثل هذا: http://www.my-site.com/robots.txt.
- إذا كان الملف robots.txt موجود بجذر موقعك، سيتم عرضه و سيسمح للروبوتات بتتبع التعليمات الموجودة فيه.
- إذا كان الملف robots.txt غير موجود فسيتم عرض خطأ 404 و ستعتبر الروبوتات أنه لا يوجد محتوى محظور.
يحتوي موقع الويب على ملف واحد فقط للروبوت ويجب أن يكون إسمه صحيحاً وبحروف صغيرة (robots.txt).
كيف أقوم بإنشاء ملف robots.txt؟
لإنشاء ملف robots.txt الخاص بموقعك ، يجب أن تكون قادراً على الوصول إلى جذر موقعك.
يتم إنشاء ملف robots.txt يـدوياً أو يتم إنشاؤه افتراضياً بواسطة غالبية أنظمة إدارة المحتوى CMS مثل ووردبريس أثناء التثبيت. و يُمكن أيضاً إنشاء ملفك للروبوتات باستخدام أداة عبر الإنترنت.
لإنشاء ملف robots.txt يدوياً، يمكنك استخدام أي محرر نصوص بسيط مثل برنامج ++Notepad أو Sublime txt ويجب الانتباه إلى كتابة التعليمات بشكل صحيح، واجعل التعليمات منفردة، بحيث تكون واحدة في كل سطر ولا تترك أسطر فارغة.. ثم احفظ الملف النّصي تحت إسم robots.txt دون أخطاء وبعدها، إرفعه إلى جذر موقعك عبر FTP
كيفية بناء الجملة والتعليمات الخاصة بملف robots.txt
User-agent : User-agent عبارة عن روبوتات لمحركات البحث ، على سبيل المثال، نستخدم Googlebot بالنسبة ل Google أو Bingbot لـ Bing.
disallow :Disallow هو البيان الذي يمنع User-agent من الوصول إلى عنوان url أو إلى مجلد بموقعك.
Allow: allow هي تعليمات التي تسمح بالوصول إلى عنوان url موجود في مجلد محظور بموقعك.
∴ مثال لملف robots.txt:
# نعتبر ملف الروبوتات خاص بهذا الموقع « http://www.my-site.com »
User-Agent: * (يسمح بالوصول إلى جميع الروبوتات)
Disallow: /موظفون/ (يحظر استكشاف مجلد الموظفين)
Disallow: /login.php (يحظر الزحف إلى عنوانurl للدخول إلى لوحة التحكم : http://www.my-site.com/login.php)
Allow: /*.css?* (السماح بالوصول إلى جميع موارد css)
sitemap (خريطة الموقع ) : Sitemap: http://www.my-site.com/sitemap.xml (رابط إلى خريطة الموقع للرجوع إليها)
في المثال أعلاه ، يتم تطبيق أمر User-agent على جميع برامج الزحف من خلال إدراج علامة النجمة (*). تُستخدم علامة التجزئة (#) لعرض التعليقات ، ولا يتم أخذ التعليقات في الاعتبار بواسطة الروبوتات.
ستجد في موقع robots-txt.com الموارد الخاصة بمحركات بحث معينة وأنظمة إدارة محتوى معينة.
علاقة Robots.txt ب SEO
فيما يتعلق بتحسين ظهور موقعك في محرّكات البحث SEO، يسمح لك ملف robots.txt بما يلي:
- تجنب فهرسة المحتوى المكرر من طرف الروبوتات ،
- تقديم خريطة الموقع إلى الروبوتات لعرض مؤشرات على عناوين URL التي سيتم فهرستها ،
- استبعاد الصفحات ذات الجودة الرديئة في موقعك عن طريق الروبوتات لضمان ظهور المحتوى الجيد في محرك البحث Google .
كيف تختبر ملف robots.txt الخاص بموقعك؟
لاختبار ملف robots.txt الخاص بموقعك ، كل ما عليك فعله هو إنشاء موقع ويب والمصادقة عليه على Google Search Console. بمجرد إنشاء حسابك ، ستحتاج إلى اختبار ملف Robots.txt من هنا:
https://www.google.com/webmasters/tools/robots-testing-tool
- أنقر على الزر المشار إليه في الصورة، ثم اختر موقعك المصادق عليه من طرف Search Console .
ما هو دور robots.txt وكيف يتم إنشاؤه؟
≡ في الصفحة الموالية سيظهر لك محتوى ملفك robots.txt كما في الصورة
ما هو دور robots.txt وكيف يتم إنشاؤه؟
≡ هنا،يتحقق اختبار ملف robots.txt من إمكانية فهرسة جميع عناوين URL المهمة بواسطة Google.
الحالات الرئيسية لاستخدام منشئ robots.txt
لمنع الفهرسة الكاملة للموقع:
1 2 |
User-agent: * Disallow: / |
يسمح البناء التالي بفهرسة الموقع بالكامل:
1 2 |
User-agent: * Disallow: |
حظر فهرسة ملف معين:
1 2 |
User-agent: Googlebot Disallow: /no-index/ |
الحظر المفروض على روبوتات بحث معينة من زيارة الصفحة:
1 2 |
User-agent: Googlebot Disallow: /no-index/this-page.html |
حظر فهرسة أنواع معينة من الملفات:
1 2 |
User-agent: * Disallow: /*.pdf$ |
للسماح لروبوتات ويب معينة بزيارة صفحة معينة:
1 2 3 4 |
User-agent: * Disallow: /no-bots/block-all-bots-except-rogerbot-page.html User-agent: Yandex Allow: /no-bots/block-all-bots-except-Yandex-page.html |
رابط الموقع إلى خريطة الموقع:
1 2 3 |
User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml |
ملاحظة هـــــاهـة :
∴ لا تضف الرابط المعروف لخريطة موقعك في منشئ ملف robots.txt ! اختر إسماً غير اعتيادي لخريطة الموقع “sitemap.xml” مثال:« my-super-sitemap.xml » ، ثم أضف هذا الرابط إلى أنظمة البحث باستخدام مشرفي المواقع).
لماذا؟ لأن الكثير من مشرفي المواقع غير النزيهين يحللون محتوى المواقع الأخرى ويستخدمونها لمشاريعهم الخاصة.
ما هي الطريقة الأفضل: منشئ robots.txt أم noindex؟
إذا كنت لا تريد فهرسة صفحات معينة ، فإنه يـُوصي باستخدام noindex في العلامة الوصفية لبرامج الروبوت. لتنفيذه ، تحتاج إلى إضافة العلامة الوصفية التالية في صفحتك:
1 |
<meta name=”robots” content=”noindex, follow”> |
باستخدام هذه الطريقة ، ستتمكن مما يلي:
- منع فهرسة صفحات معينة، حين يزورها الروبوت. وبالتالي، لن تكون ملزماً بحذف الصفحة يدوياً باستخدام مشرفي المواقع.
- تمكن من نقل أجود ما عندك من محتوى لفهرستها وتحسين ظهورها في محركات البحث.
مواصفات العلامة الوصفية لبرامج الروبوت وdata-nosnippet وX-Robots-Tag
أيضًا ، من الأفضل استخدام منشئ ملف robots.txt لإغلاق هذه الأنواع من الصفحات:
- الصفحات الإدارية لموقعك ؛
- بيانات البحث على الموقع ؛
- صفحات التسجيل ، التراخيص و إعادة تعيين كلمة المرور.
إقرأ أيضاً: حماية ملفات ومجلدات ووردبريس
ملف robots.txt خاص بمواقع ووردبريس
المصدر من هنا: ملف Robots.txt لبرنامج WordPress
1 2 3 4 5 |
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/ Allow: /wp-content/uploads/ |
ويمكن اختصارها بهذا:
1 2 3 |
User-agent: * Disallow: /wp-* Allow: /wp-content/uploads/ |
ختامـاً ، إذا كنت ترغب في إتقان فهرسة موقع الويب الخاص بك ، فإن إنشاء ملف robots.txt ضروري. و في حالة عدم وجود الملف ، فسيتم فهرسة جميع عناوين url التي تم العثور عليها بواسطة الروبوتات وسيتم إدراجها في نتائج محرك البحث.
أرى أن هذه المواضيع قد تهمك: |
إذا أعجبك هذا المحتوى، فلا تَقْرَأْ وتَرْحَل … تَـعْلِيقَـاتُكَ تَـشْجِيعٌ لَـنَـا لِنَسْتَمِرَّ فِــي الْبَحْثِ وَالْعَطَـاء. وإِذَا كنت تعتقد أنه قد يكون مفيداً لأشخاص آخرين، فشَارِكْهَ على الشبكات الاجتماعية.