4 مراحل تعمل بها محركات البحث لفهرسة المواقع - تعرف عليها

في هذه المقالة ، سنتعرف على كيفية عمل محركات البحث وسنستعرض كل مرحلة من مراحل العملية و ما الفرق بين االزحف  Crawling و الاستدعاء Rendering و الفهرسة Indexing و التصنيف Ranking

فيما يلي المراحل الأساسية التى تعمل عليها محركات البحث من اجل إظهار صفحات الويب في نتائج البحث الخاصة بها .

من المهم جدا ان كنت صاحب موقع ويب , او تعمل في مجال تحسين المواقع لمحركات البحث ان تعرف طريقة عمل محركات البحث في فهرسة المواقع , وما هو الترتيب الذي تعتمد به حتى تصل الى المراحل النهائية , لذلك تابع معي هذا المقال حتى تفهم كل شئ  .

ما الفرق بين الزحف والعرض والفهرسة والترتيب لمحركات البحث

ما الفرق بين الزحف والعرض والفهرسة والترتيب لمحركات البحث

1- الزحف - Crawling

ما معنى زحف Crawling محركات البحث ؟

يحدث الزحف عندما يطلب محرك البحث صفحات الويب من خوادم مواقع الويب.

تخيل أن Google و Microsoft Bing يجلسان على جهاز كمبيوتر ، ويكتبان أو ينقران على رابط إلى صفحة ويب في نافذة المتصفح.

وبالتالي ، تزور آلات او روبوتات محركات البحث صفحات الويب بطريقة مشابهة لكيفية قيامك بذلك. في كل مرة يزور محرك البحث صفحة ويب ، يقوم بجمع نسخة من تلك الصفحة ويلاحظ جميع الروابط الموجودة في تلك الصفحة. بعد أن يجمع محرك البحث صفحة الويب هذه ، سيزور الرابط التالي في قائمة الروابط التي لم تتم زيارتها بعد.

يشار إلى هذا باسم " الزحف crawling " أو " العنكبوت spidering " وهو مناسب لأن الويب مجازيًا شبكة افتراضية عملاقة من الروابط المترابطة.

تسمى برامج جمع البيانات التي تستخدمها محركات البحث "العناكب spiders" أو "الروبوتات bots" أو "برامج الزحف crawlers".

برنامج الزحف الأساسي من Google هو "Googlebot" ، بينما يحتوي Microsoft Bing على "Bingbot". لكل منها برامج روبوت متخصصة أخرى لزيارة الإعلانات (مثل GoogleAdsBot و AdIdxBot) وصفحات الجوال والمزيد.

تبدو هذه المرحلة من معالجة محركات البحث لصفحات الويب واضحة ومباشرة ، ولكن هناك الكثير من التعقيد فيما يجري ، فقط في هذه المرحلة وحدها.

فكر في عدد أنظمة خادم الويب التي يمكن أن توجد ، والتي تعمل على تشغيل أنظمة تشغيل مختلفة لإصدارات مختلفة ، جنبًا إلى جنب مع أنظمة إدارة محتوى مختلفة (مثل WordPress و Wix و Squarespace) ، ثم التخصيصات الفريدة لكل موقع ويب.

يمكن أن تمنع العديد من المشكلات برامج الزحف لمحركات البحث من الزحف إلى الصفحات ، وهو سبب ممتاز لدراسة التفاصيل المتضمنة في هذه المرحلة.

أولاً ، يجب أن يجد محرك البحث رابطًا للصفحة في مرحلة ما قبل أن يتمكن من طلب الصفحة وزيارتها. (في ظل تكوينات معينة ، من المعروف أن محركات البحث تشك في إمكانية وجود روابط أخرى غير معلنة ، مثل خطوة واحدة للأعلى في التسلسل الهرمي للارتباط على مستوى دليل فرعي أو عبر بعض نماذج البحث الداخلية المحدودة لموقع الويب.)

يمكن لمحركات البحث اكتشاف روابط صفحات الويب من خلال الطرق التالية:
  • عندما يرسل مشغل موقع الويب الارتباط مباشرة أو يكشف عن خريطة موقع لمحرك البحث.
  • عندما ترتبط مواقع أخرى بالصفحة.
  • من خلال روابط للصفحة من داخل موقع الويب الخاص بها ، بافتراض أن الموقع يحتوي بالفعل على بعض الصفحات المفهرسة.
  • منشورات مواقع التواصل الاجتماعي.
  • الروابط الموجودة في المستندات.
  • تم العثور على عناوين URL في نص مكتوب وليس لها ارتباط تشعبي.
  • عبر البيانات الوصفية لأنواع مختلفة من الملفات.
و اكثر.

في بعض الحالات ، سيوجه موقع الويب محركات البحث إلى عدم الزحف إلى صفحة ويب واحدة أو أكثر من خلال ملف robots.txt الموجود في المستوى الأساسي للمجال وخادم الويب.

يمكن أن تحتوي ملفات Robots.txt على توجيهات متعددة داخلها ، لإرشاد محركات البحث إلى أن موقع الويب لا يسمح بالزحف إلى صفحات معينة أو أدلة فرعية أو موقع الويب بأكمله.

لا يعني توجيه محركات البحث بعدم الزحف إلى صفحة أو قسم من موقع الويب أن هذه الصفحات لا يمكن أن تظهر في نتائج البحث. يمكن أن يؤدي منعهم من الزحف إليها بهذه الطريقة إلى التأثير بشدة على قدرتهم على الترتيب الجيد لكلماتهم الرئيسية.

في حالات أخرى ، قد تواجه محركات البحث صعوبة في الزحف إلى موقع ويب إذا قام الموقع تلقائيًا بحظر الروبوتات. يمكن أن يحدث هذا عندما تكتشف أنظمة موقع الويب ما يلي:

  • يطلب الروبوت مزيدًا من الصفحات في غضون فترة زمنية أكثر مما يطلبه الإنسان.
  • يطلب الروبوت عدة صفحات في وقت واحد.
  • يتم تحديد الموقع الجغرافي لعنوان IP لخادم الروبوت داخل منطقة تم تكوين موقع الويب لاستبعادها.
  • تؤدي طلبات الروبوت و / أو طلبات المستخدمين الآخرين للصفحات إلى إرباك موارد الخادم ، مما يتسبب في إبطاء عرض الصفحات أو حدوث خطأ فيه.
ومع ذلك ، تتم برمجة روبوتات محرك البحث لتغيير معدلات التأخير تلقائيًا بين الطلبات عندما تكتشف أن الخادم يكافح لمواكبة الطلب.

اقرا ايضا : ما هو الباك لينك وماهي انواعه وفائدته للسيو

بالنسبة إلى مواقع الويب الكبيرة ومواقع الويب ذات المحتوى المتغير بشكل متكرر على صفحاتها ، يمكن أن تصبح "ميزانية الزحف" عاملاً في ما إذا كانت روبوتات البحث ستنتقل إلى الزحف إلى جميع الصفحات.

بشكل أساسي ، الويب عبارة عن مساحة لا نهائية من صفحات الويب ذات تكرار تحديث متفاوت. قد لا تتمكن محركات البحث من زيارة كل صفحة على حدة ، لذا فهي تعطي الأولوية للصفحات التي ستزحف إليها.

قد تستهلك مواقع الويب التي تحتوي على أعداد هائلة من الصفحات ، أو التي تستجيب بشكل أبطأ ، ميزانية الزحف المتاحة لها قبل الزحف إلى جميع صفحاتها إذا كان لها وزن ترتيب أقل نسبيًا مقارنة بمواقع الويب الأخرى.

من المفيد الإشارة إلى أن محركات البحث تطلب أيضًا جميع الملفات التي تدخل في إنشاء صفحة الويب أيضًا ، مثل الصور و CSS و JavaScript.

تمامًا كما هو الحال مع صفحة الويب نفسها ، إذا تعذر الوصول إلى الموارد الإضافية التي تساهم في إنشاء صفحة الويب لمحرك البحث ، فقد يؤثر ذلك على كيفية تفسير محرك البحث لصفحة الويب.

2- الاستدعاء - Rendering

ما معنى الاستدعاء - Rendering في محركات البحث

عندما يزحف محرك البحث إلى صفحة ويب ، سيقوم حينئذٍ "باستدعاء" الصفحة. يتضمن ذلك أخذ معلومات HTML و JavaScript وورقة الأنماط المتتالية (CSS) لتوليد كيف ستظهر الصفحة لمستخدمي سطح المكتب و / أو الجوال.

هذا مهم حتى يتمكن محرك البحث من فهم كيفية عرض محتوى صفحة الويب في السياق. تساعد معالجة JavaScript في ضمان حصولهم على كل المحتوى الذي قد يراه المستخدم البشري عند زيارة الصفحة.

تصنف محركات البحث خطوة العرض او الاستدعاء كعملية فرعية ضمن مرحلة الزحف. لقد أدرجتها هنا كخطوة منفصلة في العملية لأن إحضار صفحة ويب ثم تحليل المحتوى لفهم كيفية ظهوره في المتصفح هما عمليتان متميزتان.

يستخدم جوجل نفس محرك العرض الذي يستخدمه متصفح Google Chrome ، والذي يسمى "Rendertron" والذي تم إنشاؤه من خلال نظام متصفح Chromium مفتوح المصدر.

يستخدم Bingbot Microsoft Edge كمحركه لتشغيل JavaScript وعرض صفحات الويب. كما أنها مبنية الآن على المتصفح المستند إلى Chromium ، لذا فهي تعرض صفحات الويب بشكل مكافئ جدًا للطريقة التي يعمل بها Googlebot.

يخزن جوجل نسخًا من الصفحات في مستودعاتها بتنسيق مضغوط. يبدو أن Microsoft Bing يفعل ذلك أيضًا (لكنني لم أجد معلومات تؤكد ذلك). 

قد تقوم بعض محركات البحث بتخزين نسخة مختصرة من صفحات الويب من حيث النص المرئي فقط ، مع تجريده من جميع التنسيقات.

يصبح العرض في الغالب مشكلة في تحسين محركات البحث للصفحات التي تحتوي على أجزاء رئيسية من المحتوى تعتمد على JavaScript / AJAX.

سيقوم كل من Google و Microsoft Bing بتنفيذ JavaScript من أجل رؤية كل المحتوى الموجود على الصفحة ، ويمكن أن تشكل إنشاءات JavaScript الأكثر تعقيدًا تحديًا لمحركات البحث للعمل.

لقد رأيت صفحات ويب تم إنشاؤها بواسطة JavaScript وكانت غير مرئية بشكل أساسي لمحركات البحث ، مما أدى إلى صفحات ويب غير مثالية بشدة لن تكون قادرة على تصنيف مصطلحات البحث الخاصة بها.

لقد رأيت أيضًا حالات لم تحقق فيها صفحات فئة التمرير اللانهائي على مواقع التجارة الإلكترونية أداءً جيدًا على محركات البحث لأن محرك البحث لم يتمكن من رؤية العديد من روابط المنتجات.

يمكن أن تتداخل الشروط الأخرى أيضًا مع العرض او الاستدعاء. على سبيل المثال ، عندما يكون هناك ملف أو أكثر من ملفات JaveScript أو CSS لا يمكن الوصول إليها من قبل روبوتات محرك البحث بسبب وجودها في الدلائل الفرعية التي لا يسمح بها ملف robots.txt ، فسيكون من المستحيل معالجة الصفحة بالكامل.

لن يقوم Googlebot و Bingbot إلى حد كبير بفهرسة الصفحات التي تتطلب ملفات تعريف الارتباط. قد لا يتم أيضًا عرض الصفحات التي تقدم بعض العناصر الأساسية بشكل مشروط استنادًا إلى ملفات تعريف الارتباط بشكل كامل أو صحيح.

3- الفهرسة - Indexing

ما معنى فهرسة - Indexing محركات البحث ؟

بمجرد الزحف إلى الصفحة وعرضها ، تقوم محركات البحث بمعالجة الصفحة بشكل أكبر لتحديد ما إذا كان سيتم تخزينها في الفهرس أم لا ، وفهم محتوى الصفحة.

يتشابه فهرس محرك البحث وظيفيًا مع فهرس الكلمات الموجود في نهاية الكتاب.

يسرد فهرس الكتاب جميع الكلمات والموضوعات المهمة الموجودة في الكتاب ، مع سرد كل كلمة أبجديًا ، جنبًا إلى جنب مع قائمة بأرقام الصفحات حيث سيتم العثور على الكلمات / الموضوعات.

يحتوي فهرس محرك البحث على العديد من الكلمات الأساسية وتسلسلات الكلمات الرئيسية المرتبطة بقائمة بجميع صفحات الويب التي توجد بها الكلمات الأساسية.

يحمل الفهرس بعض التشابه المفاهيمي مع جدول البحث في قاعدة البيانات ، والذي ربما كان في الأصل الهيكل المستخدم لمحركات البحث. 

ولكن من المحتمل أن تستخدم محركات البحث الرئيسية الآن شيئًا أكثر تعقيدًا لبضعة أجيال لتحقيق الغرض من البحث عن كلمة رئيسية وإعادة جميع عناوين URL ذات الصلة بالكلمة.

يعد استخدام الوظيفة للبحث عن جميع الصفحات المرتبطة بكلمة رئيسية بنية موفرة للوقت ، حيث إنها تتطلب قدرًا كبيرًا من الوقت غير العملي للبحث في جميع صفحات الويب عن كلمة رئيسية في الوقت الفعلي ، في كل مرة يبحث فيها شخص ما عنها.

لن يتم الاحتفاظ بجميع الصفحات التي تم الزحف إليها في فهرس البحث لأسباب مختلفة. على سبيل المثال ، إذا تضمنت الصفحة علامة وصفية لبرامج الروبوت مع أمر "noindex" ، فإنها توجه محرك البحث إلى عدم تضمين الصفحة في الفهرس.

وبالمثل ، قد تتضمن صفحة الويب علامة X-Robots-Tag في رأس HTTP الخاص بها والتي توجه محركات البحث إلى عدم فهرسة الصفحة.

في حالات أخرى ، قد توجه العلامة الأساسية لصفحة الويب تعليمات لمحرك بحث يفيد بأن صفحة مختلفة عن الصفحة الحالية يجب اعتبارها الإصدار الرئيسي للصفحة ، مما يؤدي إلى إسقاط إصدارات أخرى غير متعارف عليها من الصفحة من الفهرس .

اقرا ايضا : افضل 7 أدوات سيو لرفع مستوى اداء تحسين محركات البحث لموقعك

صرحت جوجل أيضًا أنه لا يجوز الاحتفاظ بصفحات الويب في الفهرس إذا كانت ذات جودة منخفضة (صفحات محتوى مكررة وصفحات ذات محتوى صغير وصفحات تحتوي على كل المحتوى غير ذي الصلة أو الكثير منه).

كان هناك أيضًا تاريخ طويل يشير إلى أن مواقع الويب التي لا تحتوي على نظام ترتيب صفحات جماعي غير كافٍ قد لا يتم فهرسة جميع صفحات الويب الخاصة بها - مما يشير إلى أن مواقع الويب الكبيرة التي لا تحتوي على روابط خارجية كافية قد لا تتم فهرستها بشكل كامل.

قد تؤدي ميزانية الزحف غير الكافية أيضًا إلى عدم فهرسة جميع صفحات موقع الويب.

أحد المكونات الرئيسية لتحسين محركات البحث هو التشخيص والتصحيح عندما لا تتم فهرسة الصفحات. لهذا السبب ، من المستحسن إجراء دراسة شاملة لجميع المشكلات المختلفة التي يمكن أن تضعف فهرسة صفحات الويب.

4- التصنيف - Ranking

ما معنى تصنيف Ranking محركات البحث

ترتيب صفحات الويب هو مرحلة معالجة محرك البحث التي ربما تكون الأكثر تركيزًا عليها.

بمجرد أن يكون لدى محرك البحث قائمة بجميع صفحات الويب المرتبطة بكلمة رئيسية معينة أو عبارة كلمة رئيسية معينة ، يجب عليه حينئذٍ تحديد كيفية ترتيب تلك الصفحات عند إجراء بحث عن الكلمة الأساسية.

إذا كنت تعمل في مجال تحسين محركات البحث ، فمن المحتمل أن تكون على دراية جيدة ببعض ما تتضمنه عملية التصنيف. يشار إلى عملية ترتيب محرك البحث أيضًا باسم "الخوارزمية".

التعقيد الذي تنطوي عليه مرحلة الترتيب و التصنيف في البحث ضخم جدًا لدرجة أنه يستحق بمفرده مقالات وكتب متعددة لوصفها.

هناك العديد من المعايير التي يمكن أن تؤثر في ترتيب صفحة الويب في نتائج البحث. قالت جوجل إن هناك أكثر من 200 عامل تصنيف تستخدمها خوارزميتها.

ضمن العديد من هذه العوامل ، يمكن أن يكون هناك أيضًا ما يصل إلى 50 "متجهًا" - أشياء يمكن أن تؤثر على تأثير إشارة ترتيب واحدة على التصنيفات.

اقرا ايضا : دليل مفصل لأداة مخطط الكلمات الرئيسية من جوجل وطريقة استخدامه

يعد نظام ترتيب الصفحات هو أول إصدار من جوجل لخوارزمية الترتيب التي تم اختراعها في عام 1996. وقد تم إنشاؤه بناءً على مفهوم يرتبط بصفحة ويب - ويمكن حساب الأهمية النسبية لمصادر الروابط التي تشير إلى صفحة الويب هذه - لتحديد قوة ترتيب الصفحة النسبية لجميع الصفحات الأخرى.

والاستعارة المجازية لهذا هو أن الروابط يتم التعامل معها إلى حد ما على أنها تصويتات ، وأن الصفحات التي تحصل على أكبر عدد من الأصوات ستفوز بترتيب أعلى من الصفحات الأخرى التي تحتوي على عدد أقل من الروابط / الأصوات.

تقدم سريعًا حتى عام 2022 وما زال جزء كبير من الحمض النووي لخوارزمية PageRank القديمة مضمّنًا في خوارزمية الترتيب في جوجل. أثرت خوارزمية تحليل الارتباط أيضًا على العديد من محركات البحث الأخرى التي طورت أنواعًا مماثلة من الأساليب.

كان على طريقة خوارزمية جوجل القديمة المعالجة عبر روابط الويب بشكل متكرر ، وتمرير قيمة PageRank بين الصفحات عشرات المرات قبل اكتمال عملية التصنيف. قد يستغرق تسلسل الحساب المتكرر عبر ملايين الصفحات ما يقرب من شهر حتى يكتمل.

في الوقت الحاضر ، يتم تقديم روابط صفحات جديدة كل يوم ، وتقوم جوجل بحساب التصنيفات في نوع من طريقة التنقيط - مما يسمح بأخذ الصفحات والتغييرات في الاعتبار بسرعة أكبر بكثير دون الحاجة إلى عملية حساب ارتباط لمدة شهر.

بالإضافة إلى ذلك ، يتم تقييم الروابط بطريقة معقدة - إلغاء أو تقليل قوة ترتيب الروابط المدفوعة ، والروابط المتداولة ، والروابط غير المرغوب فيها ، والروابط المعتمدة غير التحريرية والمزيد.

تؤثر الفئات الواسعة من العوامل التي تتجاوز الروابط على التصنيف أيضًا ، بما في ذلك:

  • الخبرة والمصداقية والجدارة بالثقة أو E-A-T باختصار.
  • جودة
  • الموقع 
  • سجل البحث الشخصي.
  • مشفر مقابل غير مشفر (استخدام طبقة مآخذ التوصيل الآمنة ، أو SSL) لتقديم صفحات الويب ، المشار إليها ببادئة عنوان URL "HTTPS".
  • التوافق مع الجوّال.
  • سرعة الصفحة.
و اكثر.

وفي الاخير يعد فهم المراحل الرئيسية لعمل محركات البحث  عنصرًا مهمًا لتصبح محترفًا في مجال تحسين محركات البحث " السيو SEO ".

أحدث أقدم