بودجه خزش (Crawl Budget) چیست؟

0

‌‌‌همه سئوکاران این موضوع را می‌دانند که گوگل صفحات سایت را بلافاصله کرال نمی‌کند. گاهی اوقات کرال کردن یک صفحه ممکن است هفته‌ها طول بکشد. این اتفاق می‌تواند روی سئوی سایت شما تاثیر بگذارد.

مثلا یک صفحه لندینگ در سایت را بهینه می‌کنید اما هر چقدر منتظر می‌مانید، این صفحه ایندکس نمی‎شود. اگر با چنین مشکلی مواجه شده‌اید، وقت آن رسیده که بودجه خزش یا crawl budget خود را بهینه کنید. ما در این مقاله به شما می‌گوییم که کراول باجت چیست و چطور می‌توانید آن را بهینه کنید.

بودجه خزش Crawl Budget در سئو چه مفهومی دارد؟

بودجه خزش، تعداد صفحاتی است که ‌‌‌ گوگل در یک بازه مشخص (مثلا در یک روز) می‌تواند ‌‌‌آن‌ها را کراول کند. تعداد این صفحات در روزهای مختلف می‌تواند کمی تغییر کند. ‌‌‌ گوگل ممکن است هر روز ۶ صفحه را در سایت شما کراول کند. این عدد ممکن است به ۵۰۰۰ یا حتی گاهی به ۴ میلیون صفحه در روز برسد.

نرخ کراول یک سایت به طور کلی به اندازه، بدون باگ بودن سایت و سرور (تعداد خطاهایی که ‌‌‌ گوگل با ‌‌‌آن‌ها روبه‌رو‌‌‌ می‌شود) و تعداد لینک‌های سایت شما بستگی دارد.

چرا موتورهای جستجو برای سایت‌ها نرخ کراول در نظر می‌گیرند؟

متاسفانه موتورهای جستجو، منابع نامحدودی ندارند و مجبورند توجه و تمرکز خود را بین میلیون‌ها وب‌سایت تقسیم‌‌‌ ‌کنند. بنابراین ‌‌‌آن‌ها به روشی نیاز دارند تا تا بتوانند میزان خزش را اولویت‌بندی کند. اختصاص بودجه خزش به هر ‌‌‌وب‌سایت،‌ به ‌‌‌موتورهای جستجو برای انجام این کار کمک‌‌‌ می‌کند.

 

به طور خلاصه: اگر گوگل صفحه‌‌‌ای را ایندکس نکند، یعنی آن صفحه اصلا وجود ندارد!

بنابراین اگر تعداد صفحات شما از کراول باجت‌تان بیشتر باشد، قطعا در سایت خود صفحاتی خواهید داشت که ایندکس‌‌‌ و در نتیجه، دیده نمی‌شوند.

بنابراین، بودجه خزش بیشتر در سایت‌های بزرگ نقش دارد زیرا ربات‌های گوگل می‌توانند سایت‌های کوچک را به راحتی کراول کرده و صفحات‎شان را ایندکس کنند. در شرایط زیر باید به بودجه خزش توجه ویژه‌ای داشته باشید:

 

  • یک سایت خیلی بزرگ دارید: اگر ‌‌‌وب‌سایتی (مثلا یک سایت فروشگاهی) با بیش از ۱۰ هزار صفحه داشته باشید، ‌‌‌گوگل‌‌‌ ممکن است در پیدا کردن تمام این صفحات با مشکل مواجه شود.
  • یک دسته صفحه به سایت خود اضافه کردهاید: اگر اخیرا بخش جدیدی با صدها صفحه به سایت خود اضافه کرده‏اید،‌‌‌ باید کراول باجت کافی داشته باشید تا همه این صفحات به سرعت ایندکس شوند.
  • تعداد زیادی صفحات ریدایرکت شده دارید: ریدایرکت‌ها می‌توانند مثل خوره، بودجه خزش سایت شما را بخورند.

در ادامه این مقاله به روش‌هایی برای بهینه‌سازی نرخ کراول خواهیم پرداخت.

 

نظر گوگل در مورد بودجه خزش چیست؟

طبق گفته گوگل، سه مرحله اساسی وجود دارد که موتور جستجو برای به دست آوردن نتایج مناسب از صفحات وب، آن‌ها را دنبال می‌کنند:

کراول کردن: خزنده‌های وب به صفحات موجود در دسترس عموم، دسترسی دارند.

ایندکس کردن: خزنده‌ها، محتوای هر صفحه را تجزیه و تحلیل کرده و اطلاعاتی که پیدا می‌کنند را ذخیره خواهند کرد.

ارائه دادن و رتبه‌بندی: وقتی کاربر سوالی را تایپ می‌کند، گوگل مناسب‎ترین پاسخ‌ها را از صفحاتی که ایندکس کرده، به کاربر ارائه می‎دهد.

بدون کراول، محتوای شما ایندکس نخواهد شد، بنابراین در گوگل نمایش داده نمی‌شود.

گوگل معتقد است نرخ خزش موضوعی نیست که باعث نگرانی افراد شود. محتوای اغلب صفحات در اینترنت، به سرعت پس از انتشار، کراول و ایندکس می‌شوند. اگر تعداد صفحات سایت شما چند صد عدد باشد، کراول شدن کامل این صفحات اتفاقی کاملا بدیهی است. اینکه مشخص کنیم چه محتوایی در چه زمانی کراول شود، موضوعی است که برای سایت‌های با تعداد صفحات خیلی بالا دغدغه ایجاد می‎کند.


در بلاگ تریبون بخوانید: علت ایندکس نشدن سایتم در گوگل چیست؟


بودجه مورد نیاز هر سایت چطور تعیین میشود؟

کرال باجت برای هر وب‏سایت متفاوت است و میزان آن به‌طور خودکار توسط گوگل ایجاد می‌شود.

موتورهای جستجو، عوامل مختلفی را در نظر می‌گیرند تا بودجه خزش سایت شما را تعیین کنند. به طور کلی، چهار عامل اصلی وجود دارد که گوگل برای اختصاص بودجه خزش یک سایت از آن‌ها استفاده می‌کند:

  • اندازه سایت: سایت‌های بزرگتر به بودجه بیشتری برای خزیدن احتیاج دارند.
  • راهاندازی سرور: عملکرد و زمان بارگذاری سایت شما ممکن است در میزان بودجه اختصاص یافته به آن تاثیر بگذارد.
  • فرکانس بهروزرسانی: هر چند وقت یکبار درحال به روزرسانی مطالب خود هستید؟ گوگل، محتوایی را که به طور منظم به روز می‎شود را در اولویت قرار می‌دهد.
  • لینکها: ساختار لینک‌های داخلی و لینک‌های مرده (dead link).

 

البته باید به این نکته توجه داشته باشید که خزیدن بیشتر سایت، کمک چندانی به شما نمی‌کند تا رتبه بهتری به دست بیاورید. اگر محتوای‌تان مطابق با استانداردهای مخاطبان شما نباشد، سایت شما نمی‌تواند کاربران جدیدی را به خود جذب کند.

برای درک بهتر بودجه خزش، برخی مفاهیم کلیدی وجود دارد که آن‌ها را بررسی خواهیم کرد:

Crawl limit / host load

 

بودجه خزش هر سایت چگونه تعیین میشود؟

Crawl limit به ما می‌گوید که منابع سرور سایت ما ظرفیت پذیرش چه تعداد کراول را دارد.

هر بار که گوگل یک صفحه را کراول می‌کند، درخواستی مبنی بر دسترسی به منابع سایت به سمت سرور فرستاده می‌شود. اگر تعداد این درخواست‌ها خیلی زیاد باشد، منابع سرور سایت نمی‌توانند به همه این درخواست‌ها پاسخ دهند و در نتیجه سایت از کار می‌افتد.

گوگل با استفاده از «نشانه‌های باگ سرور» و «تعداد سایت‌های فعال در هاست» این ظرفیت را تشخیص می‌دهد که در ادامه این دو عامل را شرح می‌دهیم.

نشانه‌های باگ سرور

درخواست‌های ربات‎های گوگل برای خزیدن در سایت، چند بار توسط سرور با مشکل روبه‌رو شده‌اند.

تعداد سایت های فعال در هاست

اگر ‌‌‌وب‌سایت شما در یک هاست مشترک با صدها ‌‌‌وب‌سایت دیگر اجرا‌‌‌ می‌شود و وب‌سایت‌تان هم نسبتا بزرگ است، به طور جدی با مشکل محدودیت خزش مواجه خواهید شد. در چنین شرایطی حتما باید از یک هاست اختصاصی استفاده کنید تا کراول باجت و سرعت لود صفحات سایت شما افزایش پیدا کند.

Crawl demand / crawl scheduling

Crawl demand به ما می‌گوید کدام یک از صفحات، ارزش کراول شدن یا دوباره کراول شدن را دارد؟ تعیین این ارزش بر اساس فاکتورهای زیر اندازه‎گیری می‌شوند:

محبوبیت صفحه: URLهایی که در فضای اینترنت محبوبیت بیشتری دارند، زودتر یا دوباره کراول می‌شوند.

تازه بودن محتوا: صفحاتی که به‌طور مرتب به روز می‌شوند، برای ربات‌های گوگل اهمیت بیشتری دارند.

نوع صفحه: نوع صفحه هم یکی از مهم‌ترین فاکتورهای تعیین ارزش صفحات است. صفحه دسته‌بندی را با صفحه قوانین سایت مقایسه کنید. احتمال تغییر محتوا در کدام یک بیشتر است؟

چرا باید به Crawl Budget اهمیت چند برابری بدهید؟

شما‌‌‌ می‌خواهید موتورهای جستجو تعداد زیادی از صفحات قابل ایندکس شدن سایت‌تان را پیدا و درک کنند و‌‌‌ ایده‌آل‌تان هم این است که همه این کارها در اسرع وقت و کوتاه‎ترین زمان ممکن انجام شود. وقتی صفحات جدیدی را به سایت‌تان اضافه یا صفحات موجود را به روز‌‌‌ می‌کنید،‌‌‌ می‌خواهید موتورهای جستجو هرچه سریع‌تر این موارد را پیدا کنند. ربات‌های گوگل هرچه زودتر صفحات شما را ایندکس کنند، زودتر‌‌‌ می‌توانید از امتیاز ‌‌‌آن‌ها بهره‌مند شوید.

اگر نرخ کراول یا همان بودجه خزیدن‎تان را هدر‌‌‌ بدهید، موتورهای جستجو قادر نخواهند بود ‌‌‌وب‌سایت شما را به طور موثر جستجو کنند. ‌‌‌آن‌ها وقت خود را صرف قسمت‎هایی از سایت شما‌‌‌ می‌کنند که اهمیتی برای‌تان ندارند، در نتیجه‌‌‌ قسمت های مهم ‌‌‌وب‌سایت شما کراول نشده باقی می‌ماند. اگر ‌‌‌ربات‌های گوگل در مورد صفحات اطلاعاتی نداشته باشند، ‌‌‌آن‌ها را‌‌‌ کراول و ایندکس‌‌‌ نمی‌کنند و شما‌‌‌ نمی‌توانید بازدیدکنندگان را از طریق موتورهای جستجو به ‌‌‌این صفحات وارد کنید.

چه از این بدتر؟ هدر رفتن بودجه خزش به عملکرد ‌‌‌سئوی شما آسیب‌‌‌ می‌رساند.

اگر سایت شما بیشتر از ۱۰ هزار صفحه دارد، باید تمام تلاش‌تان را به کار بگیرید تا بودجه خزش‌تان بهینه شود.

دلایلی که موجب هدر رفتن بودجه خزش سایت می‌شوند

بهینه سازی بودجه خزش یعنی این که مطمئن شوید هیچ کراول باجتی به هدر‌‌‌ نمی‌رود. کارشناسان، بودجه کراول سایت‌های مختلفی را بررسی کرده و به این نتیجه رسیده‌اند که اغلب این سایت‌ها درگیر مشکلات مشابهی هستند.

این مشکلات ساده اما مهم می‌تواند سایت شما را با کسری بودجه خزش مواجه کند. از طرفی با برطرف کردن آن‌ها می‌توانید سایت خود را در اسرع وقت از نظر کراول باجت بهینه کنید تا صفحات ارزشمندتان زودتر ایندکس شوند. عواملی که می‌توانند بودجه خزش شما را هدر بدهند، عبارت‌اند از:

وجود پارامترهای فیلتر محصولات در URL

آدرس اغلب سایت‌ها، خصوصا سایت‌های فروشگاهی، پارامترهایی دارند که می‌توانید از آن‌ها برای فیلتر کردن محصولات یا محتواها استفاده کنید.

مثلا https://www.example.com/toys/cars?color=black یک آدرس سایت است که در آن از پارامتر‌های فیلتر استفاده شده است. هنگام اجرای فیلترهای محصول در سایت‌‌های فروشگاهی معمولا از URL‌‌های دارای پارامتر استفاده‌‌‌ می‌شود. استفاده از این پارامترها خیلی خوب است، فقط باید مطمئن شوید که در دسترس موتورهای جستجو قرار نگیرند.

 

چگونه‌‌‌ می‌توانید این پارامترها را برای موتور جستجو غیرقابل دسترسی کنید؟

از فایل robots.txt خود استفاده کنید و به موتورهای جستجو بفهمانید که نباید این صفحات را کراول کنند. اگر به دلایلی این گزینه در دسترس نیست، از تنظیمات مدیریت پارامتر URL در ‌‌‌ سرچ کنسول گوگل و Bing Webmaster Tools استفاده کنید تا به گوگل و Bing دستور بدهید که کدام صفحات را کراول نکنند.

همچنین می‌توانید به لینک‌های فیلتر خود، ویژگی «nofollow» را اضافه کنید. به این نکته توجه داشته باشید که از مارس ۲۰۲۰ گوگل تصمیم گرفت لینک‌های nofollow را اIgnore کرده و نادیده بگیرد. بنابراین تا جای ممکن از روش اول استفاده کنید.

وجود محتوای تکراری Duplicate در سایت

ما صفحاتی را که محتوای کاملا مشابه و یکسان دارند را «محتوای تکراری» می‌نامیم. مثلا صفحات کپی شده، صفحات نتایج جستجوی داخلی و تگ پیج‌ها.

حتما شما دلتان نمی‎خواهد موتورهای جستجو وقت‌شان را در صفحات تکراری سایت‌تان بگذرانند و بودجه خزش شما را به باد بدهند. بنابراین مهم است که از محتوای تکراری در سایت خود جلوگیری کنید یا میزان ‌‌‌آن‌ها را به حداقل برسانید.

برای برطرف کردن مشکل صفحات تکراری در وب‌سایت‌هایی که با وردپرس طراحی شده‌اند، شما باید محتوایی که نسبت به سایر محتواهای تکراری کامل‌تر است را نگه‌دارید و محتواهایی که کامل نیستند را حذف کنید. سپس با استفاده از پلاگین Redirection و دیگر پلاگین‌های ریدایرکت، محتوای قدیمی را به محتوای جدیدی که ایجاد کرده‌اید ریدایرکت کنید.

محتوای بی کیفیت

صفحاتی با محتوای بسیار کم یا صفحاتی که هیچ ارزشی به سایت شما اضافه‌‌‌ نمی‌کنند، محتوای بی ‌کیفیت نامیده می‌شوند.

صفحات با محتوای بسیار کم برای موتورهای جستجو جذاب نیستند. سعی کنید تعداد ‌‌‌آن‌ها را به حداقل برسانید یا در صورت امکان تمام‌شان را حذف کنید. یک نمونه از محتوای بی کیفیت، بخش سوالات متداول با لینک‌هایی برای نشان دادن سوالات و پاسخ‌ها است، جایی که هر پرسش و پاسخ از طریق URL‌های جداگانه ارائه‌‌‌ می‌شوند.

لینک‌‌های شکسته یا ریدایرکت شده

لینک‌های شکسته، لینک‎هایی هستند که به صفحاتی ارجاع‌‌‌ می‌دهند که دیگر وجود ندارند. لینک‌های ریدایرکت شده هم، لینک به URL هایی هستند که به URL‌‌های دیگر هدایت‌‌‌ می‌شوند.

لینک‌های شکسته و زنجیره‌ای طولانی از لینک‌های ریدایرکت شده، موتورهای جستجو را به بن‌بست می‌رسانند.

سعی کنید تا جای ممکن این لینک‌ها را در سایت خود به حداقل برسانید.

واضح است که با اصلاح لینک‌های شکسته و ریدایرکت شده،‌‌‌ می‌توانید به سرعت کسری بودجه خزش سایت‌تان را بازیابی کنید. علاوه بر بازیابی کراول باجت، شما با این کار می‌توانید به طور قابل توجهی تجربه کاربری بازدیدکنندگان سایت‌تان را بهبود‌‌‌ ببخشید. ریدایرکت و مخصوصا زنجیره‌‌های ریدایرکت، باعث طولانی شدن زمان بارگذاری صفحه‌‌‌ می‌شود و تجربه کاربری بسیار بدی برای بازدیدکنندگان سایت ایجاد می‌کند.

URL‌‌های اشتباه در سایت مپ سایت

ربات‌های گوگل از طریق سایت مپ به سایت شما دسترسی خواهند داشت. اگر نقشه سایت شما پر از صفحات شکسته یا ریدایرکت شده باشند، گوگل به اشتباه آن‎ها را کراول می‌کند. توصیه می‌کنیم تا جای ممکن ریدایرکت‎های 3xx، 4xx و 5xx را در نقشه XML سایت خود قرار ندهید. همیشه نقشه XML سایت‌تان را چک کنید و مطمئن شوید که صفحات بی‌ارزش در آن قرار نداشته و صفحات هدف هم حتما در آن موجود باشند.

صفحاتی با سرعت لود پایین

صفحاتی که بارگیری ‌‌‌آن‌ها مدت زیادی طول‌‌‌ می‌کشد یا اصلا بارگیری‌‌‌ نمی‌شوند، روی کراول باجت شما تاثیر خیلی بدی می‎گذارند. این مشکل برای موتورهای جستجو نشانه این است که ‌‌‌وب‌سایت شما از عهده درخواست‌های کاربران برنمی‌آید. بنابراین ممکن است بودجه خزش شما را خیلی کم در نظر بگیرند.

وقتی زمان لود صفحات سایت شما زیاد باشد، موتورهای جستجو‌‌‌ صفحات کمتری از سایت شما را کراول می‌کنند. علاوه بر این نکته منفی، زمان لود بالای صفحه و وقفه زمانی، به طور قابل توجهی به تجربه کاربری بازدیدکنندگان سایت شما آسیب‌‌‌ می‌رساند و نرخ تبدیل را کم می‌کند.

اگر زمان لود صفحه شما بالای ۲ ثانیه باشد، سایت‌تان مشکل جدی دارد. در حالت ایده آل، هر صفحه باید در کمتر از یک ثانیه بارگیری‌‌‌ ‌شود.

تعداد زیادی صفحات غیر قابل ایندکس

‌‌‌هر وب‌سایت حاوی صفحات زیادی است که قابل ایندکس شدن نیستند.

اگر ‌‌‌وب‌سایت شما حاوی تعداد زیادی صفحه غیر قابل ایندکس است که این صفحات برای موتورهای جستجو قابل دسترسی هستند، در واقع شما موتورهای جستجو را مشغول غربالگری صفحات بی‌ربط‌‌‌ می‌کنید و این کار می‌تواند کراول باجت شما را از بین ببرد.

صفحات زیر، غیرقابل ایندکس شدن هستند:

  • تغییر مسیرها (3xx)
  • صفحاتی که پیدا نمی‌شوند (4xx)
  • صفحاتی با خطاهای سرور مواجه‌اند (5xx)
  • صفحاتی که ایندکس‌پذیر نیستند (صفحاتی که حاوی دستورالعمل noindex هستند)

ساختار لینک سازی غیراصولی

اگر ساختار لینک سازی داخلی سایت شما به درستی تنظیم نشده باشد، ممکن است موتورهای جستجو به برخی از صفحات توجه کافی نداشته باشند.

چگونگی لینک‌دهی صفحات در ‌‌‌وب‌سایت شما به یکدیگر، نقش مهمی در بهینه‌سازی بودجه خزش دارد. ما این ساختار را ساختار لینک سازی داخلی ‌‌‌وب‌سایت می‌نامیم.

موتورهای جستجو معمولا جذب صفحاتی می‌شوند که لینک‌دهی داخلی خوب و زیادی دارند.

سعی کنید لینک‌دهی داخلی، در طول محتوای سایت پخش شود. مطمئن شوید که مهم‌ترین صفحات سایت شما دارای لینک‌های داخلی زیادی هستند. صفحاتی که به تازگی کراول شده‌اند، معمولا در موتورهای جستجو رتبه بهتری دارند. این نکته را در ذهن داشته باشید و ساختار لینک‌دهی داخلی خود را بر این اساس تنظیم کنید.

نتیجه گیری

در این مقاله با Crawl Budget و روش‌های بهینه‌سازی آن آشنا شدیم. برطرف کردن مشکلاتی که در بالا به معرفی آن پرداختیم، جدا از بهینه کردن بودجه خزش، تجربه کاربری سایت شما را هم بهتر می‌کند و باعث می‌شود تا کاربران بیشتری از سایت شما بازدید کنند. یکی دیگر از راه‌هایی که به خزش بیشتر صفحات سایت شما کمک میکند انتشار رپوتاژ آگهی است. با اینکار کرالرهایی که وارد سایت ناشر شده‌اند از صفحه رپورتاژتان وارد صفحه مورد نظر در سایت شما میشوند و به خزش بیشتر آن از این طریق کمک می‌شود.

دیدگاه خود را ثبت کنید

آدرس ایمیل شما منتشر نخواهد شد.