יום שלישי, 23 בספטמבר 2008

פעולות קידום אתר מול רובוטי סריקה

בכדי לודא שרובוטי הסריקה של מנועי החיפוש יכסו את כל הדפים והמידע באתר אנו מכוונים אותם לכך. הכוונת הרובוטים נעשית דרך קובץ מיוחד המאפשר לנו להפנות אותם אל מפת אתר מיוחדת המכילה את כל המידע שאנו רוצים שיסרקו. בעזרת הנחיות אלה אנו מוודאים שכל דפי האתר נכללים במנועי החיפוש.
להלן ההנחיות לגבי הקבצים הנדרשים:

קובץ הנחיות לרובוט הסריקה - robots.txt

קובץ robots.txt חייב להיות מוגדר ב Root של האתר ולכלול הוראות לרובוטים לגבי הספריות אותן הוא אינו צריך לסרוק. ספריות אלה יהיו בדרך כלל הספריות המכילות את הקוד או קבצי עזר. יש לוודא שההוראות לרובוט אינן מוציאות מהסריקה את התכנים של האתר.
הנחיות לכתיבת קובץ robots.txt

יש ליצור הפניה לרובוט דרך קובץ זה אל מפת האתר כך:
Sitemap: <sitemap_location>



Sitemap - מפת אתר XML
מערכת ניהול האתר חייבת ליצר מפת אתר במבנה xml אשר ימוקם ב Root של האתר.

עדכון
המפה צריכה להתעדכן דינאמית, אחת ליום או בכל פעם שנוסף במערכת דף חדש. שיקול העדכון תלוי בהתנהלות האתר. אתר פורומים או אתר הכולל תכני גולשים חייב בעדכון דינאמי. אתר חברה המתעדכן לעיתים רחוקות יכול ליצר מפה כקובץ בזמן יצירת תוכן חדש.
יש לשאוף לכלול את כל דפי האתר.

הנחיות לגבי מבנה XML של מפת אתר

דגשים
חובה להבריח תווים (entity escaped) בקישורים במפה.
מפת האתר אינה יכולה להכיל יותר מאשר 50,000 כתובות URL.
מפת האתר חייבת לשקול מתחת ל 10 MB.
ניתן לדחוס את המפה ב gzip. מגבלת ה 10MB חלה על הקובץ המורחב. הדחיסה היא רק בכדי לאפשר טעינה קלה.
במידה ומפת האתר עולה על הגדלים הנקובים, יש לפצל אותה למספר מפות ולהשתמש בקובץ אינדקס (ראו הנחיות בקישור מעל).
יש לשים לב לגבי הנחיות מיוחדות במקרים של sub-domain או כתובות URL הכוללות Port.

תגובה 1:

אנונימי אמר/ה...

לא הייתי מציג את זה אחרת. אגב, לא חושב שזה טכני מדי כפי שהגדרת בהודעה, המון בעלי אתרים יכולים להעזר באינפורמציה הזו ולשפר את תקשורת האתר שלהם מול גוגל. { ממליץ לפרסם בקפה }.