איך למנוע מקבצי PDF להיות תוכן משוכפל?

[lp_ert]

בצירוף מקרים די מדהים אחד הלקוחות שלי שאל אותי היום במייל מה ניתן לעשות עם קובץ PDF אשר מאונדקס בגוגל מכיל את אותו התוכן בגרסה ה-HTMLית שלו באתר.

כמה שעות לאתר מכן ראיתי ציוץ של גארי איליס שפורסם בבלוג seoundtable המבהיר כי גוגל איננה מתייחסת לקובץ PDF עם אותו תוכן כמו בדף HTML כשכפול תוכן.

ובכן, נכון לפי הציוץ ניתן להבין שזה לא ממש אכפת לגוגל אם יש שכפול תוכן וכבר ראינו בעבר שגוגל יודעת להתנהל בצורה טובה עם תוכן משוכפל ויודעת להחליט איזה תוכן להציג ובדר"כ עושה את זה בצורה טובה.

אבל אם אתם אנשי SEO מקצועיים שחייבים שהכל יהיה By the Book ולא מעוניינים שגוגל יעשה לכם טובה ויחליט בשבילכם – לפניכם המדריך המלא כיצד לחסום קבצי PDF ולמנוע שכפול תוכן .

מדוע לחסום קבצי PDF?

אם יש לכם באתר גרסאות PDF של דפי HTML וגוגל סורק את שניהם, אחד מהם עלול להיות מזוהה כתוכן משוכפל וכתוצאה מכך הדירוג של קובץ ה-PDF או עמוד HTML עלול להיפגע (או שניהם!)

עמוד PDF נחשב כעמוד נחיתה גרוע –  בדר"כ לא ממותג, חסר בר ניווט, צור קשר ובלי יכולת  אמיתית לתת לגולש את האפשרות לעשות איזהשהי אינטרקציה עם האתר שלכם מלבד ללחוץ על כפתור ה-Back בדפדפן.

בנוסף, אתרים אחרים עלולים בטעות לקשר אל עמודי ה-PDF שלכם במקום אל עמוד המאמר מה שעלול לגרום לעמודי ה-PDF להיות מדורגים מעל גרסת ה-HTML שלכם.

בכל מקרה, כל הבעיות הנ"ל עלולות לגרום לאיבוד תנועה ומיקומים לעמודי התוכן שלכם שכל כך השקעתם בהם.

למזלכם, אלו בעיות עם פיתרון קל.

חסימת קבצי PDF בקובץ Robots.txt

הדרך הכי קלה היא פשוט לחסום את הקבצים מלהתאנדקס בקובץ ה-Robots.txt שלכם. זהו פתרון קל ומהיר לוודא שקבצי ה-PDF שלכם לא יהיו גלויים לבוט של גוגל ולכן לא יהיו מאונדקסים.

חסימה מסוג זה מתבצעת או על ידי חסימת תיקיית ה-PDF כולה או לחסום קובץ ספציפי בתוך התקייה.

חסימת תקיית PDF בקובץ Robots.txt

User-agent: *
Disallow: /pdfs/

חסימת קובץ PDF בקובץ Robots.txt

User-agent: *
Disallow: /pdfs/yourfile.pdf

פתרון זה לפחות מבטיח שלא יהיו בעיות שכפול תוכן והמשתמשים תמיד יגיעו לדף הנכון (כמובן שיש להוסיף הפניות אל הדף בגרסתו הנכונה)

חשוב להביו שה-PDF יהיה חסום ב-Robots.txt ולא יהיה מאונדקס למרות שגוגל עלול לדעת על קיומו בעקבות הצבעה של לינקים חיצוניים אליו.

 

חסימת PDF ב-HTTP Header

חלק מקבצי ה-PDF שלכם בוודאי מקושרים מבחוץ ומבפנים האתר ואתם לא רוצים לאבד את הכוח הזה. הדרך הטובה ביותר לשמר את הכוח הזה היא להוסיף תג קנוניקל בקובץ .htaccess בשרת המצביע אל ה-URL בגרסת ה-HTML. בהנחה שיש לכם את ה-URLים הבאים:

  • www.yoursite.co.il/article.html
  • www.yoursite.co.il/pdfs/pdf-article.pdf

כאשר pdf-article.pdf הוא שכפול תוכן של  article.html ו-article.html הוא העמוד שאנחנו רוצים שיהיה מדורג במנוע החיפוש – עליכם להוסיף בקובץ .htaccess את השורות הבאות:

<Files /pdfs/pdf-article.pdf>

Header add Link '<http://www.yoursite.co.il/article.html>;
rel="canonical"'
</Files>

אז באיזה פתרון לבחור?

חסימת ה-PDF ב HTTP Header היא הפתרון המומלץ ביותר מכיוון שאם תחסמו ב-robots.txt הקבצים עדיין עלולים להופיע בתוצאות החיפוש בגלל לינקים חיצוניים המופנים אליהם והם לא יעלמו אם לא תסירו אותם דרך הכלי לניהול אתרים של גוגל או על ידי ביצוע הפניות. הנה מאמר מצויין של קווין גרייבס ב moz המתאר מספר אופציות נוספות של שימוש בתג קנוניקל בקבצי PDF בעזרת פונקציית header() בשפת PHP או על ידי משתנה דינאמי בעזרת RewriteRule בקובץ .htaccess

 

נשלח ב SEO טכני

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *

*

צריכים ייעוץ?

השאירו הודעה [contact-form-7 id="4" title="טופס יצירת קשר 1"]