Ο εκτενής οδηγός μας για τον έλεγχο των ανιχνευτών αναζήτησης

0
Ο εκτενής οδηγός μας για τον έλεγχο των ανιχνευτών αναζήτησης

Εάν έχετε σύγχυση σχετικά με το noindex στο robots.txt, γιατί πρέπει να χρησιμοποιήσετε το robots.txt και πώς να χρησιμοποιήσετε αυτό το αρχείο κλειδιού, αυτός είναι ο σωστός οδηγός για εσάς. Θα εξετάσουμε το ευρετήριο robots.txt no, πώς το χρησιμοποιούμε για τεχνικό SEO και πολλά άλλα.

Τι είναι ένα αρχείο robots.txt;

Η κύρια χρήση του Robots.txt είναι:

  • Ελέγξτε την επισκεψιμότητα του προγράμματος ανίχνευσης αναζήτησης
  • Κρατήστε τα αρχεία μακριά από τις μηχανές αναζήτησης

Για παράδειγμα, ας υποθέσουμε ότι έχετε ένα αρχείο PDF στον ιστότοπό σας για το οποίο θέλετε οι χρήστες να εγγραφούν και να λάβουν. Δεν θέλετε η Google να ανιχνεύει και να ευρετηριάζει αυτό το αρχείο, επομένως μπορείτε να χρησιμοποιήσετε ένα ευρετήριο robots.txt no για να πείτε στο bot της Google ή σε οποιαδήποτε μηχανή αναζήτησης ότι δεν πρέπει να ευρετηριάσει αυτό το αρχείο.

Σε τι χρησιμοποιείται ένα αρχείο txt robots;

Το Robots.txt μπορεί να χρησιμοποιηθεί για τη διαχείριση του τρόπου με τον οποίο οι μηχανές αναζήτησης ανιχνεύουν και ευρετηριάζουν τον ιστότοπό σας. Μπορείτε να χρησιμοποιήσετε αυτό το αρχείο για:

  • ιστοσελίδες, για να προσπαθήσετε να κρατήσετε μια σελίδα μακριά από το ευρετήριο μιας μηχανής αναζήτησης. Ωστόσο, η Google σημειώνει ότι η διεύθυνση URL μπορεί να εξακολουθεί να εμφανίζεται στα αποτελέσματα αναζήτησης, αλλά δεν θα είναι διαθέσιμη περιγραφή.
  • Αρχεία πολυμέσωνκρατήστε εικόνες, ήχο, βίντεο και οποιαδήποτε άλλα αρχεία πολυμέσων μακριά από τις σελίδες αποτελεσμάτων αναζήτησης.
  • Τα αρχεία πόρων μπορούν να αποκλειστούνόπως τα σενάρια και τα αρχεία στυλ, αν και αυτό συχνά δεν συνιστάται.

Είναι απαραίτητο ένα αρχείο txt robots;

Όχι. Εάν δεν δημιουργήσετε ένα αρχείο robots.txt, τα προγράμματα ανίχνευσης αναζήτησης θα συνεχίσουν να ανιχνεύουν τον ιστότοπό σας. Σκεφτείτε αυτό το αρχείο ως αρχείο άδειας. Εάν το αρχείο δεν υπάρχει, ο ανιχνευτής θα υποθέσει ότι μπορεί να ανιχνεύσει ελεύθερα τον ιστότοπό σας.

Πώς λειτουργεί ένα αρχείο robots.txt;

Θα σας δείξουμε σύντομα ένα παράδειγμα αρχείου robots.txt, αλλά λειτουργεί απλώς ανεβάζοντάς το στον ριζικό φάκελο του ιστότοπού σας. Οι ανιχνευτές θα αναζητήσουν το αρχείο και θα φροντίσουν για τα υπόλοιπα. Ωστόσο, πρέπει να φροντίσετε να ονομάσετε το αρχείο με πεζά για να βρεθεί.

Πού πηγαίνει το robots.txt σε έναν ιστότοπο;

Όταν ανεβάζετε το αρχείο robots.txt, θα πρέπει να το τοποθετήσετε στη ρίζα του ιστότοπού σας. Για παράδειγμα, θέλετε το αρχείο να είναι προσβάσιμο στη διεύθυνση: site.com/robots.txt.

Ποια πρωτόκολλα χρησιμοποιούνται σε ένα αρχείο robots.txt;

Το Robots.txt χρησιμοποιεί αρκετά πρωτόκολλα, αλλά το κύριο ονομάζεται Πρωτόκολλο εξαίρεσης ρομπότ. Αυτό είναι το πιο συχνά χρησιμοποιούμενο πρωτόκολλο με αυτό το αρχείο επειδή ειδοποιεί τα ρομπότ σχετικά με το ποιοι πόροι ή αρχεία δεν είναι προσβάσιμα.

Επιπλέον, μπορεί να χρησιμοποιηθεί και το πρωτόκολλο Sitemaps.

Μέσα στο αρχείο, μπορείτε επίσης να ορίσετε πράκτορες χρήστη για περισσότερη βελτίωση όταν επιλέγετε ποια ρομπότ μπορούν και ποια δεν μπορούν να έχουν πρόσβαση σε αρχεία, φακέλους ή πόρους.

Τι είναι ένας πράκτορας χρήστη;

Οι πράκτορες χρήστη βοηθούν στην αναγνώριση χρηστών στο Διαδίκτυο. Οι πράκτορες μπορεί να είναι προγράμματα ή άτομα, αλλά οι περισσότεροι χρήστες του ιστότοπου θα ασχολούνται μόνο με προγράμματα. Ο ανιχνευτής αναζήτησης είναι ένα πρόγραμμα και ο παράγοντας χρήστη είναι το „όνομα“ του ρομπότ που ανιχνεύει τον ιστότοπο.

Όταν βλέπετε το „User-agent:*“, αυτό σημαίνει ότι οι κανόνες που ακολουθούν σχετίζονται με όλες οι μηχανές αναζήτησης και τα bots.

Ωστόσο, μπορείτε να ονομάσετε και συγκεκριμένα ρομπότ, όπως:

  • Googlebot
  • Bingbot
  • Baiduspider
  • Και τα λοιπά.

Θα δούμε ένα παράδειγμα αποκλεισμού συγκεκριμένων bot στο παρακάτω παράδειγμα.

Πώς λειτουργούν οι εντολές „Disallow“ σε ένα αρχείο robots.txt;

Εάν γνωρίζετε για το noindex στο robots.txt, ίσως αναρωτιέστε τι άλλο απαγορεύω υπάρχουν εντολές και πώς λειτουργούν. Ευτυχώς, αυτό είναι απλό:

  • Απαγόρευση: /hidome/secret.html – μπλοκάρει ένα συγκεκριμένο αρχείο
  • Απαγόρευση: /hiddeme/ – μπλοκάρει έναν ολόκληρο φάκελο
  • Απαγόρευση: / – μπλοκάρει ολόκληρο τον ιστότοπο

Ας ρίξουμε μια ματιά σε ένα παράδειγμα για το πώς μπορεί να μοιάζει το robots.txt.

Παράδειγμα robots.txt

Να επιτρέπεται η πρόσβαση σε ολόκληρο τον ιστότοπο:

User-agent: *
Allow: /

Αποκλείστε την πρόσβαση σε ολόκληρο τον ιστότοπο:

User-agent: *
Disllow: /

Εδώ είναι ένα απλό αρχείο robots.txt με δύο κανόνες:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.example.com/sitemap.xml

Λάβετε υπόψη ότι ένα μεμονωμένο αρχείο μπορεί να χρησιμοποιηθεί για τον έλεγχο πολλών ρομπότ με τις οδηγίες κάτω από κάθε παράγοντα χρήστη.

Τεχνική σύνταξη robots.txt

Η σύνταξη έχει μεγάλη σημασία κατά τη δημιουργία του αρχείου σας. Τα πολλά στοιχεία που μπορείτε να συμπεριλάβετε στο αρχείο σας είναι:

  • User-agent: για να ονομάσετε συγκεκριμένους ανιχνευτές ή να χρησιμοποιήσετε το * για όλα τα ρομπότ
  • Disallow: εντολή για να πει σε ένα bot ποια αρχεία δεν πρέπει να ανιχνεύονται
  • Allow: εντολή για να πείτε στα bots πού να ανιχνεύονται
  • Καθυστέρηση ανίχνευσης: ορίστε μια καθυστέρηση, σε δευτερόλεπτα, για να περιμένετε μεταξύ της ανίχνευσης νέων σελίδων
  • Χάρτης ιστότοπου: μια εντολή για τη λίστα της τοποθεσίας των χαρτών ιστοτόπου σας

Google έχει μια προειδοποίηση για τους χρήστες:

Η προειδοποίηση της Google για πολλούς κανόνες στο robots.txt

Robots.txt vs meta robots vs x-robots

Ενώ πολλοί άνθρωποι χρησιμοποιούν και τους τρεις αυτούς όρους εναλλακτικά, είναι όλα διαφορετικά. Ένα αρχείο robots.txt είναι το πραγματικό αρχείο κειμένου που καλύψαμε λεπτομερώς, αλλά τα meta robots και τα x-robots είναι οδηγίες.

Μπορείτε να το σκεφτείτε ως εξής:

  • Το txt υπαγορεύει τη συμπεριφορά ανίχνευσης
  • Τα μεταρομπότ και τα x-ρομπότ χρησιμοποιούνται για τον έλεγχο της συμπεριφοράς ευρετηρίασης

Η Google έχει μια καλή εξήγηση για τον αποκλεισμό της ευρετηρίασης:

Σημείωση: noindex στα robots txt είναι δεν υποστηρίζεται πλέον σε αρχείο robots.txt και δεν υπάρχει από το 2019. Αντίθετα, μπορείτε να ορίσετε noindex σε μετα-ετικέτες robots.

Η Google έχει το ΕΠΟΜΕΝΟ να πω για αυτό:

Η Google αγνοεί το noindex στο robots.txt

Έλεγχος εάν έχετε αρχείο robots.txt

Εάν δεν είστε βέβαιοι εάν έχετε αρχείο robots.txt, συνδεθείτε στον ιστότοπό σας χρησιμοποιώντας cPanel ή έναν πελάτη FTP και μεταβείτε στον ριζικό κατάλογο. Υπάρχει το αρχείο robots.txt; Αν ναι, έχετε το αρχείο.

Μπορείτε επίσης απλώς να μεταβείτε στη διεύθυνση: yoursite.com/robots.txt.

Πώς να δημιουργήσετε ένα αρχείο robots.txt

Μπορείτε να δημιουργήσετε το αρχείο στον υπολογιστή σας και απλά να το ανεβάσετε στο root του ιστότοπού σας. Ωστόσο, μπορείτε επίσης να βρείτε:

  • Προσθήκες WordPress
  • txt γεννήτριες
  • Και τα λοιπά.

Βέλτιστες πρακτικές SEO

Εάν σκοπεύετε να χρησιμοποιήσετε το robots.txt, μερικές πρακτικές SEO που πρέπει να ακολουθήσετε είναι:

  • Βεβαιωθείτε ότι δεν αποκλείετε την ανίχνευση σημαντικών σελίδων ή φακέλων
  • Οι σύνδεσμοι σε σελίδες που είναι αποκλεισμένες θα δεν ακολουθείταιεπομένως το μετοχικό κεφάλαιο σύνδεσης δεν θα μεταφερθεί
  • Προστατεύστε με κωδικό πρόσβασης ή χρησιμοποιήστε μετα-οδηγίες noindex για να αποτρέψετε την είσοδο ευαίσθητων δεδομένων στα αποτελέσματα αναζήτησης
  • Υποβάλετε το robots.txt σας στην Google για να διασφαλίσετε ότι τηρούνται οι νέοι, πρόσθετοι κανόνες

Το Robots.txt είναι ένα ισχυρό εργαλείο για τον αποκλεισμό της πρόσβασης σε ορισμένα κομμάτια περιεχομένου ή ενότητες του ιστότοπού σας. Ο παραπάνω οδηγός καλύπτει τα βασικά βήματα που πρέπει να ακολουθήσετε για να αποκλείσετε την πρόσβαση σε αρχεία ή να παραχωρήσετε πρόσβαση.

Schreibe einen Kommentar