Το διπλότυπο περιεχόμενο είναι το πιο συνηθισμένο λάθος βελτιστοποίησης στη σελίδα. Διπλότυπο περιεχόμενο. Ήρθε η ώρα να εξαλειφθούν οι κακόβουλοι κλώνοι

Διπλότυπο Περιεχόμενομπορεί να χωριστεί σε τρεις μεγάλες κατηγορίες: ακριβές διπλότυπο, όπου δύο διευθύνσεις URL έχουν εντελώς ίδιο περιεχόμενο, περιεχόμενο με μικρές διαφορές(σειρά πρότασης, ελαφρώς διαφορετικές εικόνες κ.λπ.) και διπλότυπα μεταξύ τομέων, όπου υπάρχει ακριβές ή ελαφρώς τροποποιημένο αντίγραφο σε πολλούς τομείς.

Υπάρχουν δύο σχετικές έννοιες που δεν θεωρούνται το ίδιο πράγμα με το διπλό περιεχόμενο από την Google, αλλά συχνά συγχέουν τους εκδότες και τους άπειρους SEO:

λεπτό περιεχόμενο -Όπως αναφέρθηκε προηγουμένως, αυτές είναι σελίδες που έχουν πολύ λίγο περιεχόμενο. Ένα παράδειγμα είναι ένα σύνολο σελίδων χτισμένο σε μια λίστα διευθύνσεων οργανισμού που έχει 5.000 διευθύνσεις, αλλά κάθε σελίδα περιέχει μόνο μία διεύθυνση - λίγες μόνο γραμμές.
περικοπή περιεχομένου -Σελίδες που διαφέρουν ελαφρώς μεταξύ τους ανήκουν σε αυτήν την κατηγορία. Φανταστείτε έναν ιστότοπο που πουλά παπούτσια Nike Air Max που κυκλοφορούν σε μεγέθη 37, 37,5, 38, 38,5, 39, ... 46. Εάν ο ιστότοπος έχει ξεχωριστή σελίδα για κάθε μέγεθος παπουτσιού, τότε η διαφορά μεταξύ όλων αυτών των σελίδων θα είναι ασήμαντη. Η Google ονομάζει αυτό το εφέ κομμένο σε λεπτές φέτες.

Στην Google δεν αρέσει το λεπτό περιεχόμενο ή η λεπτή κοπή. Οποιοδήποτε από αυτά τα εφέ μπορεί να ανιχνευθεί από τον αλγόριθμο Panda . Δεν είναι σαφές πώς ακριβώς το Bing διαφοροποιεί το διπλό περιεχόμενο, το λεπτό περιεχόμενο και τον τεμαχισμό περιεχομένου, αλλά είναι σαφές ότι οι εκδότες πρέπει να αποφεύγουν τη δημιουργία αυτού του τύπου σελίδων.

Διπλότυπο περιεχόμενο μπορεί να προκύψει για πολλούς λόγους, όπως η αδειοδότηση του περιεχομένου του ιστότοπού σας, ελαττώματα στην αρχιτεκτονική του ιστότοπου λόγω ενός συστήματος διαχείρισης περιεχομένου που δεν είναι βελτιστοποιημένο για μηχανές αναζήτησης ή λόγω της παρουσίας λογοκλοπής. Τα τελευταία πέντε χρόνια, οι αποστολείς ανεπιθύμητων μηνυμάτων που διψούν για περιεχόμενο άρχισαν να αφαιρούν περιεχόμενο από νόμιμες πηγές, να αναδιατάσσουν λέξεις μέσω μιας ποικιλίας περίπλοκων διαδικασιών και να τοποθετούν το κείμενο που προκύπτει στις σελίδες τους για να προσελκύουν μακροχρόνιες αναζητήσεις και να εμφανίζουν διαφημίσεις με βάση τα συμφραζόμενα, καθώς και για άλλες ανέντιμους σκοπούς.

Έτσι, σήμερα ζούμε σε έναν κόσμο «προβλημάτων διπλού περιεχομένου» και «κυρώσεων διπλού περιεχομένου». Ακολουθούν ορισμένοι ορισμοί που θα είναι χρήσιμοι για τη συζήτησή μας.

Μοναδικό περιεχόμενο-γραμμένο από άνθρωπο, εντελώς διαφορετικό από οποιονδήποτε άλλο συνδυασμό γραμμάτων, συμβόλων και λέξεων στον Παγκόσμιο Ιστό και δεν επηρεάζεται από αλγόριθμους επεξεργασίας κειμένου υπολογιστή (όπως εργαλεία spammer που χρησιμοποιούν αλυσίδες Markov).
Θραύσματα -Αυτά είναι μικρά κομμάτια περιεχομένου (όπως εισαγωγικά) που αντιγράφονται και επαναχρησιμοποιούνται ξανά και ξανά. Δεν αποτελούν σχεδόν ποτέ πρόβλημα για τις μηχανές αναζήτησης, ειδικά όταν περιλαμβάνονται σε ένα μεγαλύτερο έγγραφο με πολύ μοναδικό περιεχόμενο.
έρπητας ζωστήρας -Οι μηχανές αναζήτησης αναζητούν σχετικά μικρά τμήματα φράσεων (πέντε έως έξι λέξεις) σε άλλες σελίδες στον Παγκόσμιο Ιστό. Εάν δύο έγγραφα έχουν πάρα πολλά κοινά έρπητα ζωστήρα, τότε οι μηχανές αναζήτησης ενδέχεται να ερμηνεύσουν αυτά τα έγγραφα ως διπλό περιεχόμενο.
Διπλότυπα ζητήματα περιεχομένου -Αυτή η φράση συνήθως χρησιμεύει για να υποδείξει διπλό περιεχόμενο, για το οποίο ένας ιστότοπος μπορεί να τιμωρηθεί. Ένα τέτοιο περιεχόμενο είναι απλώς ένα αντίγραφο μιας υπάρχουσας σελίδας, αναγκάζοντας τη μηχανή αναζήτησης να επιλέξει ποια έκδοση θα εμφανιστεί στο ευρετήριο (αυτό είναι το λεγόμενο διπλό φίλτρο περιεχομένου).
Διπλότυπο φίλτρο περιεχομένου -μια κατάσταση όπου μια μηχανή αναζήτησης αφαιρεί παρόμοιο περιεχόμενο από τα αποτελέσματα αναζήτησης προκειμένου να παρέχει καλύτερα αποτελέσματα στον χρήστη.
Ποινή για διπλό περιεχόμενο -Τα πρόστιμα (ποινές) χρησιμοποιούνται σπάνια και μόνο σε προφανείς καταστάσεις. Οι μηχανές αναζήτησης μπορεί να μειώσουν την κατάταξη ή να αποκλείσουν τις υπόλοιπες σελίδες του ιστότοπου ή ακόμα και να απαγορεύσουν ολόκληρο τον ιστότοπο.

Συνέπειες Διπλότυπου Περιεχομένου

Αν υποθέσουμε ότι το διπλότυπο περιεχόμενό σας είναι αποτέλεσμα μιας αβλαβούς παράβλεψης εκ μέρους των προγραμματιστών σας, η μηχανή αναζήτησης πιθανότατα θα φιλτράρει όλες τις διπλότυπες σελίδες (εκτός από μία), επειδή θέλει να εμφανίσει μόνο μία έκδοση αυτού του περιεχομένου στις σελίδες αποτελεσμάτων αναζήτησης. Σε ορισμένες περιπτώσεις, η μηχανή αναζήτησης μπορεί να φιλτράρει τα αποτελέσματα προτού συμπεριληφθούν στο ευρετήριο και σε άλλες περιπτώσεις, μπορεί να επιτρέψει την ευρετηρίαση της σελίδας και να τη φιλτράρει κατά την προετοιμασία των αποτελεσμάτων αναζήτησης ως απόκριση σε ένα συγκεκριμένο ερώτημα. Σε αυτήν την τελευταία περίπτωση, η σελίδα μπορεί να φιλτραριστεί ως απάντηση σε ορισμένα συγκεκριμένα ερωτήματα και να μην φιλτραριστεί για άλλα.

Οι χρήστες θέλουν να βλέπουν ποικιλία στα αποτελέσματα (όχι τα ίδια αποτελέσματα ξανά και ξανά). Επομένως, οι μηχανές αναζήτησης προσπαθούν να φιλτράρουν το διπλό περιεχόμενο και αυτό έχει τις ακόλουθες συνέπειες:

Ένα ρομπότ μηχανής αναζήτησης έρχεται σε έναν ιστότοπο με συγκεκριμένο προϋπολογισμό προβολής, που εκφράζεται στον αριθμό των σελίδων που σκοπεύει να δει σε κάθε συγκεκριμένη συνεδρία. Κάθε φορά που προσγειώνεται σε μια διπλότυπη σελίδα που θα πρέπει απλώς να φιλτραριστεί από τα αποτελέσματα αναζήτησης, επιτρέπετε στο ρομπότ να σπαταλήσει μέρος του προϋπολογισμού ανίχνευσης. Αυτό σημαίνει ότι λιγότερες από τις «καλές» σελίδες σας θα προβληθούν και θα έχει ως αποτέλεσμα λιγότερες από τις σελίδες σας να περιλαμβάνονται στο ευρετήριο της μηχανής αναζήτησης.
Παρόλο που οι μηχανές αναζήτησης προσπαθούν να φιλτράρουν το διπλό περιεχόμενο, οι σύνδεσμοι σε σελίδες διπλού περιεχομένου εξακολουθούν να τους μεταδίδουν χυμό συνδέσμων. Επομένως, οι διπλότυπες σελίδες μπορούν να αποκτήσουν PageRank ή "link juice", και επειδή αυτό δεν βοηθά στην κατάταξη τους, αυτός ο πόρος σπαταλιέται.
Καμία μηχανή αναζήτησης δεν έχει δώσει σαφή εξήγηση για το πώς ο αλγόριθμός της επιλέγει ποια έκδοση της σελίδας θα εμφανίσει. Με άλλα λόγια, αν εντοπίσει τρία αντίγραφα του ίδιου περιεχομένου, ποια από αυτά θα φιλτράρει; Ποιο θα δείξει; Εξαρτάται από το ερώτημα αναζήτησης; Ως αποτέλεσμα, η μηχανή αναζήτησης ενδέχεται να μην εμφανίζει την έκδοση που χρειάζεστε.

Αν και ορισμένοι ειδικοί βελτιστοποίησης ενδέχεται να διαφωνήσουν με ορισμένα από τα σημεία που παρουσιάζονται εδώ, η συνολική δομή είναι ουσιαστικά αδιαμφισβήτητη. Ωστόσο, υπάρχουν αρκετά προβλήματα με τα όρια αυτού του μοντέλου.

Για παράδειγμα, ο ιστότοπός σας έχει μια ομάδα σελίδων προϊόντων, καθώς και εκτυπώσιμες εκδόσεις αυτών των σελίδων. Η μηχανή αναζήτησης μπορεί να επιλέξει να εμφανίσει την εκτυπώσιμη έκδοση στα αποτελέσματά της. Αυτό συμβαίνει μερικές φορές και μπορεί να συμβεί ακόμα και όταν η σελίδα εκτύπωσης έχει λιγότερους συνδέσμους και χαμηλότερη κατάταξη από την κύρια σελίδα προϊόντος.

Για να διορθώσετε αυτήν την κατάσταση, πρέπει να εφαρμόσετε το χαρακτηριστικό link rel=”canonical” σε όλες τις διπλότυπες εκδόσεις της σελίδας για να υποδείξετε την κύρια έκδοση.

Η δεύτερη επιλογή μπορεί να προκύψει όταν κοινοποιείτε το περιεχόμενό σας (επιτρέπετε την αναδημοσίευση του περιεχομένου σας) σε τρίτους. Το πρόβλημα είναι ότι η μηχανή αναζήτησης μπορεί να πετάξει το πρωτότυπό σας από τα αποτελέσματα αναζήτησης και να προτιμήσει την έκδοση που χρησιμοποιείται από το άτομο που αναδημοσίευσε το άρθρο σας. Υπάρχουν τρεις πιθανές λύσεις σε αυτό το πρόβλημα:

Ζητήστε από το άτομο που αναδημοσίευσε το άρθρο σας να συνδεθεί πίσω στο αρχικό άρθρο στον ιστότοπό σας με το χαρακτηριστικό rel=”canonical”. Αυτό θα υποδείξει στις μηχανές αναζήτησης ότι το αντίγραφο της σελίδας σας είναι το πρωτότυπο και ότι τυχόν σύνδεσμοι που οδηγούν στην κοινοπρακτική σελίδα θα πιστωθούν στην αρχική σας σελίδα.
ζητήστε από τον συνεργάτη σας να κλείσει το αντίγραφό του με το χαρακτηριστικό noindex. Σε αυτήν την περίπτωση, το διπλό περιεχόμενο απλώς δεν θα ευρετηριαστεί από τη μηχανή αναζήτησης. Επιπλέον, τυχόν σύνδεσμοι σε αυτό το περιεχόμενο προς τον ιστότοπό σας θα συνεχίσουν να σας δίνουν εξουσιοδότηση.
ζητήστε από τον συνεργάτη σας να συνδεθεί πίσω στην αρχική σελίδα στον ιστότοπό σας. Οι μηχανές αναζήτησης συνήθως το ερμηνεύουν σωστά και τονίζουν την εκδοχή του περιεχομένου σας. Ωστόσο, θα πρέπει να σημειωθεί ότι υπήρξαν περιπτώσεις όπου η Google έχει καθορίσει εσφαλμένα την πατρότητα του περιεχομένου και έχει εκχωρήσει την απόδοση στον ιστότοπο που το αναδημοσίευσε, ειδικά εάν αυτός ο ιστότοπος έχει πολύ μεγαλύτερη εξουσία και εμπιστοσύνη από την πραγματική αρχική πηγή του περιεχομένου.

Πώς αναγνωρίζουν οι μηχανές αναζήτησης το διπλό περιεχόμενο;

Θα παρουσιάσουμε τη διαδικασία αναζήτησης διπλού περιεχομένου στον Παγκόσμιο Ιστό για τη μηχανή Google με παραδείγματα. Στα παραδείγματα που παρουσιάζονται στο Σχ. 1-4, γίνονται τρεις υποθέσεις:

μια σελίδα με κείμενο είναι μια σελίδα που περιέχει διπλό περιεχόμενο (και όχι μόνο ένα απόσπασμά του, όπως φαίνεται στις εικόνες).
Όλες οι σελίδες με διπλό περιεχόμενο βρίσκονται σε διαφορετικούς τομείς.
Τα βήματα που φαίνονται παρακάτω έχουν απλοποιηθεί για να γίνει η διαδικασία όσο το δυνατόν πιο εύκολη και απλή. Αυτή σίγουρα δεν είναι μια ακριβής περιγραφή του τρόπου λειτουργίας της Google, αλλά καταλαβαίνει την ουσία.

Ρύζι. 1

Ρύζι. 2

Ρύζι. 3

Ρύζι. 4

Υπάρχουν πολλά γεγονότα σχετικά με το διπλό περιεχόμενο που αξίζουν ιδιαίτερης αναφοράς, επειδή μπορούν να μπερδέψουν έναν webmaster που είναι νέος στο θέμα του διπλού περιεχομένου. Ας εξετάσουμε αυτούς τους παράγοντες.

Διπλότυπη τοποθεσία περιεχομένου -αν όλο αυτό το περιεχόμενο βρίσκεται στον ιστότοπό μου, είναι διπλό; Ναι, επειδή μπορεί να προκύψει διπλότυπο περιεχόμενο τόσο σε έναν ιστότοπο όσο και σε διαφορετικούς ιστότοπους.
Ποσοστό διπλότυπου περιεχομένου -Ποιο ποσοστό μιας σελίδας πρέπει να αντιγραφεί για να πληροί τις προϋποθέσεις για φιλτράρισμα διπλού περιεχομένου; Δυστυχώς, οι μηχανές αναζήτησης δεν αποκαλύπτουν ποτέ αυτές τις πληροφορίες γιατί θα έβλαπτε την ικανότητά τους να αποτρέψουν το ίδιο το πρόβλημα.
Μπορούμε σχεδόν με σιγουριά να πούμε ότι αυτό το ποσοστό αλλάζει συνεχώς για όλους τους κινητήρες και κατά τον εντοπισμό διπλού περιεχομένου, δεν γίνεται μόνο μια άμεση σύγκριση. Η ουσία είναι ότι οι σελίδες δεν χρειάζεται να είναι πανομοιότυπες για να θεωρούνται διπλότυπες.
Συσχέτιση μεταξύ κώδικα και κειμένου -τι γίνεται αν ο κώδικάς μας είναι πολύ μεγάλος, αλλά υπάρχουν λίγα μοναδικά στοιχεία HTML στη σελίδα; Θα σκεφτεί η Google ότι όλες οι σελίδες είναι διπλότυπα η μία της άλλης; Οχι. Οι μηχανές αναζήτησης δεν ενδιαφέρονται για τον κώδικά σας, ενδιαφέρονται για το περιεχόμενο των σελίδων σας. Το μέγεθος του κώδικα γίνεται πρόβλημα μόνο όταν γίνεται υπερβολικό.
Η αναλογία των στοιχείων πλοήγησης και του μοναδικού περιεχομένου -Όλες οι σελίδες στον ιστότοπό μου έχουν μεγάλη γραμμή πλοήγησης, πολλές κεφαλίδες και υποσέλιδα, αλλά πολύ λίγο περιεχόμενο. Θα θεωρήσει η Google όλες αυτές τις σελίδες ως διπλότυπες; Οχι. Η Google (και το Yahoo! και το Bing) εξετάζουν τα στοιχεία πλοήγησης προτού αξιολογήσει τις σελίδες για αντιγραφή. Είναι εξοικειωμένοι με τη διάταξη ιστότοπου και κατανοούν ότι είναι απολύτως φυσιολογικό να υπάρχουν συνεπείς δομές σε όλες τις σελίδες (ή σε πολλές από αυτές). Προσέχουν τα μοναδικά μέρη των σελίδων και αγνοούν σχεδόν εντελώς τα υπόλοιπα.
Περιεχόμενο με άδεια χρήσης -Τι γίνεται αν θέλω να αποφύγω ζητήματα διπλότυπου περιεχομένου, αλλά έχω περιεχόμενο από άλλες πηγές ιστού που έχω άδεια να εμφανίζω στους επισκέπτες μου; Χρησιμοποιήστε τον κωδικό meta name = "robots" content="noindex, follow" . Τοποθετήστε τον στην κεφαλίδα της σελίδας σας και οι μηχανές αναζήτησης θα καταλάβουν ότι αυτό το περιεχόμενο δεν είναι για αυτές. Αυτή είναι μια βέλτιστη πρακτική, καθώς οι χρήστες θα εξακολουθούν να μπορούν να επισκεφθείτε αυτήν τη σελίδα και συνδέστε τη, και οι σύνδεσμοι σε αυτήν τη σελίδα θα διατηρήσουν την αξία τους.

Μια άλλη επιλογή είναι να αποκτήσετε αποκλειστικά δικαιώματα κατοχής και δημοσίευσης αυτού του περιεχομένου.

Εντοπισμός και εξάλειψη παραβιάσεων πνευματικών δικαιωμάτων

Ένας από τους καλύτερους τρόπους παρακολούθησης διπλοτύπων στον ιστότοπό σας είναι να χρησιμοποιήσετε το CopyScape (copyscape.com), το οποίο σας επιτρέπει να βλέπετε αμέσως τις σελίδες στον Παγκόσμιο Ιστό που χρησιμοποιούν το περιεχόμενό σας. Μην ανησυχείτε εάν οι σελίδες αυτών των ιστότοπων βρίσκονται στο δευτερεύον ευρετήριο ή κατατάσσονται σημαντικά χαμηλότερα από τη δική σας - εάν κάποιος μεγάλος, έγκυρος, πλούσιος σε περιεχόμενο τομέας προσπαθούσε να καταπολεμήσει όλα τα αντίγραφα του υλικού του στον Παγκόσμιο Ιστό, θα χρειάζονται τουλάχιστον δύο άτομα πλήρους απασχόλησης. Ευτυχώς, οι μηχανές αναζήτησης εμπιστεύονται τέτοιους ιστότοπους και ως εκ τούτου τους αναγνωρίζουν ως πρωτότυπες πηγές.

Από την άλλη πλευρά, εάν έχετε έναν σχετικά νέο ιστότοπο ή έναν ιστότοπο με λίγους εισερχόμενους συνδέσμους και οι λογοκλοπές κατατάσσονται συνεχώς πάνω από εσάς (ή κάποιος ισχυρός ιστότοπος κλέβει τη δουλειά σας), τότε υπάρχουν μερικά πράγματα που μπορείτε να κάνετε. Μια επιλογή είναι να στείλετε ένα αίτημα στον εκδότη ζητώντας του να αφαιρέσει το περιεχόμενο που παραβιάζει. Σε ορισμένες περιπτώσεις, ο εκδότης απλώς αγνοούσε την παραβίαση πνευματικών δικαιωμάτων. Μια άλλη επιλογή είναι να γράψετε στον πάροχο φιλοξενίας. Οι εταιρείες φιλοξενίας μπορεί ενδεχομένως να είναι υπεύθυνες για τη φιλοξενία διπλού περιεχομένου, επομένως συχνά απαντούν γρήγορα σε τέτοια αιτήματα. Απλώς βεβαιωθείτε ότι είστε έτοιμοι να παρέχετε όσο το δυνατόν περισσότερη τεκμηρίωση για να αποδείξετε την πατρότητα του περιεχομένου.

Η επόμενη επιλογή είναι να υποβάλετε ένα αίτημα παραβίασης πνευματικών δικαιωμάτων (DMCA) στην Google, το Yahoo! και το Bing. Θα πρέπει επίσης να στείλετε το ίδιο αίτημα στην εταιρεία που φιλοξενεί τον ιστότοπο του παραβάτη.

Η δεύτερη επιλογή είναι να κινήσετε νομική ενέργεια κατά του παραβατικού ιστότοπου ή να απειλήσετε να το κάνετε. Εάν ο ιστότοπος που δημοσιεύει την εργασία σας ανήκει στη χώρα σας, τότε αυτή η επιλογή είναι ίσως το πιο έξυπνο πρώτο βήμα. Ίσως θελήσετε να ξεκινήσετε με μια πιο ανεπίσημη επικοινωνία και να ζητήσετε να αφαιρεθεί το περιεχόμενο πριν καν στείλετε μια επίσημη επιστολή από δικηγόρο, καθώς μπορεί να περάσουν μήνες πριν τεθεί σε ισχύ η ενέργεια DMCA της εταιρείας. Αν όμως δεν λάβετε απάντηση, τότε δεν έχετε λόγο να καθυστερήσετε πιο σοβαρές ενέργειες.

Μια πολύ αποτελεσματική και φθηνή επιλογή για αυτή τη διαδικασία είναι το DCMA.com.

Κατάσταση με πραγματικά πρόστιμο

Τα προηγούμενα παραδείγματα δείχνουν πώς λειτουργούν τα διπλότυπα φίλτρα περιεχομένου, αλλά αυτά δεν είναι πρόστιμα, αν και από πρακτική άποψη το αποτέλεσμα είναι το ίδιο με τα πρόστιμα - μείωση της κατάταξης των σελίδων σας. Ωστόσο, υπάρχουν επίσης περιπτώσεις όπου μπορεί να προκύψει πραγματικό πρόστιμο. Για παράδειγμα, οι ιστότοποι που συγκεντρώνουν περιεχόμενο κινδυνεύουν, ειδικά εάν ο ίδιος ο ιστότοπος προσθέτει ελάχιστο μοναδικό περιεχόμενο. Σε ένα τέτοιο σενάριο, ο ιστότοπος θα μπορούσε να επιβληθεί πρόστιμο.

Αυτό μπορεί να διορθωθεί μόνο με τη μείωση του αριθμού των διπλότυπων σελίδων που είναι διαθέσιμες στο spider της μηχανής αναζήτησης. Αυτό επιτυγχάνεται με την κατάργησή τους, την προσθήκη ενός κανονικού χαρακτηριστικού σε διπλότυπα, ενός χαρακτηριστικού noindex στις ίδιες τις σελίδες ή με την προσθήκη ενός σημαντικού όγκου μοναδικού περιεχομένου.

Ένα παράδειγμα περιεχομένου που μπορεί να φιλτράρεται συχνά είναι "λεπτός" ιστότοπος συνεργατών.Αυτό είναι συχνά το όνομα που δίνεται σε έναν ιστότοπο που προωθεί τις πωλήσεις προϊόντων άλλων για να κερδίσετε προμήθειες, αλλά δεν παρέχει νέες πληροφορίες. Ένας τέτοιος ιστότοπος θα μπορούσε να λάβει περιγραφές από τον κατασκευαστή του προϊόντος και απλώς να αναπαράγει αυτές τις περιγραφές μαζί με έναν σύνδεσμο προς μια θυγατρική, προκειμένου να κερδίσει χρήματα από "κλικ" ή αγορές.

Το πρόβλημα προκύπτει όταν ένας έμπορος έχει χιλιάδες συνεργάτες που χρησιμοποιούν το ίδιο περιεχόμενο - και οι μηχανικοί μηχανών αναζήτησης έχουν λάβει σχόλια από χρήστες ότι (από την άποψή τους) τέτοιοι ιστότοποι δεν προσθέτουν τίποτα σημαντικό στα ευρετήριά τους. Επομένως, οι μηχανές αναζήτησης προσπαθούν να φιλτράρουν τέτοιους ιστότοπους ή ακόμα και να τους αποκλείσουν από τα ευρετήριά τους. Πολλοί ιστότοποι χρησιμοποιούν μοντέλα συνεργατών, αλλά παρέχουν επίσης πλούσιο νέο περιεχόμενο, επομένως συνήθως δεν αντιμετωπίζουν προβλήματα. Οι μηχανές αναζήτησης αναλαμβάνουν δράση μόνο όταν υπάρχει αντιγραφή περιεχομένου και έλλειψη μοναδικού πολύτιμου υλικού.

Πώς να αποφύγετε το διπλότυπο περιεχόμενο στον ιστότοπο;

Όπως σημειώσαμε νωρίτερα, το διπλό περιεχόμενο μπορεί να δημιουργηθεί με πολλούς τρόπους. Η εσωτερική αντιγραφή υλικού απαιτεί τη χρήση συγκεκριμένων τακτικών για την επίτευξη των καλύτερων αποτελεσμάτων από την άποψη της βελτιστοποίησης. Σε πολλές περιπτώσεις, οι διπλότυπες σελίδες είναι σελίδες που δεν έχουν καμία αξία ούτε για τους χρήστες ούτε για τις μηχανές αναζήτησης. Εάν συμβαίνει αυτό, προσπαθήστε να διορθώσετε πλήρως το πρόβλημα. Τροποποιήστε την εφαρμογή σας έτσι ώστε μόνο μία διεύθυνση URL να συνδέεται σε κάθε σελίδα. Κάντε επίσης μια ανακατεύθυνση 301 για τις παλιές διευθύνσεις URL στις υπόλοιπες διευθύνσεις URL , για να βοηθήσετε τις μηχανές αναζήτησης να δουν τις αλλαγές που κάνατε όσο το δυνατόν γρηγορότερα και να διατηρήσουν τον «χυμό συνδέσμων» που είχαν οι διαγραμμένες σελίδες.

Εάν αυτό δεν είναι δυνατό, τότε υπάρχουν πολλές άλλες επιλογές. . Ακολουθεί μια περίληψη καθοδήγησης σχετικά με τις απλούστερες λύσεις για μια μεγάλη ποικιλία σεναρίων:

χρησιμοποιήστε το αρχείο robots.txt για να αποκλείσετε τις αράχνες των μηχανών αναζήτησης, ώστε να μην ανιχνεύονται σε διπλότυπες εκδόσεις των σελίδων του ιστότοπού σας.
χρησιμοποιήστε το στοιχείο rel="canonical" - αυτή είναι η δεύτερη λύση (από τις καλύτερες) για την εξάλειψη των διπλότυπων σελίδων.
χρήση ΚΩΔΙΚΑΣ να δώσει οδηγίες ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣοι μηχανές δεν ευρετηριάζουν διπλότυπες σελίδες.

Ωστόσο, έχετε υπόψη σας ότι εάν χρησιμοποιείτε ένα αρχείο robots.txt για να αποτρέψετε τις προβολές σελίδας, τότε η εφαρμογή του χαρακτηριστικού noindex ή nofollow στην ίδια τη σελίδα δεν έχει νόημα. Εφόσον η αράχνη δεν μπορεί να διαβάσει αυτήν τη σελίδα, δεν θα δει ποτέ τα χαρακτηριστικά noindex ή nofollow. Έχοντας αυτά τα εργαλεία κατά νου, ας δούμε ορισμένες συγκεκριμένες καταστάσεις διπλού περιεχομένου.

Σελίδες HTTPS -Εάν χρησιμοποιείτε SSL (μια κρυπτογραφημένη ανταλλαγή μεταξύ του προγράμματος περιήγησής σας και του διακομιστή web, που χρησιμοποιείται συχνά για ηλεκτρονικό εμπόριο), τότε ο ιστότοπός σας θα έχει σελίδες που ξεκινούν με HTTPS: (αντί HTTP :). Το πρόβλημα προκύπτει όταν οι σύνδεσμοι στις σελίδες σας HTTPS παραπέμπουν σε άλλες σελίδες στον ιστότοπο χρησιμοποιώντας σχετικούς και όχι απόλυτους συνδέσμους (έτσι, για παράδειγμα, ο σύνδεσμος προς την αρχική σελίδα σας γίνεται https://www.YourDomain.com αντί για http:/ / www.YourDomain.com).

Εάν ο ιστότοπός σας έχει τέτοιο πρόβλημα, τότε για να το λύσετε μπορείτε να χρησιμοποιήσετε το στοιχείο rel="canonical" ή 301st redirects. Μια εναλλακτική λύση είναι να αλλάξετε τους συνδέσμους σε απόλυτους: http://www.YourDomain.com/content.html αντί για /contenthtml), κάτι που επίσης θα κάνει τη ζωή κάπως πιο δύσκολη για όσους κλέβουν το περιεχόμενό σας.

Συστήματα διαχείρισης περιεχομένου που δημιουργούν διπλό περιεχόμενο -Μερικές φορές ένας ιστότοπος έχει πολλές εκδόσεις πανομοιότυπων σελίδων. Αυτό συμβαίνει λόγω περιορισμών σε ορισμένα συστήματα διαχείρισης περιεχομένου που απευθύνονται στο ίδιο περιεχόμενο με περισσότερες από μία διευθύνσεις URL. Αυτό είναι συνήθως εντελώς περιττό διπλότυπο που δεν έχει αξία για τους χρήστες και η καλύτερη λύση είναι να αφαιρέσετε τις διπλότυπες σελίδες και να κάνετε μια ανακατεύθυνση 301 για τις σελίδες που αφαιρέθηκαν στις υπόλοιπες σελίδες. Εάν αυτό δεν έχει αποτέλεσμα, δοκιμάστε άλλες μεθόδους (που δίνονται στην αρχή αυτού του άρθρου).
Εκτυπώσιμες σελίδες ή πολλαπλές επιλογές ταξινόμησης -Πολλοί ιστότοποι προσφέρουν εκτυπώσιμες σελίδες που παρουσιάζουν το ίδιο περιεχόμενο στον χρήστη σε μορφή φιλική προς τον εκτυπωτή. Ορισμένοι ιστότοποι ηλεκτρονικού εμπορίου προσφέρουν λίστες των προϊόντων τους με πολλά πιθανά είδη (ανά μέγεθος, χρώμα, μάρκα και τιμή). Αυτές οι σελίδες έχουν αξία για τον χρήστη, αλλά δεν έχουν αξία για τις μηχανές αναζήτησης και επομένως θα τους εμφανίζονται ως διπλότυπο περιεχόμενο. Σε αυτήν την περίπτωση, θα χρειαστεί είτε να χρησιμοποιήσετε μία από τις επιλογές που δόθηκαν προηγουμένως σε αυτό το ιστολόγιο είτε να προσαρμόσετε το φύλλο CSS για εκτύπωση (όπως περιγράφεται στη δημοσίευση yoast.com/added-print-css-style-sheet/ στο Yoast) .
Διπλότυπο περιεχόμενο σε ιστολόγια και συστήματα αρχειοθέτησης -Τα ιστολόγια παρουσιάζουν μια ενδιαφέρουσα παραλλαγή στο πρόβλημα του διπλού περιεχομένου. Μια ανάρτηση ιστολογίου μπορεί να εμφανιστεί σε πολλές διαφορετικές σελίδες: στην αρχική σελίδα του ιστολογίου, στη σελίδα μόνιμου συνδέσμου της ανάρτησης, σε σελίδες αρχειοθέτησης και σε σελίδες κατηγορίας. Κάθε παρουσία μιας ανάρτησης είναι διπλότυπο των άλλων παρουσιών. Πολύ σπάνια οι εκδότες προσπαθούν να αντιμετωπίσουν το πρόβλημα μιας ανάρτησης που υπάρχει τόσο στην αρχική σελίδα του ιστολογίου όσο και στη σελίδα μόνιμου συνδέσμου. Και, προφανώς, οι μηχανές αναζήτησης αντιμετωπίζουν αρκετά καλά αυτό το πρόβλημα. Ωστόσο, μπορεί να έχει νόημα να εμφανίζονται μόνο αποσπάσματα αναρτήσεων σε σελίδες κατηγορίας και αρχειοθέτησης.
Διπλότυπο περιεχόμενο που δημιουργείται από χρήστες (επαναλαμβανόμενες αναρτήσεις κ.λπ.) -πολλοί ιστότοποι εφαρμόζουν δομές για τη λήψη περιεχομένου που δημιουργείται από χρήστες, όπως ιστολόγια, φόρουμ ή πίνακες μηνυμάτων. Αυτοί μπορεί να είναι εξαιρετικοί τρόποι για την ανάπτυξη μεγάλων ποσοτήτων περιεχομένου με πολύ χαμηλό κόστος. Το πρόβλημα είναι ότι ένας χρήστης μπορεί ταυτόχρονα να δημοσιεύσει το ίδιο περιεχόμενο στον ιστότοπό σας και σε πολλούς άλλους ιστότοπους, γεγονός που οδηγεί σε διπλότυπο περιεχόμενο. Αυτό είναι δύσκολο να ελεγχθεί, αλλά τα ακόλουθα μπορούν να ληφθούν υπόψη για τη μείωση του προβλήματος:

Πρέπει να έχετε μια σαφή πολιτική που να ειδοποιεί τους χρήστες ότι το περιεχόμενο που παρέχουν στον ιστότοπό σας πρέπει να είναι μοναδικό και δεν μπορεί να αναρτηθεί σε άλλους ιστότοπους. Φυσικά, αυτό είναι δύσκολο να επιτευχθεί, αλλά θα σας βοηθήσει να κατανοήσετε τις προσδοκίες σας.
εφαρμόστε το φόρουμ σας με μοναδικό τρόπο που απαιτεί διαφορετικό περιεχόμενο. Εκτός από τα τυπικά πεδία εισαγωγής δεδομένων, προσθέστε επίσης μερικά μοναδικά πεδία (διαφορετικά από άλλους ιστότοπους) που θα είναι χρήσιμα για να δουν οι επισκέπτες του ιστότοπού σας.

1. Εισαγωγή στο πρόβλημα

Επί του παρόντος, το πρόβλημα της αντιγραφής πληροφοριών στο Διαδίκτυο γίνεται όλο και πιο έντονο. Τις περισσότερες φορές, μια τέτοια αντιγραφή γίνεται σκόπιμα, κατά παράβαση των πνευματικών δικαιωμάτων. Οι εισβολείς χρησιμοποιούν περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα για να συμπληρώσουν τους δικούς τους ιστότοπους προκειμένου να επωφεληθούν οι ίδιοι.

Αυτή η επικάλυψη πληροφοριών επιδεινώνει τα αποτελέσματα των μηχανών αναζήτησης, με αποτέλεσμα οι τελευταίες να καταπολεμούν ενεργά αυτό το φαινόμενο. Πράγματι, εάν ένας χρήστης λάβει 10 πανομοιότυπα έγγραφα κατόπιν αιτήματος (η "ταυτότητα" καθορίζεται από τον χρήστη από το ), αυτό είναι απίθανο να προσθέσει δημοτικότητα στη μηχανή αναζήτησης. Πριν από αρκετά χρόνια, μια τέτοια κατάσταση είχε παρατηρηθεί στο Rambler, με αποτέλεσμα η μηχανή αναζήτησης να χάσει μέρος της κατάταξής της. Ωστόσο, το Rambler τώρα φιλτράρει και αποκρύπτει τα διπλότυπα.

Θα πρέπει επίσης να σημειωθεί ότι το διπλό περιεχόμενο φράζει το ευρετήριο της μηχανής αναζήτησης, καθιστώντας πιο δύσκολη την παροχή γρήγορων απαντήσεων στον χρήστη. Ταυτόχρονα, όλα τα έγγραφα πρέπει να ευρετηριάζονται τακτικά και η εμφάνιση νέων εγγράφων με μη πρωτότυπο περιεχόμενο βλάπτει σαφώς την ταχύτητα δημιουργίας ευρετηρίου.

2. Θεωρία για τον προσδιορισμό «ασαφών διπλότυπων»

ένα. Τι είναι μια "ασαφής λήψη"

Πρώτα πρέπει να αποφασίσετε για την ορολογία. Δεν υπάρχει ακόμη συναίνεση σε αυτό το θέμα, και ως εκ τούτου αυτή η ορολογία βασίζεται απλώς στην κοινή λογική.

Διπλό (διπλότυπο) έγγραφο ιστού– ακριβές αντίγραφο ενός εγγράφου Ιστού. "Ασαφές αντίγραφο" ενός εγγράφου ιστού– ένα έγγραφο ιστού που έχει αλλάξει εν μέρει σε περιεχόμενο ή/και μορφοποίηση (χρησιμοποιώντας άλλες ετικέτες html για το σχεδιασμό της σελίδας).

Θα ερμηνεύσουμε το "διπλότυπο έγγραφο ιστού" μόνο από τη σκοπιά της μηχανής αναζήτησης και όχι του χρήστη. Επομένως, δεν θα θεωρήσουμε ένα τέτοιο φαινόμενο ως «copywriting», δηλ. ξαναγράφοντας κείμενο ειδικά για μηχανές αναζήτησης χρησιμοποιώντας διαφορετικές λέξεις, αλλά διατηρώντας το γενικό νόημα. Ένα τέτοιο κείμενο θα είναι πάντα πρωτότυπο για τη μηχανή αναζήτησης, γιατί... Οι υπολογιστές δεν μπορούν ακόμη να διακρίνουν το νόημα του κειμένου.

Υπάρχουν πολλές βασικές μέθοδοι για τον εντοπισμό διπλότυπων.

σι. Μέθοδος περιγραφικών λέξεων

Αυτή η μέθοδος λειτουργεί με την ακόλουθη αρχή.

Αρχικά, σχηματίζεται ένα μικρό (περίπου 2000-3000 λέξεις) δείγμα. Το δείγμα πρέπει να πληροί τις ακόλουθες προϋποθέσεις:

Με τη βοήθειά του, μπορείτε να περιγράψετε αρκετά πλήρως σχεδόν οποιοδήποτε έγγραφο στο Διαδίκτυο.
- η περιγραφή του εγγράφου δεν πρέπει να είναι περιττή

Έτσι, για να σχηματίσετε ένα δείγμα, πρέπει να απορρίψετε τις λέξεις που είναι περισσότερο και λιγότερο συνηθισμένες, δηλ. μην λαμβάνετε υπόψη στοπ λέξεις και διάφορους στενά θεματικούς όρους. Επίσης, τα επίθετα δεν περιλαμβάνονται στο δείγμα, καθώς δεν φέρουν σημασιολογικό φορτίο στη ρωσική γλώσσα.

Στη συνέχεια, κάθε έγγραφο συγκρίνεται με το δείγμα και υπολογίζεται ένα διάνυσμα, η διάσταση του οποίου είναι ίση με τον αριθμό των λέξεων του δείγματος. Τα διανυσματικά στοιχεία μπορούν να λάβουν δύο τιμές - 0 ή 1. 0 - εάν η λέξη από το δείγμα δεν υπάρχει στο έγγραφο, 1 - εάν η λέξη εμφανίζεται στο έγγραφο. Στη συνέχεια, τα έγγραφα ελέγχονται για αντιγραφή συγκρίνοντας τα διανύσματά τους.

Χρησιμοποιώντας αυτόν τον αλγόριθμο, το Yandex εντοπίζει ασαφή διπλότυπα.

ντο. Μέθοδος έρπητα ζωστήρα

Η μέθοδος του βότσαλου είναι η εξής. Ένα «άθροισμα ελέγχου» υπολογίζεται για όλες τις υποαλυσίδες του αναλυόμενου κειμένου. Ένα άθροισμα ελέγχου (ή "υπογραφή") είναι ένας μοναδικός αριθμός που σχετίζεται με κάποιο κείμενο ή/και μια συνάρτηση για τον υπολογισμό του. Η συνάρτηση υπολογισμού αθροισμάτων ελέγχου μπορεί να έχει διάφορους στόχους: για παράδειγμα, "αδιάσπαστο" (ελαχιστοποιεί την πιθανότητα να μαντέψει το κείμενο πηγής από την τιμή του αθροίσματος ελέγχου) ή "μη επαναληψιμότητα" (ελαχιστοποιεί την πιθανότητα δύο διαφορετικά κείμενα να έχουν το ίδιο άθροισμα ελέγχου)- Ηλεκτρονικό περιοδικό «Spamtest» Αρ. 27.

Συνήθως χρησιμοποιούνται οι ακόλουθοι αλγόριθμοι για τον υπολογισμό των αθροισμάτων ελέγχου: fnv, md5, crc. Μετά τον υπολογισμό των αθροισμάτων ελέγχου, κατασκευάζεται ένα τυχαίο δείγμα από το προκύπτον σύνολο. Με βάση αυτό το δείγμα, το έγγραφο μπορεί να συγκριθεί με άλλα έγγραφα για τα οποία το δείγμα έχει επίσης προϋπολογιστεί.

Αυτή η μέθοδος υπολογισμού απαιτεί αρκετά πόρους και μπορεί να παρακαμφθεί αλλάζοντας ελαφρά το κείμενο, καθώς, πρώτα απ 'όλα, τα έρπητα ζωστήρα εξαρτώνται από την απόσταση μεταξύ των λέξεων.

Τώρα η μέθοδος του έρπητα ζωστήρα έχει εξελιχθεί στον αλγόριθμο «super shingle», ο οποίος χρησιμοποιεί ένα περιορισμένο σύνολο αθροισμάτων ελέγχου. Τα πειράματα στο ROMIP οδήγησαν στα ακόλουθα αποτελέσματα - 84 έρπητα ζωστήρα, 6 σούπερ έρπητα ζωστήρα πάνω από 14 έρπητα ζωστήρα το καθένα. Τα κείμενα θεωρούνται ταιριαστά εάν ταιριάζουν τουλάχιστον δύο σούπερ έρπητα ζωστήρα από τα 6.

Οι αξιωματούχοι έχουν δηλώσει επανειλημμένα ότι η Yandex δεν είναι κριτικός και δεν θα αγωνιστεί το πρόβλημα της κλοπής περιεχομένου στο διαδίκτυο.

Ακολουθεί η επίσημη απάντηση του A. Sadovsky:

... Η αναζήτηση Yandex, κατά τον εντοπισμό διπλότυπων, προσπαθεί να προσδιορίσει το αρχικό έγγραφο. Οι υπάρχοντες αλγόριθμοι είναι, φυσικά, ατελείς και εργαζόμαστε για να τους βελτιώσουμε. Όσον αφορά τη νομική ρύθμιση, οι μηχανές αναζήτησης δεν μπορούν ακόμη να προσδιορίσουν την πατρότητα του κειμένου. Εάν το περιεχόμενο που έχει παραβιαστεί αφαιρεθεί από το δίκτυο (για παράδειγμα, ως αποτέλεσμα των ενεργειών του κατόχου των πνευματικών δικαιωμάτων), το Yandex θα το αφαιρέσει επίσης από τη βάση δεδομένων καθώς το ρομπότ το ανιχνεύει. Αυτή η διαδικασία μπορεί να επιταχυνθεί χρησιμοποιώντας τη φόρμα http://webmaster.yandex.ru/delurl.xml

Τώρα ας δούμε τι είναι ένα "διπλότυπο έγγραφο" για το Yandex; Ο συγγραφέας προσφέρει την ακόλουθη ερμηνεία. (Εάν το παρακάτω κείμενο σας φαίνεται οικείο, τότε μην το σκέφτεστε άσχημα, ο συγγραφέας πριν από λίγο καιρό προσπάθησε να συζητήσει ενεργά αυτό το πρόβλημα στα φόρουμ)))

Υπάρχουν δύο τύποι διπλότυπων: "ασαφή διπλότυπα" και "πλήρη διπλότυπα".

Τα "ασαφή διπλότυπα" εξαρτώνται από το απόσπασμα, π.χ. καθορίζονται στην πραγματικότητα από το αίτημα του χρήστη. Αυτό συμβαίνει ως εξής.

1. Ο χρήστης θέτει ένα αίτημα.
2. Το Yandex υπολογίζει τη συνάφεια των τοποθεσιών με το αίτημα και κατατάσσει τους ιστότοπους, αλλά δεν το εμφανίζει ακόμη στον χρήστη.
3. Στη συνέχεια, το Yandex συγκρίνει τα αποσπάσματα των επιλεγμένων εγγράφων για να εντοπίσει διπλότυπα (ίσως τα αποσπάσματα συγκρίνονται χρησιμοποιώντας τη μέθοδο του έρπητα ζωστήρα).
4. Και τέλος, παράγει φιλτραρισμένα αποτελέσματα, αφαιρώντας ορισμένα διπλότυπα (με ποια αρχή έχουν απομείνει ορισμένα έγγραφα δεν είναι σαφές· ίσως επιλέγεται το πιο σχετικό έγγραφο και μαζί με αυτό περιλαμβάνονται στα αποτελέσματα έγγραφα που είναι λιγότερο παρόμοια με αυτό· ίσως μόνο η αναφορά παίζει ρόλο περιβάλλον τοποθεσίας).

Η ύπαρξη ενός φίλτρου αυτού του τύπου αποδεικνύεται έμμεσα από τα λόγια του Sadovsky (ανάρτηση Νο. 9) και το γεγονός ότι τα αποτελέσματα με διαφορετικές ρυθμίσεις αναζήτησης (συγκεκριμένα, ο αριθμός των εμφανιζόμενων θραυσμάτων με τις λέξεις ερωτήματος) είναι διαφορετικά.

Με τις ρυθμίσεις "εμφάνιση όχι περισσότερο από 5 θραύσματα", υπάρχουν περισσότεροι ιστότοποι στα αποτελέσματα αναζήτησης από ό,τι με τις ρυθμίσεις "εμφάνιση όχι περισσότερο από 1 τμήμα". Ας δοκιμάσουμε το ερώτημα "In & the second & κεφάλαιο & abstract & is αφιερωμένο σε & πρακτική & μάρκετινγκ & δραστηριότητες & οργάνωση & on & παράδειγμα & διακομιστή & dux" (το ερώτημα ορίζεται χωρίς εισαγωγικά!) - στην πρώτη περίπτωση (εμφάνιση 1 θραύσμα στο απόσπασμα) στην έξοδο 21 τοποθεσία, στη δεύτερη (5 θραύσματα) – 27 θέσεις.

Όλα εδώ είναι λογικά - όταν εμφανίζεται ένα απόσπασμα σε ένα απόσπασμα, τα αποσπάσματα είναι πιο παρόμοια από ό,τι όταν εμφανίζονται 5 αποσπάσματα σε ένα απόσπασμα. Για παράδειγμα, στη δεύτερη περίπτωση, το απόσπασμα της δεύτερης τοποθεσίας διαφέρει από τα αποσπάσματα της πρώτης και της τρίτης τοποθεσίας.

Τώρα ας ασχοληθούμε με τα «πλήρη αντίγραφα». Ο συγγραφέας πιστεύει ότι τέτοια διπλότυπα καθορίζονται τη στιγμή της ευρετηρίασης της σελίδας. Αυτό είναι βολικό, καθώς σας επιτρέπει αμέσως να κόψετε τα σκουπίδια και να μην προσθέσετε διπλότυπες πληροφορίες στη βάση δεδομένων της μηχανής αναζήτησης.

Η μέθοδος για τον προσδιορισμό των διπλότυπων είναι η «μέθοδος περιγραφικής λέξης» (συζητήθηκε παραπάνω).

Οι σελίδες που προσδιορίζονται ως πλήρεις διπλότυπες απορρίπτονται από τη βάση δεδομένων. Αυτό συμβαίνει συχνά με τις σελίδες ενός ιστότοπου (για παράδειγμα, ενός καταλόγου προϊόντων, όταν υπάρχουν πολύ λιγότερο σημαντικές πληροφορίες από τις λέξεις στο τμήμα πλοήγησης). Δεν είναι γνωστό σε ποια βάση η Yandex πετάει ορισμένα αντίγραφα, πιθανότατα με βάση έναν συνδυασμό ενδείξεων όπως: προσωρινοί παράγοντες, "βαθμολόγηση πόρων", εμπιστοσύνη στον πόρο κ.λπ.

Πώς προσδιορίζει το Yandex την αρχική πηγή σε περίπτωση εντοπισμού «ασαφών αντιγράφων» και την καθορίζει; Ας προσπαθήσουμε να το καταλάβουμε...

Αρχικά, ας επισημάνουμε παράγοντες που μπορεί να υποδηλώνουν την αρχική πηγή του περιεχομένου...

Ημερομηνία δημιουργίας εγγράφου
- συνάφεια του εγγράφου με το αίτημα
- "εμπιστοσύνη στον πόρο" (για παράδειγμα, μπορείτε να εμπιστευτείτε περισσότερο τους πόρους που έχουν καλή θέση στον Κατάλογο Yandex και υψηλή επισκεψιμότητα)
- σύνδεση μεταξύ διπλότυπων (για παράδειγμα, εάν όλα τα διπλότυπα αναφέρονται στο ίδιο έγγραφο, αυτό είναι η αρχική πηγή)

Ας δοκιμάσουμε ένα μικρό πείραμα. Ας πάρουμε τη σελίδα href=http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 και τη φράση "Ο σχεδιασμός του Lumix FZ50 είναι παρόμοιος με τον προκάτοχό του FZ30 των 8 megapixel." Προφανώς αυτό είναι το πρωτότυπο. Τώρα ας δούμε ποιος άλλος χρησιμοποιεί το κείμενο του άρθρου: ας ορίσουμε ένα ερώτημα χρησιμοποιώντας την παράμετρο rd=0. Χωρίς rd στα αποτελέσματα αναζήτησης μόνο το site Νο. 1 και Νο. 5.

Τα χαρακτηριστικά των τοποθεσιών είναι τα εξής (σημειώστε ότι συνδέονται μόνο με την πρώτη σελίδα, τα υπόλοιπα δεν έχουν backlinks):

Στανίτσα	ΣΥΣΠΑΣΗ	Ενότητα καταλόγου	PR	Σελίδες PR
zoom.cnews.ru/ru/publication/index.php?art_id80=1523	3800	Ναί	6	4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50	170	Ναί	5	0
www.apitcomp.ru/analytic/genre3/page637	700	Ναί	4	0
www.toplist.ru/card/35859	110	Οχι	3	0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316	0	Οχι	1	0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323	0	Οχι	0	0
www.media.nrd.ru/index.php?showtopic=3323&st=100	40	Οχι	0	0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523	0	Οχι	0	0

Λάβετε υπόψη ότι τα αποσπάσματα είναι τα ίδια για όλους τους ιστότοπους.

Με την πρώτη ματιά, είναι εντελώς ασαφές γιατί η Yandex φιλτράρει όλους τους ιστότοπους εκτός από τον πέμπτο. Ο ιστότοπος σαφώς δεν είναι έγκυρος στα μάτια της Yandex. Θα ήταν πιο λογικό να αφήσετε τη σελίδα από τον ιστότοπο www.apitcomp.ru στα αποτελέσματα αναζήτησης - ο ιστότοπος είναι πιο έγκυρος ή να αφήσετε τις σελίδες από τα φόρουμ (θέση 6 και 7).

Ας ελέγξουμε με παρόμοιο τρόπο τη σελίδα http://www.3dnews.ru/digital/lumix_fz50/ και τη φράση «Στην εποχή μας, όταν οι αγοραστές διψούν για καλά χαρακτηριστικά». Οι ιστότοποι που εμφανίζονται χωρίς rd=0 επισημαίνονται με έντονη γραφή και η πηγή είναι με κόκκινο χρώμα, το οποίο παρεμπιπτόντως είναι φιλτραρισμένο!

Σελίδα	ΣΥΣΠΑΣΗ	YACA	L.S.	LP	PR	Σελίδα PR
saturn-plus.ru/	70	Ναί	54	20349	3	3
saturn.24online.ru/	0	Οχι	1	1	0	0
www.3dnews.ru/digital/lumix_fz50/print	11000	Ναί	0	0	6	2
fotomag.com.ua/handbook14.html	400	Ναί	0	0	4	0
Deshevshe.net.ua/ua/review-73/4.html	80	Οχι	0	0	4	0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9	1400	Ναί	0	0	4	1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html	0	Οχι	0	0	0	0
uaport.net/UAit/?CGIQUERY=0&lang=RUS&cli=1&dtb=146&…	4300	Ναί	0	0	6	0
www.velc.ru/podderjka/stati/lumix_fz50/	120	Ναί	0	0	3	0
Ephotolink.tkat.ru/?mod=articles&id_article=21007	10	Οχι	0	0	3	0
www.ru-coding.com/rss.php?p=501	130	Ναί	0	0	3	0
www.toprunet.com/article.php?id=6388	200	Οχι	0	0	3	0
www.dphotographer.com.ua/camera/from/2/	90	Οχι	0	0	4	0
www.asmedia.ru/news/id8242.html	400	Οχι	0	0	3	0
www.mega-bit.ru/obzor/read/?id=70	40	Οχι	0	0	3	0
www.audiovideophoto.ru/panasonic1.html	0	Οχι	0	0	0	0
www.foto-piter.ru/news/2006/12/01/127/	10	Οχι	0	0	2	0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html	20	Οχι	0	0	1	0
www.novoe.nnov.ru/articles/?parent_id=33	0	Οχι	0	0	0	0
iwy.com.ua/top.php?p=326	0	Οχι	0	0	0	0
www.5-uglov.ru/articles_view.php?id_news=1222	90	Ναί	0	0	3	0
www.techhome.ru/catalog/photo/article_17112.html	950	Ναί	0	0	5	3
www.panasonic-spb.ru/articles_view.php?id_news=1222	0	Οχι	0	0	1	0
new-articles.ru/page_215.html	40	Οχι	0	0	3	0
www.ekvator-hifi.ru/articles_view.php?id_news=1222	10	Οχι	0	0	1	0
shop.key.ru/shop/goods/36608/	230	Οχι	3	18	4	0
www.pc-shop.kz/index.php?g_id=1711		Οχι	0	0	3	0
Portalink.ru/portal/ecamera/infoat_15269.htm	110	Οχι	0	0	3	3
www.rusdoc.ru/articles/13085/	1100	Ναί	3	13	5	1
www.docs.com.ru/articles.php?p=509	220	Οχι	0	0	4	0
e-libed.ru/a31/	0	Οχι	1	17	0	0
dvdlink.ru/portal/Ecamera/infoat_15269.htm	140	Οχι	0	0	3	0
www.articlesearch.ru/a3b856d85.html	0	Οχι	0	0	0	0
www.bestarticles.ru/a31/	0	Οχι	1	5	2	0
www.temu.ru/a31/	0	Οχι	0	0	2	0

LP – σελίδες παραπομπής, LS – ιστότοποι παραπομπής, Page PR – PR της σελίδας, PR – PR της κύριας σελίδας του ιστότοπου.

Η εικόνα είναι παρόμοια - τα κριτήρια φιλτραρίσματος είναι εντελώς ασαφή. Ωστόσο, αν κοιτάξουμε τα αποσπάσματα, θα δούμε ότι οι σελίδες στις τοποθεσίες uaport.net, www.megastoke.ru, portalink.ru έχουν αποσπάσματα που είναι κάπως διαφορετικά από τα αποσπάσματα άλλων τοποθεσιών και ως εκ τούτου τον πρώτο και τον τρίτο ιστότοπο δεν φιλτράρονται.

Τι να πω τελικά; Πρώτα απ 'όλα, φυσικά, πρέπει ακόμα να πειραματιστείτε και να αναλύσετε πολλά, αλλά είναι ήδη σαφές ότι η απόφαση να φιλτράρετε τα "ασαφή διπλότυπα" βασίζεται σε ανάλυση πολλών παραγόντων, ο κύριος από τους οποίους είναι η πρωτοτυπία του το απόσπασμα.

4. Google και διπλότυπο περιεχόμενο

Η Google προσπαθεί να ανταποκρίνεται στα αιτήματα των χρηστών μόνο με ιστότοπους με φρέσκο και μοναδικό περιεχόμενο.

Η Google πιστεύει ότι οι χρήστες δεν θέλουν να βλέπουν διπλότυπα στα αποτελέσματα αναζήτησης, επομένως τέτοια έγγραφα είναι κρυμμένα στα αποτελέσματα προτάσεων. Εάν ο χρήστης εξακολουθεί να θέλει να βλέπει διπλότυπα (για παράδειγμα, ένας webmaster που θέλει να μάθει ποιος κλέβει περιεχόμενο από τον ιστότοπό του), τότε θα πρέπει να προσθέσει την παράμετρο "&filter=0" στο τέλος της διεύθυνσης URL.

Η Google πιστεύει ότι η αναγνώριση του συγγραφέα του περιεχομένου θα βοηθήσει στη βελτίωση της αναζήτησης. Ωστόσο, σημειώνει ότι τέτοιες μέθοδοι προσδιορισμού της αρχικής πηγής όπως η καταγραφή της ημερομηνίας δημιουργίας ενός εγγράφου ή η καταχώριση περιεχομένου από δημιουργούς σε ειδικές υπηρεσίες δεν είναι αποτελεσματικές. Προς το παρόν, η Google εστιάζει κυρίως στην αυθεντία του πόρου και στον αριθμό των εισερχόμενων συνδέσμων. Επομένως, είναι πολύ πιθανό ένας πολύ γνωστός πόρος να δανείστηκε ένα άρθρο, για παράδειγμα, από έναν εξειδικευμένο πόρο, στη συνέχεια η πλειοψηφία έμαθε για το άρθρο από έναν γνωστό πόρο και έβαλε συνδέσμους σε αυτό. τελικά η Google θα προσδιορίσει έναν γνωστό ιστότοπο ως την κύρια πηγή...

Σε περίπτωση διπλού περιεχομένου σε έναν ιστότοπο (για παράδειγμα, στην αρχική σελίδα και στην εκτύπωση σελίδας), η Google προτείνει στους webmasters να χρησιμοποιούν ενεργά το robots.txt. Προτείνεται επίσης να σταματήσετε να χρησιμοποιείτε αναγνωριστικά περιόδου σύνδεσης, καθώς αυτό μπορεί επίσης να οδηγήσει σε διπλότυπο περιεχόμενο. Εκείνοι. Μια μηχανή αναζήτησης μπορεί να ευρετηριάσει την ίδια σελίδα, αλλά με διαφορετικό url και διαφορετική τιμή παραμέτρου sessid.

5. Με τι μπορείτε να πειραματιστείτε και πώς να το κάνετε καλύτερα

Έτσι, έχουμε διευκρινίσει τα κύρια σημεία σχετικά με το πρόβλημα της αντιγραφής περιεχομένου. Οι αρχές λειτουργίας του φίλτρου (ιδίως του Yandex) είναι αρκετά απλές, αλλά είναι αρκετά δύσκολο να προσδιοριστεί ακριβώς πώς λαμβάνονται υπόψη διάφοροι παράγοντες.

Να τι πρέπει να ελέγξετε πειραματικά:

Πώς φιλτράρονται τα διπλότυπα τη στιγμή της έκδοσης; Σε ποια βάση;
- Μέθοδος «περιγραφικών λέξεων» - πώς σχηματίζεται ένα δείγμα λέξεων και πώς συγκρίνονται τα διανύσματα;
- Με ποια βάση απορρίπτονται τα «πλήρη αντίγραφα»;

Μπορεί να προταθεί η ακόλουθη επιλογή:

Δημιουργούμε έναν ιστότοπο με πρωτότυπο περιεχόμενο. Το κάνουμε spam λίγο για να μπει στο ευρετήριο. Στη συνέχεια, δημιουργούμε έναν αριθμό κλώνων (διπλότυπα). Οι κλώνοι μπορούν να γίνουν με διάφορους τρόπους: ανάμειξη των λέξεων της αρχικής πηγής, επανεγγραφή τους, λήψη μεμονωμένων παραγράφων. Οι κλώνοι μπορούν να τοποθετηθούν τόσο σε μεμονωμένους ιστότοπους (σε κανονική και κανονική φιλοξενία) όσο και σε εσωτερικές σελίδες ιστοτόπων. Μπορείτε να στείλετε μερικώς ανεπιθύμητους κλώνους. Στη συνέχεια αξιολογούμε το αποτέλεσμα κερδοσκοπικά και βγάζουμε συμπεράσματα.
- Μπορείτε να καθορίσετε τις αρχές με τις οποίες φιλτράρονται τα "ασαφή διπλότυπα" χρησιμοποιώντας τη μέθοδο που περιγράφεται παραπάνω, π.χ. απλά αναλύοντας φιλτραρισμένους ιστότοπους.

6. Περαιτέρω ανάγνωση

Πολλοί ιδιοκτήτες ιστοτόπων εστιάζουν κυρίως στο να διασφαλίσουν ότι το περιεχόμενο είναι μοναδικό σε σύγκριση με άλλους πόρους. Ωστόσο, δεν πρέπει να χάσετε την παρουσία διπλού περιεχομένου στον ίδιο ιστότοπο. Αυτό έχει επίσης ισχυρό αντίκτυπο στην κατάταξη.

Τι είναι διπλό περιεχόμενο

Το επαναλαμβανόμενο ή διπλό περιεχόμενο είναι ογκώδη μπλοκ κειμένου που συμπίπτουν εντός του ιστότοπου σε διαφορετικές σελίδες. Αυτό δεν γίνεται απαραίτητα με κακόβουλη πρόθεση - πιο συχνά συμβαίνει για τεχνικούς λόγους, οι οποίοι αναλύονται λεπτομερώς παρακάτω.

Ο κίνδυνος είναι ότι συχνά το διπλό περιεχόμενο δεν μπορεί να δει με γυμνό μάτι, αλλά η μηχανή αναζήτησης το βλέπει τέλεια και αντιδρά ανάλογα.

Από πού προέρχεται το διπλό περιεχόμενο και πού είναι πιο συνηθισμένο;

Οι κύριοι λόγοι για αυτό το φαινόμενο:

Αλλαγή της δομής του ιστότοπου.
Σκόπιμη χρήση για συγκεκριμένο σκοπό (για παράδειγμα, έντυπες εκδόσεις).
Εσφαλμένες ενέργειες προγραμματιστών και webmasters.
Προβλήματα με το CMS.

Για παράδειγμα, παρουσιάζεται μια συνηθισμένη κατάσταση: το replytocom (απάντηση σε σχόλιο) στο WordPress δημιουργεί αυτόματα νέες σελίδες με διαφορετικές διευθύνσεις URL, αλλά όχι περιεχόμενο.

Συνήθως, παρατηρείται διπλό περιεχόμενο κατά τη δημιουργία ανακοινώσεων άρθρων σε άλλες σελίδες του ιστότοπου, τη δημοσίευση κριτικών, καθώς και όταν υπάρχουν πανομοιότυπες περιγραφές προϊόντων, κατηγοριών και επικεφαλίδων.

Γιατί το διπλό περιεχόμενο είναι κακό

Το επαναλαμβανόμενο περιεχόμενο έχει ανάλογο από τον τομέα της οικονομίας - τραπεζική υπερανάληψη. Εδώ ξοδεύεται ο λεγόμενος προϋπολογισμός ανίχνευσης. Αυτός είναι ο αριθμός των σελίδων πόρων που μπορεί να ανιχνεύσει μια μηχανή αναζήτησης σε μια συγκεκριμένη χρονική περίοδο. Ο πόρος είναι πολύ πολύτιμος και είναι καλύτερο να τον ξοδέψετε σε πραγματικά σημαντικές και σχετικές σελίδες παρά σε δεκάδες αντίγραφα πανομοιότυπου κειμένου.

Έτσι, το διπλό περιεχόμενο επιδεινώνει τη βελτιστοποίηση μηχανών αναζήτησης. Επιπλέον, οι φυσικοί σύνδεσμοι χάνονται και ο χυμός συνδέσμων κατανέμεται εσφαλμένα εντός του ιστότοπου. Και επίσης αντικαθίστανται πραγματικά σχετικές σελίδες.

Πώς να βρείτε διπλό περιεχόμενο σε έναν ιστότοπο (με μη αυτόματο τρόπο, προγράμματα και υπηρεσίες)

Υπάρχουν ειδικά προγράμματα για ανάλυση πόρων. Από αυτά, οι χρήστες επισημαίνουν ιδιαίτερα το Netpeak Spider. Αναζητά πλήρη αντίγραφα σελίδων, αντιστοιχίσεις ανά τίτλο ή περιγραφή ή επικεφαλίδες. Μια άλλη επιλογή είναι το Screaming Frog, το οποίο έχει παρόμοια λειτουργικότητα και ουσιαστικά διαφέρει μόνο στη διεπαφή. Υπάρχει επίσης η εφαρμογή Xenu`s Link Sleuth, η οποία λειτουργεί με παρόμοιο τρόπο με μια μηχανή αναζήτησης και είναι σε θέση να χτενίζει αρκετά αποτελεσματικά έναν ιστότοπο για διπλότυπα.

Δυστυχώς, δεν υπάρχουν εργαλεία που να μπορούν να παρακολουθούν πλήρως όλα τα διπλότυπα κειμένου. Επομένως, πιθανότατα, θα πρέπει να εκτελέσετε έναν χειροκίνητο έλεγχο. Ακολουθεί μια λίστα πιθανών παραγόντων που προκάλεσαν το πρόβλημα:

Καταλάβαμε πώς να βρούμε διπλό περιεχόμενο. Και οι καλύτεροι βοηθοί στην καταπολέμησή του είναι οι ανακατευθύνσεις 301, οι κανονικές ετικέτες URL, οι οδηγίες στο robots.txt και οι παράμετροι Nofollow και Noindex ως μέρος της μετα-ετικέτας "ρομπότ".

Ένας τρόπος για να ελέγξετε γρήγορα εάν υπάρχει διπλό περιεχόμενο σε έναν ιστότοπο είναι μια σύνθετη αναζήτηση στο Yandex ή στο Google. Πρέπει να εισαγάγετε τη διεύθυνση του ιστότοπου και ένα κομμάτι κειμένου από τη σελίδα που αποφασίσατε να ελέγξετε. Μπορείτε επίσης να χρησιμοποιήσετε πολλά προγράμματα για να ελέγξετε τη μοναδικότητα του κειμένου:

Text.Ru;
eTXT Anti-plagiarism;
Advego Plagiatus;
Περιεχόμενο-Παρακολουθήστε.

Πώς να αντιμετωπίζετε και να καθαρίζετε διπλό περιεχόμενο

Το ίδιο σύστημα βοήθειας της Google παρέχει μια σειρά από συμβουλές για να αποτρέψετε την εμφάνιση αυτού του προβλήματος.

301. Όταν κάνετε δομικές αλλαγές σε έναν πόρο, πρέπει να καθορίσετε μια ανακατεύθυνση 301 στο αρχείο htaccess.
Χρησιμοποιήστε ένα ενιαίο πρότυπο αναφοράς.
Το περιεχόμενο για συγκεκριμένη περιοχή τοποθετείται καλύτερα σε τομείς ανώτατου επιπέδου παρά σε υποτομείς ή υποκαταλόγους.
Ορίστε την προτιμώμενη μέθοδο δημιουργίας ευρετηρίου χρησιμοποιώντας το Search Console.
Μην χρησιμοποιείτε πρότυπα. Αντί να τοποθετείτε κείμενο πνευματικών δικαιωμάτων σε κάθε σελίδα, είναι καλύτερο να δημιουργήσετε έναν σύνδεσμο που θα οδηγεί σε μια ξεχωριστή σελίδα με αυτό το κείμενο.
Κατά την ανάπτυξη νέων σελίδων, βεβαιωθείτε ότι είναι κλειστές από την ευρετηρίαση μέχρι να είναι πλήρως έτοιμες.
Κατανοήστε ακριβώς πώς εμφανίζεται το περιεχόμενό σας - μπορεί να υπάρχουν διαφορές στην εμφάνιση σε ιστολόγια και φόρουμ.
Εάν υπάρχουν πολλά παρόμοια άρθρα στον ιστότοπο, είναι προτιμότερο είτε να συνδυάσετε το περιεχόμενό τους σε ένα σύνολο είτε να μοναδικοποιήσετε το καθένα.

Οι μηχανές αναζήτησης δεν επιβάλλουν κυρώσεις σε ιστότοπους που έχουν διπλό περιεχόμενο για τεχνικούς λόγους (σε αντίθεση με αυτούς που το κάνουν σκόπιμα για να χειραγωγήσουν τα αποτελέσματα αναζήτησης ή να παραπλανήσουν τους επισκέπτες).

Αφού αφαιρεθούν τα διπλότυπα, το μόνο που μένει είναι να αφαιρεθούν από τα αποτελέσματα αναζήτησης. Το Yandex το κάνει αυτό μόνο του, υπό την προϋπόθεση ότι το αρχείο robots.txt έχει ρυθμιστεί σωστά. Όσο για την Google: θα πρέπει να ορίσετε μη αυτόματα τους κανόνες στο Webmaster, στην καρτέλα "Παράμετροι URL".

συμπέρασμα

Η καταπολέμηση του διπλού περιεχομένου σε έναν ιστότοπο είναι μια σημαντική πτυχή των δραστηριοτήτων του κατόχου οποιουδήποτε ιστότοπου. Υπάρχουν αρκετοί λόγοι για την εμφάνισή του και εξίσου πολλοί τρόποι για να το εξαλείψετε.

Ωστόσο, ο βασικός κανόνας παραμένει: δημοσιεύστε αποκλειστικά πρωτότυπο περιεχόμενο, ανεξάρτητα από τον τύπο του ιστότοπου. Κι ας είναι μια μεγάλη αλυσίδα καταστημάτων με χιλιάδες σελίδες.

ΛΑΒΕΤΕ ΑΝΑΚΟΙΝΩΣΕΙΣ ΠΑΡΟΜΕΩΝ ΑΝΑΡΤΗΣΕΩΝ ΣΤΟ EMAIL ΣΑΣ

Εγγραφείτε και λαμβάνετε όχι περισσότερο από μία φορά την εβδομάδα κάτι ενδιαφέρον από τον κόσμο του διαδικτυακού μάρκετινγκ, του SEO, της προώθησης ιστοσελίδων, των ηλεκτρονικών καταστημάτων, των κερδών σε ιστότοπους.

Σίγουρα, έχετε ακούσει τη φράση «διπλότυπο περιεχόμενο» περισσότερες από μία φορές και εσείς, ως έμπειρος ιδιοκτήτης ιστότοπου, δεν θα δημοσιεύατε ποτέ το ίδιο περιεχόμενο δύο φορές, σωστά;

Το διπλότυπο περιεχόμενο μπορεί να συγκριθεί με μια τραπεζική υπερανάληψη. Μόνο τότε σπαταλάτε τον πολύτιμο προϋπολογισμό σας.

Ο προϋπολογισμός ανίχνευσης είναι ο αριθμός των σελίδων σε έναν ιστότοπο που μπορεί να ανιχνεύσει ένα ρομπότ αναζήτησης σε μια συγκεκριμένη χρονική περίοδο. Γι' αυτό είναι τόσο σημαντικό να το ξοδεύουμε στις σελίδες που χρειαζόμαστε.

Εκδηλούμενο με διάφορες μορφές, το διπλό περιεχόμενο μπορεί να είναι ένα από τα πιο άπιαστα και αόρατα προβλήματα που μπορεί να επηρεάσει αρνητικά την κατάταξη και την προώθηση ενός ιστότοπου. Η εμφάνισή του συνδέεται συχνά με χαρακτηριστικά αρχιτεκτονικής τοποθεσίας ή περιορισμούς CMS.

Δυστυχώς, δεν υπάρχει έλεγχος στο Google Webmaster που θα μπορούσε εύκολα να εντοπίσει διπλό περιεχόμενο. Ακόμη και τα πιο προηγμένα εργαλεία τρίτων κατασκευαστών δεν κάνουν πάντα καλά αυτήν την εργασία, ειδικά όταν η πηγή του προβλήματος είναι εσωτερική. Ο χειροκίνητος έλεγχος δεν μπορεί να αποφευχθεί.

Ακολουθεί μια λίστα με 8 πιθανούς λόγους για την εμφάνιση διπλότυπων σελίδων στον ιστότοπο:

Σελίδες HTTP και HTTPS

Ένας από τους πιο γρήγορους ελέγχους ότι έχετε δύο εκδόσεις ενός ιστότοπου διαθέσιμες για ευρετηρίαση είναι να προσπαθήσετε να αποκτήσετε πρόσβαση σε αυτόν χρησιμοποιώντας και τα δύο πρωτόκολλα HTTP και HTTPS. Εάν ανοίξουν και οι δύο εκδόσεις, είναι προφανές ότι ο προγραμματιστής σας άλλαξε τον ιστότοπο σε HTTPS και δεν δημιούργησε μια ανακατεύθυνση 301 από την έκδοση HTTP.

Προτού η Google αρχίσει να ενθαρρύνει ενεργά τους webmasters να αλλάζουν τους ιστότοπούς τους εξ ολοκλήρου σε HTTPS, πολλοί ενεργοποίησαν το HTTPS μόνο σε ορισμένες σελίδες που χρειάζονταν πρόσθετη ασφάλεια, όπως σελίδες σύνδεσης ή σελίδες συναλλαγών. Εάν ο προγραμματιστής χρησιμοποίησε σχετικούς συνδέσμους, τότε κάθε φορά που ένα ρομπότ αναζήτησης επισκέπτεται προστατευμένες σελίδες, αναγκάζεται να προσθέσει HTTPS σε όλες τις διευθύνσεις URL, κάτι που τελικά οδηγεί σε διπλότυπες σελίδες.

Με τον ίδιο τρόπο, πρέπει να ελέγξετε αν ο ιστότοπος έχει δύο εκδόσεις σελίδων, και με WWW και χωρίς WWW. Μπορείτε να λύσετε αυτό το πρόβλημα ρυθμίζοντας μια ανακατεύθυνση 301 και προσδιορίζοντας τον προτιμώμενο τομέα σας (κύριος καθρέφτης) στο Google Webmaster.

Ιστότοποι που κλέβουν το περιεχόμενό σας

Μέχρι να υπάρξει νομοθεσία για την επιστροφή του κλεμμένου περιεχομένου σε εσάς, υπάρχουν μόνο τρόποι με τους οποίους μπορείτε να χρησιμοποιήσετε κώδικα για να δυσκολέψετε τους κλέφτες που προσπαθούν να περάσουν το περιεχόμενό σας ως δικό τους. Για να το κάνετε αυτό, χρησιμοποιείτε πάντα απόλυτους συνδέσμους στον ιστότοπό σας αντί για σχετικούς:

Απόλυτοι σύνδεσμοι: http://seo.artox-media.ru/wiki/dublirovannyi-kontent.html (αρχίζει με το πρωτόκολλο και περιέχει το όνομα του ιστότοπου).
Σχετικοί σύνδεσμοι:/wiki/dublirovannyi-kontent.html (προέρχεται από τη ρίζα του ιστότοπου ή του τρέχοντος εγγράφου).

Γιατί είναι σημαντικό; Όταν χρησιμοποιείτε σχετικές διευθύνσεις URL, το πρόγραμμα περιήγησής σας υποθέτει ότι ο σύνδεσμος οδηγεί σε μια σελίδα στην οποία βρίσκεστε ήδη. Ορισμένοι προγραμματιστές προτιμούν τις σχετικές διευθύνσεις URL επειδή διευκολύνουν τη διαδικασία κωδικοποίησης.

Εάν ένας προγραμματιστής δεν θέλει να ξαναγράψει ολόκληρο τον ιστότοπο, μπορούν να χρησιμοποιηθούν κανονικές ετικέτες αυτοαναφοράς. Όταν το περιεχόμενό σας δημοσιεύεται σε άλλο ιστότοπο, ενδέχεται να παραμείνουν κανονικές ετικέτες, βοηθώντας την Google να προσδιορίσει ότι ο ιστότοπός σας είναι η αρχική πηγή του περιεχομένου.

Για να μάθετε ότι το περιεχόμενό σας έχει κλαπεί, μπορείτε να χρησιμοποιήσετε οποιαδήποτε από τις δωρεάν υπηρεσίες (για παράδειγμα, Siteliner, Copyscape. Etxt, AdvegoPlagiatus, κ.λπ.)

Εγκαταλελειμμένοι υποτομείς

Ας υποθέσουμε ότι αποφασίσατε να μην χρησιμοποιήσετε έναν υποτομέα και αποφασίσατε να χρησιμοποιήσετε έναν υποκατάλογο. Ή, για παράδειγμα, έχετε δημιουργήσει έναν εντελώς νέο ιστότοπο. Σε κάθε περίπτωση, το παλιό σας περιεχόμενο μπορεί να είναι προσβάσιμο και, επιπλέον, να επηρεάζει άσχημα την κατάταξη νέων σελίδων. Για να λύσετε το πρόβλημα, είναι καλύτερο να χρησιμοποιήσετε μια ανακατεύθυνση 301 από αυτόν τον υποτομέα σε έναν νέο ιστότοπο/κατάλογο. Αυτό είναι ιδιαίτερα σημαντικό εάν ο παλιός σας πόρος έχει μεγάλη μάζα συνδέσμων.

Κρυφές σελίδες υπό κατασκευή

Αποφασίσατε να ενημερώσετε το σχέδιό σας; Ετοιμάζετε τον ιστότοπό σας για μεγάλες αλλαγές; Εάν πριν από αυτό δεν έχετε αποκλείσει τις δοκιμαστικές σελίδες σας (και ακόμη περισσότερο την έκδοση προγραμματιστών του ιστότοπου) από την ευρετηρίαση, τότε δεν έχετε ανοσία από το γεγονός ότι το ρομπότ δεν θα τις εντοπίσει.

Υπάρχει μια κοινή παρανόηση ότι κανείς δεν θα σκεφτεί ποτέ να εισαγάγει κάποια εικονική διεύθυνση URL στον ιστότοπό σας http://razrabotka.sait.ru/ στη γραμμή του προγράμματος περιήγησης, αν δεν υπάρχει σύνδεσμος σε αυτό πουθενά στον κώδικα, φαίνεται ότι αυτό είναι απλά μη ρεαλιστικό. Αλλά αυτό δεν είναι αλήθεια! Η Google αναζητά και ευρετηριάζει συνεχώς νέες ιστοσελίδες, συμπεριλαμβανομένων αυτών που βρίσκονται υπό ανάπτυξη. Όλα αυτά μπορούν να επηρεάσουν τα αποτελέσματα κατάταξης και επίσης να παραπλανήσουν τους χρήστες.

Αυτό όχι μόνο προκαλεί τεράστια ζημιά στον ιστότοπο όσον αφορά το απόρρητο και την ασφάλεια, αλλά μπορεί επίσης να προκαλέσει σοβαρή ζημιά στον προϋπολογισμό ανίχνευσης. Είναι εύκολο να αποφευχθεί αυτό: χρησιμοποιήστε τη μετα-ετικέτα robots με noindex σε όλες τις δοκιμαστικές σελίδες ή αποκλείστε τις στο αρχείο robots.txt.

Και οι δύο επιλογές σημαίνουν απαγόρευση δημιουργίας ευρετηρίου κειμένου και παρακολούθησης συνδέσμων στη σελίδα.

Να θυμάστε ότι κατά τη μετεγκατάσταση σελίδων από τη λειτουργία προγραμματισμού σε λειτουργία ζωντανής λειτουργίας, πρέπει να αφαιρέσετε αυτές τις οδηγίες αποκλεισμού από τον κώδικα.

Δυναμικά δημιουργημένες παράμετροι στη διεύθυνση URL

Τις περισσότερες φορές, οι δυναμικές διευθύνσεις URL δημιουργούνται με βάση τα φίλτρα που χρησιμοποιούνται στον ιστότοπο. Πώς ακριβώς μοιάζουν αυτές οι διευθύνσεις URL;

URL 1: www.shop.com/chocolate/cake/vanilla
URL 2: www.shop.com/chocolate/cake/vanilla%8in
URL 3: www.shop.com/chocolate/cake/vanilla%8in=marble

Αυτό είναι ένα απλό παράδειγμα, ωστόσο, το CMS σας μπορεί να προσθέσει διάφορες επιλογές φίλτρου και να δημιουργήσει άσκοπα μεγάλες συμβολοσειρές URL που μπορεί να εμπλέκονται στη διαδικασία ανίχνευσης.

Με αυτόν τον τρόπο, η Google μπορεί να δημιουργήσει και να ευρετηριάσει ατελείωτους συνδυασμούς διευθύνσεων URL που ο χρήστης δεν ζητά καν.

Σε αυτήν την περίπτωση, εφαρμόστε μια κανονική ετικέτα που υποδεικνύει την προτιμώμενη διεύθυνση URL και διαμορφώστε τις ρυθμίσεις ανίχνευσης διευθύνσεων URL στο Google Webmaster.

Μπορείτε να παραλείψετε αυτό το βήμα και να αποκλείσετε συγκεκριμένες διευθύνσεις URL στο αρχείο robots.txt χρησιμοποιώντας τον χαρακτήρα (*) για να αποτρέψετε την ευρετηρίαση οτιδήποτε εντός του καθορισμένου καταλόγου. Για παράδειγμα: Απαγόρευση:/σοκολάτα/κέικ/*

Mirror υποκατάλογοι

Η επιχείρησή σας δραστηριοποιείται σε πολλές περιοχές; Ορισμένες εταιρείες επιλέγουν να δημιουργήσουν μια κύρια σελίδα προορισμού που επιτρέπει στους χρήστες να επιλέξουν την περιοχή που τους ταιριάζει καλύτερα και στη συνέχεια να τους ανακατευθύνει στον κατάλληλο υποκατάλογο. Για παράδειγμα:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Αν και αυτό μπορεί να φαίνεται λογικό, σκεφτείτε αν υπάρχει πραγματικά ανάγκη για αυτήν τη ρύθμιση. Εξάλλου, ενώ στοχεύετε διαφορετικά είδη κοινού, υπάρχει πιθανότητα και οι δύο υποκατάλογοι να αντιγράψουν εντελώς ο ένας τον άλλον ως προς το περιεχόμενο. Για να λύσετε αυτό το πρόβλημα, χρησιμοποιήστε το Google Webmaster για να ρυθμίσετε τη γεωγραφική στόχευση.

Σύνδεσμος περιεχομένου

Η διανομή περιεχομένου είναι η επαναχρησιμοποίηση του ίδιου περιεχομένου σε διαφορετικούς πόρους για την προώθηση του ιστότοπου/της επωνυμίας/του περιεχομένου σας και την προσέλκυση επιπλέον επισκεψιμότητας.

Το Syndication είναι ένας πολύ καλός τρόπος για να παρουσιάσετε τον ιστότοπό σας σε νέα είδη κοινού, αλλά αξίζει να ορίσετε οδηγίες για το ποιος θα αναδημοσιεύσει το περιεχόμενό σας.

Στην ιδανική περίπτωση, θα πρέπει να ζητήσετε από τους εκδότες να χρησιμοποιήσουν το χαρακτηριστικό "rel=canonical" στη σελίδα περιεχομένου για να υποδείξουν στις μηχανές αναζήτησης ότι ο ιστότοπός σας είναι η αρχική πηγή του περιεχομένου. Επιπλέον, μπορούν επίσης να αποτρέψουν την ευρετηρίαση του περιεχομένου, κάτι που θα βοηθήσει στην επίλυση πιθανών προβλημάτων με διπλασιασμούς στα αποτελέσματα αναζήτησης.

Σε τελική ανάλυση, οι εκδότες ενδέχεται να συνδεθούν πίσω στο αρχικό άρθρο, αναφέροντας εσάς ως την αρχική πηγή.

σχετικό περιεχόμενο

Παρόμοιο περιεχόμενο μπορεί να προκαλέσει εξίσου μεγάλη βλάβη με το διπλότυπο περιεχόμενο. Ο ορισμός της Google για το διπλό περιεχόμενο περιλαμβάνει ακόμη και τη φράση "ουσιαστικά παρόμοιο". Ενώ τα κομμάτια του υλικού μπορεί να διαφέρουν ως προς τη σύνταξη, ο γενικός κανόνας είναι ότι εάν μπορείτε να συλλέξετε τις ίδιες πληροφορίες από αυτά, δεν υπάρχει λόγος να υπάρχουν και τα δύο σε έναν ιστότοπο. Εδώ, μια εξαιρετική λύση στο πρόβλημα είναι να χρησιμοποιήσετε μια κανονική ετικέτα ή να εξετάσετε το ενδεχόμενο να συγχωνεύσετε αυτά τα κομμάτια περιεχομένου σε ένα.

συμπεράσματα

Είναι πολύ σημαντικό να παρακολουθείτε την εμφάνιση διπλότυπου περιεχομένου στον ιστότοπο για να αποφύγετε την εξάντληση του προϋπολογισμού ανίχνευσης, επειδή αυτό εμποδίζει το ρομπότ να αναζητά και να ευρετηριάζει νέες σελίδες που χρειάζεστε. Σε αυτήν την περίπτωση, τα καλύτερα εργαλεία στο οπλοστάσιό σας είναι οι κανονικές ετικέτες, οι ανακατευθύνσεις 301, τα χαρακτηριστικά nofollow/noindex στη μετα-ετικέτα "robots" και οδηγίες στο αρχείο robots.txt. Εργαστείτε στον εντοπισμό και την αφαίρεση διπλού περιεχομένου προσθέτοντας αυτά τα σημεία ελέγχου στον έλεγχο SEO σας.

Το διπλότυπο περιεχόμενο, ή απλά διπλό, είναι σελίδες στον ιστότοπό σας που είναι εντελώς (καθαρά διπλότυπα) ή εν μέρει (ασαφή διπλότυπα) ίδιες μεταξύ τους, αλλά η καθεμία έχει διαφορετική διεύθυνση URL. Μία σελίδα μπορεί να έχει ένα ή περισσότερα διπλότυπα.

Πώς εμφανίζεται το διπλό περιεχόμενο σε έναν ιστότοπο;

Τόσο για σαφείς όσο και για ασαφείς λήψεις, υπάρχουν διάφοροι λόγοι για τους οποίους εμφανίζονται. Ενδέχεται να προκύψουν καθαρά διπλότυπα για τους ακόλουθους λόγους:

Εμφανίζονται λόγω του CMS του ιστότοπου. Για παράδειγμα, χρησιμοποιώντας το replytocom στο WordPress, όταν προσθέτετε νέα σχόλια, δημιουργούνται αυτόματα νέες σελίδες που διαφέρουν μόνο ως προς τη διεύθυνση URL.
Ως αποτέλεσμα σφαλμάτων webmaster.
Λόγω αλλαγών στη δομή του ιστότοπου. Για παράδειγμα, κατά την εφαρμογή ενός ενημερωμένου προτύπου με νέες διευθύνσεις URL.
Κατασκευάστηκε από τον ιδιοκτήτη του ιστότοπου για ορισμένες λειτουργίες. Για παράδειγμα, σελίδες με εκτυπώσιμες εκδόσεις του κειμένου.

Μπορεί να εμφανιστούν ασαφή διπλότυπα στον ιστότοπό σας για τους ακόλουθους λόγους:

Γιατί το διπλό περιεχόμενο είναι επιβλαβές για έναν ιστότοπο;

Επηρεάζει αρνητικά την προώθηση στα αποτελέσματα αναζήτησης.Τα ρομπότ αναζήτησης έχουν αρνητική στάση απέναντι στο διπλό περιεχόμενο και μπορούν να μειώσουν την κατάταξή τους στα αποτελέσματα αναζήτησης λόγω της έλλειψης μοναδικότητας και επομένως χρησιμότητας για τον πελάτη. Δεν έχει νόημα να διαβάζετε το ίδιο πράγμα σε διαφορετικές σελίδες του ιστότοπου.
Μπορεί να αντικαταστήσει πραγματικά σχετικές σελίδες.Το ρομπότ μπορεί να επιλέξει να επιστρέψει μια διπλότυπη σελίδα εάν θεωρεί το περιεχόμενό της πιο σχετικό με το αίτημα. Ταυτόχρονα, το διπλότυπο, κατά κανόνα, έχει χαμηλότερους δείκτες παραγόντων συμπεριφοράς ή/και μάζας συνδέσμων από τη σελίδα που προωθείτε σκόπιμα. Αυτό σημαίνει ότι το διπλό θα εμφανίζεται σε χειρότερες θέσεις.
Οδηγεί σε απώλεια φυσικών συνδέσμων.Όταν ο χρήστης κάνει έναν σύνδεσμο όχι στο πρωτότυπο, αλλά σε ένα αντίγραφο.
Προωθεί τη λανθασμένη κατανομή του βάρους εσωτερικού συνδέσμου.Τα διπλότυπα τραβούν μέρος του βάρους από τις προωθούμενες σελίδες, γεγονός που εμποδίζει επίσης την προώθηση στις μηχανές αναζήτησης.

Πώς να ελέγξετε αν έχετε διπλότυπα ή όχι;

Για να μάθετε εάν οι σελίδες του ιστότοπου έχουν διπλότυπα ή όχι, υπάρχουν διάφοροι τρόποι.

Βρήκατε διπλότυπα; Διαβάζουμε πώς να τα εξουδετερώσετε:

301η ανακατεύθυνσηΑυτή η μέθοδος θεωρείται η πιο αξιόπιστη όταν απαλλαγείτε από περιττά αντίγραφα στον ιστότοπό σας. Η ουσία της μεθόδου είναι να ανακατευθύνει το ρομπότ αναζήτησης από τη διπλότυπη σελίδα στην κύρια. Έτσι, το ρομπότ παραλείπει το διπλό και λειτουργεί μόνο με την απαιτούμενη σελίδα του ιστότοπου. Με την πάροδο του χρόνου, μετά τη ρύθμιση της 301ης ανακατεύθυνσης, οι διπλότυπες σελίδες κολλάνε μεταξύ τους και πέφτουν έξω από το ευρετήριο.
Ετικέτα . Εδώ υποδεικνύουμε στη μηχανή αναζήτησης ποια σελίδα είναι η κύρια, που προορίζεται για ευρετηρίαση. Για να το κάνετε αυτό, σε κάθε λήψη πρέπει να εισάγετε έναν ειδικό κωδικό για το ρομπότ αναζήτησης , το οποίο θα περιέχει τη διεύθυνση της κύριας σελίδας. Για να αποφύγετε να κάνετε μια τέτοια εργασία με το χέρι, υπάρχουν ειδικά πρόσθετα.
Απαγόρευση στο robots.txt. Το αρχείο robots.txt είναι ένα είδος εντολής για το ρομπότ αναζήτησης, το οποίο υποδεικνύει ποιες σελίδες πρέπει να ευρετηριαστούν και ποιες όχι. Για την απαγόρευση της ευρετηρίασης και την καταπολέμηση των διπλότυπων, χρησιμοποιείται η οδηγία Disallow. Εδώ, όπως και κατά τη ρύθμιση μιας ανακατεύθυνσης 301, είναι σημαντικό να ρυθμίσετε σωστά την απαγόρευση.

Πώς να αφαιρέσετε τα διπλότυπα από το ευρετήριο της μηχανής αναζήτησης;

Όσο για το Yandex, αφαιρεί ανεξάρτητα τα διπλότυπα από το ευρετήριο εάν το αρχείο robots.txt έχει ρυθμιστεί σωστά. Αλλά για το Google πρέπει να ορίσετε κανόνες στην καρτέλα "Παράμετροι URL" μέσω του Google Webmaster.

Εάν αντιμετωπίζετε δυσκολίες στον έλεγχο και την εξάλειψη του διπλού περιεχομένου, μπορείτε πάντα να επικοινωνήσετε με τους ειδικούς μας. Θα βρούμε όλα τα ύποπτα στοιχεία, θα ρυθμίσουμε μια ανακατεύθυνση 301, θα κάνουμε robots.txt, rel="canonical", κάνουμε ρυθμίσεις στο Google. Γενικά, θα πραγματοποιήσουμε όλες τις εργασίες για να διασφαλίσουμε ότι ο ιστότοπός σας λειτουργεί αποτελεσματικά.