Conținut duplicat. Modalități de rezolvare. Conținutul duplicat este cea mai frecventă greșeală de optimizare a paginii

Conținutul duplicat este text parțial sau complet identic, imagini și alte elemente de conținut ale site-ului web, disponibile la diferite adrese de pagină (URL). Prezența duplicatelor poate complica semnificativ promovarea site-ului în motoarele de căutare.

Potrivit experților, conținutul duplicat este cea mai frecventă greșeală de optimizare internă, prezentă pe fiecare a doua resursă web.

Cum să verificați dacă există duplicate pe site-ul dvs. și cum să scăpați de ele? Vă vom spune despre acest lucru în noul număr al newsletter-ului nostru.

Care sunt duplicatele?

Preluările pot fi clare sau neclare (sau complete sau incomplete).

Preluări clare - copiați pagini cu conținut absolut identic, conținutul metaetichetei Description și antetul Title, disponibile la adrese diferite. De exemplu, pagina originală poate avea următoarele duplicate:

oglindă cu sau fără WWW;
pagini cu extensii diferite (.html, .htm, index.php, parametru GET „?a=b”, etc.);
versiune tipărită;
versiune RSS;
același formular URL după schimbarea motorului;
și așa mai departe.

Luturi neclare - conținut parțial identic pe adrese URL diferite.

Exemple de astfel de duplicate includ următoarele:

carduri de produse similare cu descrieri duplicate sau lipsă;
anunturi de articole, stiri, produse in diferite sectiuni, pe pagini de tag si paginare;
arhive de date blog;
pagini în care blocurile end-to-end depășesc conținutul principal ca volum;
pagini cu texte diferite, dar Titlu și Descriere identice.

De ce sunt duplicatele periculoase pentru promovare?

1. Este dificil să indexați site-ul (și să determinați pagina principală)

Din cauza duplicaturilor, numărul de pagini din baza de date a motorului de căutare poate crește de câteva ori, este posibil ca unele pagini să nu fie indexate, deoarece robotului de căutare i se alocă o cotă fixă de pagini pentru a accesa site-ul.

Devine mai dificil să se determine pagina principală care va apărea în rezultatele căutării: alegerea robotului poate să nu coincidă cu alegerea webmasterului.

2. Pagina principală din rezultatele căutării poate fi înlocuită cu o dublă

Dacă duplicatul primește valori bune de trafic și comportament, atunci cu următoarea actualizare poate înlocui pagina principală (promovată) din rezultatele căutării. În acest caz, pozițiile din căutare vor „sac”, deoarece duplicatul nu va avea popularitate link.

3. Pierderea linkurilor externe către pagina principală

4. Risc de a cădea sub filtrul PS

Atât Yandex, cât și Google se luptă cu conținut non-unic și, prin urmare, pot aplica filtre AGS și Panda unui site „înfundat”.

5. Pierderea paginilor semnificative din index

Dublatele incomplete (pagini de categorii, știri, carduri de produse etc.) din cauza unicității lor scăzute au șanse să nu fie incluse deloc în indexul motorului de căutare. De exemplu, acest lucru se poate întâmpla cu unele carduri de produse pe care algoritmul de căutare le consideră duplicate.

Cum să găsiți și să eliminați duplicatele pe un site web

În calitate de proprietar de site, chiar și fără cunoștințe și abilități speciale, puteți găsi în mod independent duplicate pe resursa dvs. Mai jos sunt instrucțiuni pentru găsirea și eliminarea conținutului duplicat.

Căutați fotografii complete

Cea mai rapidă modalitate de a găsi duplicate complete pe un site web este să urmăriți potrivirile dintre etichetele Titlu și Descriere. Pentru a face acest lucru, puteți folosi panoul Google webmaster sau serviciul Xenu, popular printre optimizatori. Căutarea se efectuează printre paginile indexate.

Contra: nu toate duplicatele pot (și ar trebui) să fie șterse (de exemplu, versiunile de pagini cu etichete publicitare); muncă intensivă în muncă care necesită mult timp cu un număr mare de pagini. Nu exclude apariția de noi duplicate. Greutatea din duplicate nu este transferată pe pagina principală.

Pro: nu necesită abilități speciale de programare.

6. Soluții gata făcute pentru CMS populare

Dezvoltatorii de CMS populare au oferit o serie de soluții pentru a preveni duplicarea. În același timp, webmasterii trebuie să seteze cu atenție setările atunci când lucrează cu motorul. Dacă ați trecut cu vederea ceva și încă apar duplicate, nu este niciodată prea târziu să corectați totul și să eliminați copiile. Instrucțiuni clare pentru configurarea motorului și utilizarea pluginurilor SEO pot fi găsite pe blogurile și forumurile specializate pentru WordPress, Joomla, Drupal, Bitrix, precum și alte CMS-uri larg reprezentate.

Pluginuri SEO utile pentru a combate duplicatele:

WordPress: All in One SEO Pack, Clearfy;
Drupal: redirecționare globală, titlul paginii;
Joomla: Canonical Links All in One, JL No Dubles.

7. Luptă la nivelul motorului

O soluție universală pentru o mare varietate de CMS-uri este prevenirea apariției de noi duplicate la nivelul motorului. Este necesar să se stabilească o condiție în care, atunci când procesează link-uri de adrese, CMS-ul va distinge „bun” de „rău” și va afișa în linia browser-ului numai pe cele care sunt permise de regulă. Acest lucru va evita formarea de pagini sinonime (cu și fără semnul „/”, cu o sfârșit inutilă .html, parametri GET etc.), dar nu va proteja împotriva dublurilor dacă paginile nu au un Titlu și Descriere unice.

Pentru a implementa această metodă, trebuie să includeți următoarea regulă în fișierul .htaccess:

RewriteEngine on RewriteCond %(REQUEST_FILENAME) !-d RewriteCond %(REQUEST_FILENAME) !-f RewriteRule ^(.*)$ index.php

În plus, verificările necesare ar trebui implementate în motorul însuși.

Metoda este extrem de complexă și necesită contactarea specialiștilor în dezvoltare.

Contra: grad extrem de ridicat de complexitate.
Pro: previne apariția paginilor sinonime.

Găsirea duplicatelor incomplete

1. Căutați folosind Google webmaster sau serviciul Xenu

Algoritmul acțiunilor din aceste servicii este absolut același cu cel pentru căutarea duplicatelor complete. Singura diferență este că dintre duplicatele găsite, este necesar să selectați acele pagini care au Titlu și/sau Descriere identic, dar conținut complet diferit.

Ca urmare a unei căutări Google, am găsit un grup de duplicate incomplete (Figura 2).

Orez. 2. Știri complet diferite cu metadate duplicate

2. Căutați în bara de căutare Yandex sau Google

Paginile cu conținut parțial similar, dar metadate diferite nu pot fi identificate folosind metoda de mai sus. În acest caz, va trebui să lucrați manual.

Pentru început, identificați provizoriu zonele de risc:

conținut redus (blocurile end-to-end depășesc textul principal al paginii în volum);
conținut copiat (descrieri ale produselor similare);
intersecția conținutului (anunțuri, categorii/subdirectoare, filtre, sortare).

Selectați mai multe pagini din fiecare grup.

Pentru a ilustra clar exemplul, am folosit unul dintre cardurile de produse de pe site-ul web al unui magazin de mobilă care a fost auditat în secțiunea noastră „Expertă”. Probabilitatea de apariție a duplicaturilor aici este destul de mare, deoarece cărțile sunt dominate de imagini și blocuri transversale, iar conținutul unic este menținut la minimum.

Indicăm în bara de căutare Google un fragment de text din descrierea produsului, cuprins între ghilimele, și domeniul site-ului cu operatorul site-ului: (Fig. 3).

Motoarele de căutare precum Google se confruntă cu o problemă – și aceasta se numește „conținut duplicat”. Conținutul se numește duplicat dacă apare într-o formă similară în diferite locuri de pe internetul global (la URL-uri diferite), drept urmare motoarele de căutare nu știu ce URL să afișeze în rezultatele căutării. Acest lucru poate avea un impact negativ asupra clasamentului unei pagini web și, atunci când oamenii încep să creeze linkuri către versiuni diferite ale aceluiași conținut, problema se înrăutățește doar.

Acest articol vă va ajuta să înțelegeți cauzele conținutului duplicat și vă va oferi o înțelegere a ceea ce trebuie făcut în fiecare caz specific.

Ce este conținutul duplicat?

Conținutul duplicat poate fi comparat cu o intersecție în care semnele rutiere indică în direcții diferite pentru aceeași locație: pe ce rută ar trebui să urmezi? Pentru a înrăutăți lucrurile, destinația finală este și ea diferită, doar puțin. Ca cititor, nu îți pasă atât de mult cât primești ceea ce ai venit, dar motorul de căutare trebuie să aleagă ce pagină să afișeze în rezultatele căutării, deoarece în mod natural nu dorește să afișeze același conținut în mod repetat.

Să presupunem că articolul tău despre „cuvântul cheie x” apare neschimbat la adrese Și http://www.example.com/article-category/keyword-x/. Situația nu este exagerată: acest lucru se întâmplă în multe sisteme moderne de gestionare a conținutului. Apoi, să spunem, articolul tău a fost preluat de mai mulți bloggeri, unii trimițând la prima adresă URL, iar alții la al doilea. Acesta este chiar momentul în care problema motorului de căutare își arată adevărata natură – vă privește și pe dumneavoastră. Conținutul duplicat este problema ta, deoarece acele linkuri promovează adrese URL diferite. Dacă ar fi conectat la aceeași adresă URL, șansele de clasare „cuvânt cheie x” ar fi mai mari.

1 Motive pentru conținut duplicat

Există zeci de motive pentru care apare conținutul duplicat. Cele mai multe dintre ele sunt de natură tehnică: nu se întâmplă foarte des ca o persoană să decidă să posteze același conținut în două locuri diferite fără a clarifica care dintre ele este originală - pentru cei mai mulți dintre noi acest lucru pare nefiresc. Cu toate acestea, există o mulțime de motive tehnice și apar în principal pentru că dezvoltatorii gândesc în felul lor - nu ca browserele și nici măcar ca utilizatorii, ca să nu mai vorbim de păianjenii de căutare - ei gândesc ca programatorii. Luați, de exemplu, articolul menționat mai devreme, aflat la http://www.example.com/keyword-x/ și http://www.example.com/article-category/keyword-x/. Dacă le cereți părerea dezvoltatorilor, aceștia vă vor asigura că aici există un singur articol.

1.1 Înțelegerea greșită a conceptului de URL

Nu, dezvoltatorii nu sunt nebuni, doar vorbesc o altă limbă. Cel mai probabil, site-ul va fi susținut de un sistem de management al conținutului CMS, iar baza sa de date va conține un singur articol, dar software-ul site-ului va permite accesul la acest articol prin mai multe URL-uri. Neînțelegerea apare deoarece din punctul de vedere al dezvoltatorilor, identificatorul unic pentru un articol este ID-ul care i se atribuie în baza de date, și nu un fel de URL. Dar pentru un motor de căutare, adresa URL este un identificator unic pentru conținut. Dacă explicați situația dezvoltatorilor, aceștia vor începe să înțeleagă esența problemei și, după ce ați citit articolul, le puteți oferi chiar și o soluție gata făcută.

1.2 ID-uri de sesiune

Adesea doriți să urmăriți acțiunile vizitatorilor și să le permiteți, de exemplu, să salveze articolele dorite în coșul de cumpărături. Pentru a realiza acest lucru, trebuie să le oferiți o „ședință”. O sesiune este un scurt istoric al activității unui vizitator pe site-ul dvs., care poate include articolele menționate anterior în coșul de cumpărături și altele asemenea. Pentru a salva sesiunea de activitate a unui utilizator (în timp ce acesta continuă să defileze prin paginile site-ului), trebuie să stocați undeva un identificator unic de sesiune, numit și ID de sesiune. Cea mai comună soluție este utilizarea cookie-urilor, dar motoarele de căutare de obicei nu le salvează.

În acest caz, unele sisteme se opresc la utilizarea ID-urilor de sesiune în URL. Aceasta înseamnă că URL-ului fiecărui link intern al site-ului i se atribuie un ID de sesiune și, deoarece acest ID este unic pentru sesiune, acest lucru duce la crearea de noi adrese URL și, prin urmare, la conținut duplicat.

1.3 Parametri URL utilizați pentru urmărire și sortare

Un alt motiv pentru conținutul duplicat este utilizarea parametrilor URL care nu modifică conținutul paginii în sine, cum ar fi link-urile de urmărire. Vedeți, pentru un motor de căutare, URL-uri http://www.example.com/keyword–x/Și http://www.example.com/keyword-x/? source=rss sunt diferite. Acest lucru vă poate permite să urmăriți ce resursă a adus vizitatori, dar, în același timp, vă îngreunează clasarea - o consecință foarte nedorită!

Acest lucru, desigur, nu se aplică numai parametrilor de urmărire, ci tuturor parametrilor care pot fi adăugați la o adresă URL care nu modifică o parte fundamentală a conținutului. Și nu contează pentru ce este folosit acest parametru, fie că este vorba despre „modificări ale sortării pentru o categorie de produse” sau „afișarea unei alte bare laterale” - oricare dintre ele provoacă apariția conținutului duplicat.

1.4 Scrappers și sindicare de conținut

În cea mai mare parte, conținutul duplicat este fie vina site-ului tău, fie a ta. Cu toate acestea, uneori conținutul tău este partajat de alte site-uri web, cu sau fără consimțământul tău. Nu întotdeauna se leagă la sursa originală, ceea ce face ca motorul de căutare să se ocupe de încă o versiune a aceluiași articol. Cu cât site-ul tău devine mai popular, cu atât atrage mai mulți scrappers, ceea ce agravează problema.

1.5 Ordinea parametrilor

Un alt motiv comun este că CMS-ul nu folosește URL-uri curate, ci mai degrabă o adresă URL ca / ?id=1&cat=2, în care „ID” se referă la articol și „pisica” la categorie. URL /?cat=2&id=1 va prezenta același rezultat pentru majoritatea sistemelor de site-uri web, dar pentru un motor de căutare rezultatele vor fi complet diferite.

1.6 Paginarea comentariilor

În WordPress-ul meu preferat, precum și în alte sisteme de gestionare a conținutului, există o opțiune pentru paginarea comentariilor. Acest lucru duce la conținut duplicat la adresa URL a articolului, deoarece /comment-page-1/, /comment-page-2/ etc. sunt atașate la adresa URL a articolului.

1.7 Versiunea imprimabilă a paginilor

Dacă sistemul de gestionare a conținutului creează o versiune imprimabilă a paginilor și trimiteți linkuri către ele din articolul dvs., Google le va găsi probabil (cu excepția cazului în care au fost blocate în mod deliberat, desigur). Acum răspundeți-vă sincer: ce versiune ați prefera să vedeți în rezultatele căutării Google? Versiunea cu reclamele tale și conținutul suport, sau cea cu doar articolul?

1.8 cu și fără WWW

Acest motiv este la fel de vechi ca lumea, dar dacă ambele versiuni de WWW și fără WWW sunt disponibile, motoarele de căutare din când în când (deși nu adesea) continuă să perceapă conținutul corespunzător ca fiind duplicat. Un alt motiv (nu atât de popular, dar pe care l-am întâlnit și eu) este HTTP și conținutul duplicat.

2 Soluție conceptuală: URL „canonic”.

După cum am aflat deja, atunci când mai multe adrese URL indică același conținut, apare o problemă, dar poate fi totuși rezolvată. O persoană care lucrează la o publicație nu ar trebui să aibă nicio problemă în a explica care ar trebui să fie adresa URL „corectă” pentru un anumit articol, dar dacă întrebați trei persoane de la aceeași companie, este posibil să obțineți răspunsuri complet diferite...

Această problemă poate fi rezolvată doar folosind adresare, deoarece, oricum ar fi, poate exista doar o singură adresă URL. O astfel de adresă URL „corectă” pentru un anumit conținut este considerată de motoarele de căutare drept canonică.

Remarcă ironică
Canonic” este un termen derivat din tradiția romano-catolică, conform căruia a fost creată o listă de cărți sacre și acceptată ca fiind autentică. Ele au devenit cunoscute ca Evanghelia canonică a Noului Testament. În mod ironic, Bisericii Romano-Catolice i-au luat aproape 300 de ani și multe bătălii pentru a stabili această listă canonică. În cele din urmă, au căzut de acord asupra a patru versiuni ale aceleiași povești...

3 Identificarea problemelor de conținut duplicat

Este posibil să nu știți ce a cauzat apariția conținutului dvs. duplicat, este site-ul sau conținutul în sine? Există mai multe moduri de a afla.

3.1 Google Search Console

Google Search Console este un instrument excelent pentru identificarea conținutului duplicat. Accesați Search Console pentru site-ul dvs., apoi Search View -> HTML Improvements și veți vedea următoarele:

A avea pagini cu titluri sau descriptori duplicați este aproape întotdeauna un lucru rău. Odată făcut clic, vor fi găsite adrese URL cu titluri sau mânere duplicat, ceea ce vă va ajuta să identificați problema. În cazul în care aveți un articol ca cel pe care l-am menționat mai devreme (cuvânt cheie X) și apare în două categorii, acesta poate avea titluri diferite. De exemplu, „Cuvânt cheie X – Categoria X – Exemplu de site” și „Cuvânt cheie X – Categoria Y – Exemplu de site”. Google nu va considera aceste titluri drept duplicate, dar pot fi găsite prin căutare.

3.2 Căutarea titlurilor sau a fragmentelor

Există mai mulți operatori de căutare care sunt foarte utili în cazuri precum cel descris mai sus. Dacă doriți să găsiți toate adresele URL ale site-ului dvs. care conțin articolul „cuvânt cheie X”, trebuie să introduceți următoarea expresie în căutarea Google:

site:example.com intitle:„Cuvânt cheie X”

Google vă va afișa apoi toate paginile identificate pe example.com care conțin cuvântul cheie specificat. Cu cât titlul este mai specific, cu atât va fi mai ușor să eliminați conținutul duplicat. Puteți utiliza această metodă pentru a identifica conținutul duplicat de pe Internet. Dacă, de exemplu, titlul complet al articolului dvs. este „Cuvântul cheie X - De ce este tare”, ați folosi expresia:

intitle:"Cuvântul cheie X - de ce este grozav"

Și Google vă va oferi toate site-urile care se încadrează în această rubrică. Uneori este logic să căutați chiar și doar una sau două propoziții complete din articolul dvs., deoarece unele răzuitoare pot schimba titlul. În unele cazuri, o astfel de căutare poate duce la afișarea următoarei notificări în paginile finale ale căutării Google:

Acesta este un semn că Google este deja ocupat cu eliminarea conținutului duplicat. Dar acest lucru încă nu este suficient, așa că merită să urmați linkul și să vă uitați la toate celelalte rezultate pentru a vedea dacă măcar unele dintre ele pot fi corectate.

4 Soluții practice privind conținutul duplicat

Odată ce ați decis ce adresă URL este canonică pentru o anumită parte a conținutului dvs., trebuie să treceți la procesul de canonizare („da, știu”, încercați să o spuneți de trei ori rapid și cu voce tare). Aceasta înseamnă că trebuie să spunem motoarelor de căutare despre versiunea canonică a paginii și să le permitem să o găsească cât mai repede posibil. Există patru soluții posibile, în ordinea preferințelor:

Nu creați conținut duplicat
Redirecționați conținutul duplicat la adresa URL canonică
Adăugați atributul rel=canonic la o pagină cu conținut duplicat
Adăugați un link HTML de la o pagină cu conținut duplicat la versiunea canonică a paginii

4.1 Cum să evitați conținutul duplicat

Unele dintre motivele de mai sus pentru conținut duplicat pot fi eliminate cu ușurință:

URL-urile dvs. au ID-uri de sesiune? De multe ori le puteți dezactiva pur și simplu în setările sistemului.
Aveți versiuni imprimabile ale paginilor? Nu este nevoie de ele: trebuie doar să utilizați stiluri CSS pentru imprimare.
Folosiți paginarea comentariilor în WordPress? Trebuie doar să dezactivați această funcție (în secțiunea de setări a 99% dintre site-uri).
Ordinea parametrilor rămâne aceeași? Spune-i programatorului să scrie un script care va ordona întotdeauna parametrii (numit adesea „fabrică de URL”).
Există probleme cu urmărirea linkurilor?În cele mai multe cazuri, puteți implementa urmărirea hashtag-urilor în loc să utilizați parametri.
Ai probleme cu „WWW și non-WWW”? Alegeți unul și apoi redirecționați către adresa rămasă. De asemenea, puteți seta preferințe folosind Instrumentele Google pentru webmasteri, dar trebuie să dețineți ambele versiuni ale numelui de domeniu.

Chiar dacă rezolvarea problemei tale nu este ușoară, efortul poate merita. Scopul ar trebui să fie prevenirea conținutului duplicat, deoarece aceasta este de departe cea mai bună soluție.

4.2 301 redirecționare a conținutului duplicat

Există momente în care pur și simplu nu este posibil să se evite complet sistemul de a utiliza adrese URL incorecte (pentru conținut), dar acestea pot fi cazuri în care pot fi utilizate redirecționări. Dacă credeți că acest lucru nu are sens (vă pot înțelege), amintiți-vă să vă amintiți acest lucru atunci când vorbiți cu dezvoltatorii. Pe măsură ce lucrați pentru a rezolva problemele de conținut duplicat, asigurați-vă că redirecționați tot conținutul duplicat de la adrese URL vechi la adrese URL canonice.

4.3 Utilizarea link-urilor

Uneori, chiar dacă știi că adresa URL este greșită, nu vrei sau nu poți scăpa de versiunea duplicată a articolului. Pentru a rezolva această problemă, motoarele de căutare prezintă un element de link canonic, situat în partea de antet a site-ului dvs. și care arată astfel:

link rel="canonical" href="http://example.com/wordpress/seo-plugin/

Atributul href link canonic este locul în care atribuiți adresa URL canonică corectă articolului dvs. Când un motor de căutare care acceptă linkuri canonice întâlnește un astfel de element, efectuează o redirecționare 301, dând astfel practic toată valoarea câștigată de pagină versiunii sale canonice.

Adevărul este că va fi mai rapid să folosești o redirecționare 301 direct și, prin urmare, dacă ai de ales, trebuie să-i dai preferință.

Conținutul duplicat se referă de obicei la blocuri mari de informații din unul sau mai multe domenii, al căror conținut este fie complet același, fie aproape același. De regulă, în acest caz nu se urmărește scopul de a induce în eroare utilizatorul. Conținutul duplicat poate fi utilizat fără intenție rău intenționată, de exemplu:

pagini de forum în versiuni obișnuite ale site-urilor și versiuni pentru dispozitive mobile;
produse din magazinul online care sunt afișate la clic pe diferite URL-uri;
versiuni imprimabile ale paginilor.

Dacă site-ul dvs. are mai multe pagini cu conținut aproape identic, puteți specifica o adresă URL preferată pentru Google. Acest lucru se poate face în moduri diferite. Această procedură se numește „normalizare”.

Cu toate acestea, în unele cazuri, conținutul este duplicat în mod intenționat pe diferite domenii în scopul manipulării clasamentelor motoarelor de căutare sau al creșterii volumului de trafic. Utilizarea unor astfel de tactici înșelătoare poate lăsa utilizatorilor o impresie negativă, văzând în esență același conținut repetat de nenumărate ori în rezultatele căutării.

Google depune toate eforturile pentru a indexa și afișa paginile cu informații unice. De exemplu, dacă site-ul dvs. are o versiune „standard” și o versiune „tipărită” a fiecărui articol care nu este marcată cu metaeticheta noindex, numai una dintre ele va apărea în rezultatele căutării. În acele cazuri rare în care Google consideră că se arată că conținutul duplicat manipulează clasamentele sau induce în eroare utilizatorii, vom face modificări la indexul și clasarea site-urilor în cauză. Ca urmare, clasamentul site-ului poate scădea sau site-ul poate fi eliminat complet din indexul Google și nu va fi disponibil pentru căutare.

Iată cum puteți evita problemele de conținut duplicat și vă asigurați că utilizatorii văd conținutul dorit.

Folosiți 301. Dacă ați schimbat structura site-ului dvs., utilizați o redirecționare 301 ("redirecționare permanentă") în fișierul dvs. .htaccess pentru a redirecționa rapid utilizatorii, Googlebot și diferiți păianjeni. (Pentru Apache, acest lucru se poate face folosind fișierul .htaccess. Pentru IIS, prin consola de administrator.)

Fii consistent. Încercați să utilizați legăturile interne în mod constant. De exemplu, nu conectați la http://www.example.com/page/, http://www.example.com/page și http://www.example.com/page/index.htm.

Utilizați domenii de nivel superior. Pentru a ne ajuta să selectăm cea mai potrivită versiune a unui document, folosiți domenii de nivel superior ori de câte ori este posibil pentru a afișa conținut specific țării. De exemplu, este recomandat să postați conținut legat de Rusia pe site-ul http://www.example.ru, și nu pe site-ul http://www.example.com/ru sau http://ru.example. com.

Aveți grijă când sindicați. Dacă distribuiți conținutul dvs. altor site-uri, Google va afișa întotdeauna versiunea pe care o consideră cea mai relevantă pentru utilizatori pentru fiecare solicitare de căutare. Această versiune nu este neapărat aceeași cu cea pe care ați fi ales-o. Cu toate acestea, merită să vă asigurați că toate site-urile unde este postat conținutul dvs. au un link către articolul original. De asemenea, puteți cere proprietarilor de site-uri care folosesc conținutul dvs. sindicalizat să îl blocheze cu o metaetichetă noindex pentru a împiedica motoarele de căutare să-și indexeze versiunile.

Utilizați Search Console pentru a notifica Google despre metoda dvs. de indexare preferată. Puteți specifica în mod specific domeniul principal (de exemplu, http://www.example.com sau http://example.com).

Evitați repetarea modelelor. De exemplu, în loc să plasați tot textul drepturilor de autor în partea de jos a fiecărei pagini, includeți doar informațiile de bază cu un link către pagina în care este furnizată versiunea detaliată. De asemenea, puteți utiliza instrumentul Opțiuni URL pentru a alege modul în care preferați ca Google să gestioneze parametrii URL.

Nu folosiți „stubs” de software. Utilizatorii nu sunt interesați de paginile goale. De exemplu, nu publicați pagini al căror conținut nu este încă gata. Dacă nu vă puteți lipsi de paginile cu substituent, blocați-le cu metaeticheta noindex, astfel încât să nu fie indexate.

Înțelegeți sistemul dvs. de management al conținutului. Familiarizați-vă cu modul în care este afișat conținutul pe site-ul dvs. Blogurile, forumurile și alte sisteme similare afișează adesea același conținut în mai multe formate. De exemplu, o postare de blog poate apărea pe pagina principală a blogului, pe pagina arhivelor și pe pagina cu alte postări - și întotdeauna sub același titlu.

Reduceți conținutul similar. Dacă site-ul dvs. are multe pagini similare, adăugați conținut unic la fiecare dintre ele sau combinați-le într-una singură. Să presupunem că aveți un site de călătorie cu pagini separate pentru două orașe care prezintă aceleași informații. În schimb, puteți plasa o pagină care descrie ambele orașe sau puteți adăuga materiale unice fiecăruia.

Google nu recomandă blocarea accesului crawlerelor la conținut duplicat folosind un fișier robots.txt sau alte mijloace. Dacă motoarele de căutare nu au capacitatea de a accesa cu crawlere pagini cu un astfel de conținut, atunci nu vor putea determina automat dacă URL-uri diferite au același conținut și le vor trata ca pagini unice. Cel mai bine este să permiteți accesarea cu crawlere a acestor adrese URL, dar marcați-le ca copii exacte utilizând un link rel="canonical", un instrument de parametri URL sau o redirecționare 301. Dacă aveți mai multe copii încetinește semnificativ accesarea cu crawlere a paginii, ajustați frecvența de accesare cu crawlere Search Console.

Prezența conținutului duplicat pe site nu constituie motiv pentru a întreprinde vreo acțiune în privința acestuia. Astfel de măsuri sunt aplicate numai dacă scopul este de a induce în eroare utilizatorii sau de a manipula rezultatele căutării. Dacă întâmpinați probleme cu conținutul duplicat și nu ați urmat sfaturile de mai sus, vom alege versiunea de conținut care să fie afișată în rezultatele căutării, la discreția noastră.

Cu toate acestea, dacă examinarea noastră arată că ați folosit practici înșelătoare și site-ul dvs. a fost eliminat din rezultatele căutării noastre, vă rugăm să aruncați o privire mai atentă asupra site-ului dvs. Vă rugăm să consultați Regulile pentru webmasteri și să faceți modificările necesare. După ce sunteți sigur că site-ul dvs. îndeplinește cerințele, trimiteți-ne o solicitare.

În unele cazuri, algoritmii Google pot selecta adresa URL a unui site terță parte care conține copii ale conținutului dvs. fără permisiune. Dacă conținutul dvs. a fost postat pe alt site într-un mod care încalcă drepturile de autor, cereți proprietarului site-ului să elimine conținutul. De asemenea, puteți solicita Google să elimine pagina care încalcă drepturile de autor din rezultatele căutării sale. Pentru a face acest lucru, trebuie să trimiteți o notificare DMCA.

A fost de ajutor articolul?

Cum poate fi îmbunătățit acest articol?

Mulți proprietari de site-uri web se concentrează în primul rând pe asigurarea faptului că conținutul este unic în comparație cu alte resurse. Cu toate acestea, nu trebuie să pierdeți din vedere prezența conținutului duplicat în cadrul aceluiași site. Acest lucru are, de asemenea, un impact puternic asupra clasamentelor.

Ce este conținutul duplicat

Conținutul repetitiv sau duplicat reprezintă blocuri voluminoase de text care coincid în cadrul site-ului pe diferite pagini. Acest lucru nu se face neapărat cu intenții rău intenționate - mai des apare din motive tehnice, discutate în detaliu mai jos.

Pericolul este că adesea conținutul duplicat nu poate fi văzut cu ochiul liber, dar motorul de căutare îl vede perfect și reacționează în consecință.

De unde provine conținutul duplicat și unde este cel mai frecvent?

Principalele motive pentru acest fenomen:

Modificarea structurii site-ului;
Utilizare intenționată într-un scop specific (să zicem, versiuni tipărite);
Acțiuni eronate ale programatorilor și webmasterilor;
Probleme cu CMS.

De exemplu, apare o situație comună: replytocom (răspuns la un comentariu) în WordPress generează automat pagini noi cu adrese URL diferite, dar nu și conținut.

De obicei, conținutul duplicat este observat atunci când se creează anunțuri de articole pe alte pagini ale site-ului, se postează recenzii, precum și atunci când există descrieri identice ale produselor, categoriilor și titlurilor.

De ce conținutul duplicat este rău

Conținutul repetat are un analog din domeniul economiei - descoperirea de cont bancară. Aici este cheltuit așa-numitul buget de crawling. Acesta este numărul de pagini de resurse pe care un motor de căutare le poate accesa cu crawlere într-o anumită perioadă de timp. Resursa este foarte valoroasă și este mai bine să o cheltuiți pe pagini cu adevărat importante și relevante decât pe zeci de duplicate de text identic.

Astfel, conținutul duplicat înrăutățește optimizarea motoarelor de căutare. În plus, linkurile naturale se pierd și sucul de linkuri este distribuit incorect în cadrul site-ului. Și, de asemenea, paginile cu adevărat relevante sunt înlocuite.

Cum să găsiți conținut duplicat pe un site web (manual, programe și servicii)

Există programe speciale pentru analiza resurselor. Dintre acestea, utilizatorii evidențiază în special Netpeak Spider. Caută copii complete ale paginilor, potriviri după titlu sau descriere sau titluri. O altă opțiune este Screaming Frog, care are o funcționalitate similară și diferă în esență doar în interfață. Există și aplicația Xenu`s Link Sleuth, care funcționează într-un mod similar cu un motor de căutare și este capabilă să pieptăneze destul de eficient un site pentru duplicate.

Din păcate, nu există instrumente care să poată urmări complet toate duplicatele textului. Prin urmare, cel mai probabil, va trebui să efectuați o verificare manuală. Iată o listă cu posibilii factori care au cauzat problema:

Ne-am dat seama cum să găsim conținut duplicat. Iar cei mai buni ajutători în lupta împotriva acesteia sunt redirecționările 301, etichetele URL canonice, instrucțiunile din robots.txt și parametrii Nofollow și Noindex ca parte a metaetichetei „roboți”.

O modalitate de a verifica rapid dacă există conținut duplicat pe un site este o căutare avansată în Yandex sau Google. Trebuie să introduceți adresa site-ului și o bucată de text din pagina pe care ați decis să o verificați. De asemenea, puteți utiliza numeroase programe pentru a verifica unicitatea textului:

Text.Ru;
eTXT Anti-plagiat;
Advego Plagiatus;
Vizionare conținut.

Cum să tratați și să curățați conținutul duplicat

Același sistem de ajutor Google oferă o serie de sfaturi pentru a preveni apariția acestei probleme.

301. Când faceți modificări structurale la o resursă, trebuie să specificați o redirecționare 301 în fișierul htaccess.
Utilizați un singur standard de referință.
Conținutul specific regiunii este mai bine plasat pe domeniile de nivel superior decât pe subdomenii sau subdirectoare.
Setați metoda de indexare preferată folosind Search Console.
Nu folosiți șabloane. În loc să plasați text cu drepturi de autor pe fiecare pagină, este mai bine să faceți un link care să ducă la o pagină separată cu acest text.
Când dezvoltați pagini noi, asigurați-vă că acestea sunt închise de la indexare până când sunt complet gata.
Înțelegeți exact cum este afișat conținutul dvs. - pot exista diferențe de afișare pe bloguri și forumuri.
Dacă există multe articole similare pe site, este mai bine fie să le combinați conținutul într-un singur întreg, fie să le unificați pe fiecare.

Motoarele de căutare nu impun nicio sancțiune împotriva site-urilor care au conținut duplicat din motive tehnice (spre deosebire de cei care fac acest lucru în mod deliberat pentru a manipula rezultatele căutării sau a induce în eroare vizitatorii).

După ce duplicatele au fost eliminate, tot ce rămâne este să le eliminați din rezultatele căutării. Yandex face acest lucru pe cont propriu, cu condiția ca fișierul robots.txt să fie configurat corect. În ceea ce privește Google: va trebui să setați manual regulile în Webmaster, în fila „Parametri URL”.

Concluzie

Combaterea conținutului duplicat de pe un site web este un aspect important al activităților proprietarului oricărui site web. Există destul de multe motive pentru apariția sa și la fel de multe modalități de a o elimina.

Cu toate acestea, regula principală rămâne: postați exclusiv conținut original, indiferent de tipul de site. Chiar dacă este un mare lanț de magazine cu mii de pagini.

PRIMIȚI ANUNȚURI CU POSTĂRI SIMILARE PE EMAILUL DVS

Aboneaza-te si primesti nu mai mult de o data pe saptamana ceva interesant din lumea marketingului pe internet, SEO, promovarea site-urilor, magazine online, a face bani pe site-uri.

Conținut duplicat poate fi împărțit în trei mari categorii: duplicat exact, unde două adrese URL au conținut complet identic, mulțumit cu mici diferențe(ordinea propozițiilor, imagini ușor diferite etc.) și duplicate pe mai multe domenii, unde există o copie exactă sau ușor modificată pe multe domenii.

Există două concepte înrudite care nu sunt considerate același lucru cu conținutul duplicat de către Google, dar care deseori confundă editorii și SEO fără experiență:

continut subtire - după cum am menționat mai devreme, acestea sunt pagini care au foarte puțin conținut. Un exemplu este un set de pagini construit pe o listă de adrese organizaționale care are 5.000 de adrese, dar fiecare pagină conține o singură adresă - doar câteva rânduri;
tăierea conținutului - Paginile care diferă ușor unele de altele se încadrează în această categorie. Imaginați-vă un site care vinde pantofi Nike Air Max care vin în mărimile 37, 37.5, 38, 38.5, 39, ... 46. Dacă site-ul are o pagină separată pentru fiecare mărime de pantof, atunci diferența dintre toate aceste pagini va fi nesemnificativă. Google numește acest efect feliate subțire.

Google nu-i place conținutul subțire sau felierea subțire. Oricare dintre aceste efecte poate fi detectat de algoritmul Panda . Nu este clar modul în care Bing diferențiază conținutul duplicat, conținutul subțire și tăierea conținutului, dar este clar că editorii ar trebui să evite crearea acestor tipuri de pagini.

Conținutul duplicat poate apărea din mai multe motive, inclusiv licențierea conținutului site-ului dvs., defecte în arhitectura site-ului din cauza unui sistem de management al conținutului care nu este optimizat pentru motoarele de căutare sau din cauza prezenței plagiatului. În ultimii cinci ani, spammerii înfometați de conținut au început să curețe conținutul din surse legitime, să rearanjeze cuvintele printr-o varietate de procese complexe și să plaseze textul rezultat pe paginile lor pentru a atrage căutări cu coadă lungă și pentru a afișa publicitate contextuală, precum și pentru alte scopuri necinstite.

Astfel, astăzi trăim într-o lume de „probleme de conținut duplicat” și „penalități de conținut duplicat”. Iată câteva definiții care vor fi utile pentru discuția noastră.

Conținut unic- scris de o ființă umană, complet diferită de orice altă combinație de litere, simboluri și cuvinte de pe World Wide Web și care nu este afectată de algoritmii de procesare a textului computerizat (cum ar fi instrumentele de spammer care folosesc lanțuri Markov).
Fragmente - acestea sunt mici bucăți de conținut (cum ar fi citatele) care sunt copiate și reutilizate din nou și din nou. Aproape niciodată nu reprezintă o problemă pentru motoarele de căutare, mai ales atunci când sunt incluse într-un document mai mare, cu mult conținut unic.
zona zoster - motoarele de căutare caută segmente relativ mici de expresii (cinci până la șase cuvinte) pe alte pagini de pe World Wide Web. Dacă două documente au prea multe șindrilă în comun, atunci motoarele de căutare pot interpreta aceste documente ca conținut duplicat.
Probleme de conținut duplicat - această expresie servește de obicei pentru a indica conținut duplicat, pentru care un site poate fi penalizat. Un astfel de conținut este pur și simplu o copie a unei pagini existente, forțând motorul de căutare să aleagă ce versiune să afișeze în index (aceasta este așa-numita filtru de conținut duplicat).
Filtru de conținut duplicat - o situație în care un motor de căutare elimină conținut similar din rezultatele căutării pentru a oferi rezultate mai bune utilizatorului.
Penalizare pentru conținut duplicat - amenzile (penalitățile) sunt rar folosite și doar în situații evidente. Motoarele de căutare pot reduce clasamentul sau interzice paginile rămase ale site-ului sau chiar interzice întregul site.

Consecințele conținutului duplicat

Presupunând că conținutul dvs. duplicat este rezultatul unei supravegheri inofensive din partea dezvoltatorilor dvs., motorul de căutare va filtra probabil toate paginile duplicate (cu excepția uneia), deoarece dorește să afișeze doar o versiune a acelui conținut în paginile cu rezultatele căutării. În unele cazuri, motorul de căutare poate filtra rezultatele înainte ca acestea să fie incluse în index, iar în alte cazuri, poate permite ca pagina să fie indexată și să o filtreze atunci când pregătesc rezultatele căutării ca răspuns la o anumită interogare. În acest ultim caz, pagina poate fi filtrată ca răspuns la unele interogări specifice și să nu fie filtrată pentru altele.

Utilizatorii vor să vadă o varietate de rezultate (nu aceleași rezultate din nou și din nou). Prin urmare, motoarele de căutare încearcă să filtreze conținutul duplicat, iar acest lucru are următoarele consecințe:

Un robot motor de căutare ajunge pe un site cu un anumit buget de vizualizare, exprimat în numărul de pagini pe care intenționează să le vizualizeze în fiecare sesiune specifică. De fiecare dată când ajunge pe o pagină duplicată care ar trebui pur și simplu filtrată din rezultatele căutării, îi permiteți robotului să irosească o parte din bugetul de accesare cu crawlere. Aceasta înseamnă că mai puține dintre paginile tale „bune” vor fi vizualizate și va avea ca rezultat ca mai puține pagini să fie incluse în indexul motorului de căutare;
Chiar dacă motoarele de căutare încearcă să filtreze conținutul duplicat, linkurile către paginile cu conținut duplicat încă le transmit sucul de linkuri. Prin urmare, paginile duplicat pot câștiga PageRank sau „link juice”, iar din moment ce acest lucru nu le ajută să se clasifice, această resursă este irosită;
Niciun motor de căutare nu a oferit o explicație clară a modului în care algoritmul său alege versiunea paginii de afișat. Cu alte cuvinte, dacă detectează trei copii ale aceluiași conținut, pe care două dintre ele le va filtra? Pe care o va arăta? Depinde de interogarea de căutare? Ca urmare, motorul de căutare poate să nu arate versiunea de care aveți nevoie.

Deși unii experți în optimizare ar putea argumenta cu unele dintre punctele prezentate aici, structura generală este practic necontroversată. Cu toate acestea, există mai multe probleme cu limitele acestui model.

De exemplu, site-ul dvs. are un grup de pagini de produse, precum și versiuni imprimabile ale acestor pagini. Motorul de căutare poate alege să afișeze versiunea imprimabilă în rezultatele sale. Acest lucru se întâmplă uneori și se poate întâmpla chiar și atunci când pagina de imprimare are mai puțin suc de link și un clasament mai scăzut decât pagina principală a produsului.

Pentru a corecta această situație, trebuie să aplicați atributul link rel="canonical" tuturor versiunilor duplicate ale paginii pentru a indica versiunea principală.

A doua opțiune poate apărea atunci când distribuiți conținutul dvs. (permiteți republicarea conținutului dvs.) către terți. Problema este că motorul de căutare poate arunca originalul dvs. din rezultatele căutării și preferă versiunea folosită de persoana care v-a republicat articolul. Există trei soluții potențiale la această problemă:

Rugați-i persoanei care a republicat articolul dvs. să facă link înapoi la articolul original de pe site-ul dvs. cu atributul rel="canonical". Acest lucru va indica motoarele de căutare că copia dvs. a paginii este originală și orice link-uri care indică pagina sindicalizată vor fi creditate pe pagina dvs. originală;
solicitați partenerului dvs. de sindicat să își închidă copia cu atributul noindex. În acest caz, conținutul duplicat pur și simplu nu va fi indexat de motorul de căutare. În plus, orice link din acest conținut către site-ul dvs. va continua să vă acorde autorizație;
trimiteți partenerului dvs. link înapoi la pagina originală de pe site-ul dvs. Motoarele de căutare interpretează de obicei acest lucru corect și subliniază versiunea dvs. a conținutului. Cu toate acestea, trebuie menționat că au existat cazuri în care Google a determinat incorect paternitatea conținutului și a atribuit atribuții site-ului care l-a republicat, mai ales dacă acel site are mult mai multă autoritate și încredere decât adevărata sursă originală a conținutului.

Cum recunosc motoarele de căutare conținutul duplicat?

Vom ilustra procesul de căutare a conținutului duplicat pe World Wide Web pentru motorul Google cu exemple. În exemplele prezentate în Fig. 1-4, se fac trei ipoteze:

o pagină cu text este o pagină care conține conținut duplicat (și nu doar un fragment din acesta, așa cum se arată în imagini);
toate paginile cu conținut duplicat sunt situate pe domenii diferite;
Pașii de mai jos au fost simplificați pentru a face procesul cât mai ușor și mai simplu posibil. Aceasta nu este cu siguranță o descriere exactă a modului în care funcționează Google, dar înțelege ideea.

Orez. 1

Orez. 2

Orez. 3

Orez. 4

Există mai multe fapte cu privire la conținutul duplicat care merită o mențiune specială, deoarece pot deruta un webmaster care este nou în problema conținutului duplicat. Să luăm în considerare acești factori.

Locație de conținut duplicat - dacă tot acest conținut este pe site-ul meu, este duplicat? Da, deoarece conținutul duplicat poate apărea atât pe un site, cât și pe site-uri diferite.
Procentul de conținut duplicat - Ce procent dintr-o pagină trebuie să fie duplicat pentru a se califica pentru filtrarea conținutului duplicat? Din păcate, motoarele de căutare nu dezvăluie niciodată aceste informații, deoarece le-ar dăuna capacității de a preveni problema în sine.
Putem spune aproape cu încredere că acest procent se schimbă constant pentru toate motoarele, iar la identificarea conținutului duplicat nu se face doar o comparație directă. Concluzia este că paginile nu trebuie să fie identice pentru a fi considerate duplicate.
Corelația dintre cod și text - Ce se întâmplă dacă codul nostru este foarte mare, dar există puține elemente HTML unice pe pagină? Va crede Google că toate paginile sunt duplicate una cu cealaltă? Nu. Motoarelor de căutare nu le pasă de codul tău, le pasă de conținutul paginilor tale. Dimensiunea codului devine o problemă numai atunci când devine excesivă.
Raportul dintre elementele de navigare și conținutul unic - Toate paginile de pe site-ul meu au o bară mare de navigare, multe anteturi și subsoluri, dar foarte puțin conținut. Va considera Google toate aceste pagini ca fiind duplicate? Nu. Google (și Yahoo! și Bing) iau în considerare elementele de navigare înainte de a evalua paginile pentru duplicare. Ei sunt familiarizați cu aspectul site-ului și înțeleg că este complet normal să aibă structuri consistente pe toate paginile (sau multe dintre ele). Ei acordă atenție părților unice ale paginilor și ignoră aproape complet restul.
Conținut licențiat - Ce se întâmplă dacă vreau să evit problemele de conținut duplicat, dar am conținut din alte surse web pe care le-am autorizat pentru a le afișa vizitatorilor mei? Folosiți codul meta name = „roboți” content="noindex, follow" . Plasați-l în antetul paginii dvs. și motoarele de căutare vor ști că acest conținut nu este pentru ei. Aceasta este o bună practică, deoarece oamenii vor putea în continuare să vizitați pagina respectivă și trimiteți către ea, iar linkurile de pe această pagină își vor păstra valoarea.

O altă opțiune este obținerea drepturilor exclusive de a deține și publica acest conținut.

Detectarea și eliminarea încălcărilor drepturilor de autor

Una dintre cele mai bune modalități de a urmări duplicarea pe site-ul dvs. este să utilizați CopyScape (copyscape.com), care vă permite să vedeți instantaneu paginile de pe World Wide Web care vă folosesc conținutul. Nu vă faceți griji dacă paginile acelor site-uri se află în indexul secundar sau se clasează semnificativ mai jos decât al dvs. - dacă un domeniu mare, autorizat și bogat în conținut ar încerca să lupte împotriva tuturor copiilor materialelor sale de pe World Wide Web, ar nevoie, cel puțin două persoane cu normă întreagă. Din fericire, motoarele de căutare au încredere în astfel de site-uri și, prin urmare, le recunosc ca surse originale.

Pe de altă parte, dacă aveți un site relativ nou sau un site cu puține link-uri de intrare, iar plagiatorii se clasează în mod constant deasupra dvs. (sau un site puternic vă fură munca), atunci există câteva lucruri pe care le puteți face. O opțiune este să trimiteți o solicitare editorului prin care îi cere să elimine conținutul care încalcă drepturile. În unele cazuri, editorul pur și simplu nu cunoștea încălcarea drepturilor de autor. O altă opțiune este să scrieți furnizorului de găzduire. Companiile de găzduire pot fi potențial responsabile pentru găzduirea conținutului duplicat, așa că adesea răspund rapid la astfel de solicitări. Doar asigurați-vă că sunteți pregătit să furnizați cât mai multă documentație posibilă pentru a dovedi calitatea de autor a conținutului.

Următoarea opțiune este să trimiteți o solicitare de încălcare a drepturilor de autor (DMCA) către Google, Yahoo! și Bing. De asemenea, ar trebui să trimiteți aceeași cerere către compania care găzduiește site-ul web al infractorului.

A doua opțiune este să inițiezi o acțiune în justiție împotriva site-ului ofensator sau să amenințe că o faci. Dacă site-ul care vă publică lucrarea este deținut în țara dvs., atunci această opțiune este probabil cel mai inteligent prim pas. Poate doriți să începeți cu o comunicare mai informală și să cereți eliminarea conținutului chiar înainte de a trimite o scrisoare oficială de la un avocat, deoarece pot trece luni înainte ca acțiunea DMCA a agenției să intre în vigoare. Dar dacă nu primiți un răspuns, atunci nu aveți niciun motiv să amânați o acțiune mai serioasă.

O opțiune foarte eficientă și ieftină pentru acest proces este DCMA.com.

Situatie cu amenda reala

Exemplele anterioare arată cum funcționează filtrele de conținut duplicat, dar acestea nu sunt amenzi, deși în sens practic efectul este același cu amenzile - o scădere a clasamentului paginilor tale. Există însă și situații în care poate apărea o amendă reală. De exemplu, site-urile care adună conținut sunt în pericol, mai ales dacă site-ul în sine adaugă puțin conținut unic. Într-un astfel de scenariu, site-ul ar putea fi de fapt amendat.

Acest lucru poate fi corectat doar prin reducerea numărului de pagini duplicat disponibile pentru spider motorului de căutare. Acest lucru se realizează prin eliminarea acestora, adăugarea unui atribut canonic la duplicate, a unui atribut noindex la paginile în sine sau adăugând o cantitate semnificativă de conținut unic.

Un exemplu de conținut care poate fi frecvent filtrat este site partener „subțire”. Acesta este adesea numele dat unui site care promovează vânzările de produse altor persoane pentru a câștiga comisioane, dar nu oferă informații noi. Un astfel de site ar putea obține descrieri de la producătorul produsului și pur și simplu să reproducă acele descrieri împreună cu un link către un afiliat pentru a câștiga bani din „clicuri” sau achiziții.

Problema apare atunci când un comerciant are mii de afiliați care folosesc același conținut – iar inginerii motoarelor de căutare au primit feedback de la utilizatori că (din perspectiva lor) astfel de site-uri nu adaugă nimic valoros la indicile lor. Prin urmare, motoarele de căutare încearcă să filtreze astfel de site-uri sau chiar să le excludă din indexurile lor. O mulțime de site-uri folosesc modele de afiliere, dar oferă și conținut nou bogat, așa că de obicei nu au probleme. Motoarele de căutare iau măsuri numai atunci când există atât duplicarea conținutului, cât și lipsa de material unic valoros.

Cum să evitați conținutul duplicat pe site?

După cum am menționat mai devreme, conținutul duplicat poate fi creat în mai multe moduri. Dublarea internă a materialului necesită utilizarea unor tactici specifice pentru a obține cele mai bune rezultate din punct de vedere al optimizării. În multe cazuri, paginile duplicate sunt pagini care nu au valoare nici pentru utilizatori, nici pentru motoarele de căutare. Dacă acesta este cazul, încercați să remediați complet problema. Modificați implementarea astfel încât doar o singură adresă URL să trimită către fiecare pagină. De asemenea, faceți o redirecționare 301 pentru vechile URL-uri către URL-urile rămase , pentru a ajuta motoarele de căutare să vadă cât mai repede posibil modificările pe care le-ați făcut și să păstreze „sucul de link” pe care îl aveau paginile șterse.

Dacă acest lucru nu este posibil, atunci există multe alte opțiuni. . Următorul este un rezumat al îndrumărilor privind cele mai simple soluții pentru o mare varietate de scenarii:

utilizați fișierul robots.txt pentru a bloca păianjenii motoarelor de căutare, astfel încât aceștia să nu acceseze cu crawlere versiunile duplicate ale paginilor site-ului dvs.;
utilizați elementul rel="canonical" - aceasta este a doua soluție (din cea mai bună) pentru a elimina paginile duplicate;
utilizare COD să dea instrucțiuni MOTOR DE CĂUTARE motoarele nu indexează paginile duplicat.

Cu toate acestea, rețineți că, dacă utilizați un fișier robots.txt pentru a preveni vizualizările paginii, atunci aplicarea atributului noindex sau nofollow pe pagina în sine nu are sens. Deoarece păianjenul nu poate citi această pagină, nu va vedea niciodată atributele noindex sau nofollow. Având în vedere aceste instrumente, să ne uităm la unele situații specifice de conținut duplicat.

Pagini HTTPS - Dacă utilizați SSL (un schimb criptat între browser și serverul dvs. web, folosit adesea pentru comerțul electronic), atunci site-ul dvs. va avea pagini care încep cu HTTPS: (în loc de HTTP :). Problema apare atunci când link-urile de pe paginile dvs. HTTPS indică către alte pagini de pe site folosind link-uri relative mai degrabă decât absolute (de exemplu, link-ul către pagina dvs. de pornire devine https://www.YourDomain.com în loc de http:/ / www.YourDomain.com).

Dacă site-ul tău are o astfel de problemă, atunci pentru a o rezolva poți folosi elementul rel="canonical" sau redirecționările 301st. O soluție alternativă este să schimbi linkurile cu cele absolute: http://www.Domeniul tău.com/content.html în loc de /contenthtml), ceea ce va îngreuna și viața celor care îți fură conținutul.

Sisteme de gestionare a conținutului care creează conținut duplicat - Uneori, un site are multe versiuni ale paginilor identice. Acest lucru se întâmplă din cauza limitărilor din unele sisteme de gestionare a conținutului care se adresează aceluiași conținut cu mai multe adrese URL. Aceasta este de obicei o duplicare complet inutilă, care nu are nicio valoare pentru utilizatori, iar cea mai bună soluție este să eliminați paginile duplicate și să faceți o redirecționare 301 pentru paginile eliminate către paginile rămase. Dacă acest lucru nu funcționează, încercați alte metode (date la începutul acestui articol).
Pagini imprimabile sau mai multe opțiuni de sortare - multe site-uri oferă pagini imprimabile care prezintă același conținut utilizatorului într-un format ușor de imprimat. Unele site-uri de comerț electronic oferă listări ale produselor lor cu multe feluri posibile (după dimensiune, culoare, marcă și preț). Aceste pagini au valoare pentru utilizator, dar nu au valoare pentru motoarele de căutare și, prin urmare, le vor apărea ca conținut duplicat. În această situație, va trebui fie să utilizați una dintre opțiunile prezentate anterior în acest blog, fie să personalizați foaia CSS pentru imprimare (așa cum este descris în postarea yoast.com/added-print-css-style-sheet/ pe Yoast) .
Conținut duplicat în bloguri și sisteme de arhivare - Blogurile prezintă o variație interesantă a problemei conținutului duplicat. O postare de blog poate apărea pe mai multe pagini diferite: pagina de pornire a blogului, pagina de permalink a postării, paginile de arhivă și paginile de categorii. Fiecare instanță a unei postări este un duplicat al celorlalte instanțe. Foarte rar editorii încearcă să se ocupe de problema prezentării unei postări atât pe pagina de pornire a blogului, cât și pe pagina de permalink. Și, aparent, motoarele de căutare fac față destul de bine acestei probleme. Cu toate acestea, ar putea avea sens să afișați numai fragmente de postări pe categorii și pagini de arhivă.
Conținut duplicat generat de utilizatori (postări repetate etc.) - multe site-uri implementează structuri pentru a primi conținut generat de utilizatori, cum ar fi bloguri, forumuri sau panouri de mesaje. Acestea pot fi modalități excelente de a dezvolta cantități mari de conținut la un cost foarte scăzut. Problema este că un utilizator poate publica simultan același conținut pe site-ul dvs. și pe mai multe alte site-uri, ceea ce duce la conținut duplicat. Acest lucru este dificil de controlat, dar pot fi luate în considerare următoarele pentru a reduce problema:

Trebuie să aveți o politică clară care să notifice utilizatorii că conținutul pe care îl furnizează site-ului dvs. trebuie să fie unic și nu poate fi postat pe alte site-uri. Desigur, acest lucru este dificil de realizat, dar vă va ajuta să vă înțelegeți așteptările;
implementați forumul dvs. într-un mod unic care necesită conținut diferit. Pe lângă câmpurile standard de introducere a datelor, adăugați și câteva câmpuri unice (diferite de alte site-uri) care vor fi utile vizitatorilor site-ului dvs. să le vadă.