Rezumat: Motoare de căutare. Motoarele de căutare pe internet

Desigur, lista motoarelor de căutare populare nu se termină aici – numărul lor este de sute. Cu toate acestea, sunt sigur că acestea vor fi mai mult decât suficiente pentru a lucra cu site-uri în limba engleză.

Trebuie remarcat faptul că aproape toate motoarele de căutare prezentate mai sus pot funcționa cu alfabetul chirilic. Dar pentru a căuta informații în rusă, recomand în continuare motoarele de căutare interne:

Există și alte motoare de căutare în limba rusă, dar acestea sunt cele mai populare, în special primele două.

Orez. 4.1. motor de căutare Google

Din cartea Countering Black PR on the Internet autor Kuzin Alexander Vladimirovici

Motoarele de căutare și directoarele ca instrumente pentru promovarea resurselor de pe Internet „de luptă” și pentru a le completa cu conținut

Din cartea Blog. Creați și promovați autor Iuşciuk Evgenii Vladimirovici

Motoarele de căutare și cataloagele ca instrumente pentru promovarea unui blog și completarea acestuia cu conținut Vom vorbi despre automatizarea umplerii unui blog cu conținut interesant, adică despre cum să găsești material pentru un blog mai rapid decât alți bloggeri. Este puțin probabil ca majoritatea cititorilor să reușească la

Din cartea Internet Intelligence [Ghid de acțiune] autor Iuşciuk Evgenii Leonidovici

Compilarea de interogări legate de numele companiei în motoarele de căutare

Din cartea Asamblarea unui computer cu propriile mâini autor Vatamanyuk Alexandru Ivanovici

5.2. Sisteme de operare populare Există multe sisteme de operare și fiecare are propriul său grad de popularitate. Unele sisteme sunt mai convenabile pentru lucrul în rețea, în timp ce altele sunt mai convenabile pentru lucrul offline, deoarece puteți combina totul fără a pierde viteza și

Din cartea Win2K FAQ (v. 6.0) autorul Shashkov Alexey

(6.10) Există o rețea mixtă, netware și NT, clienți W2kPro și W98. Aparatele cu W98 nu se pot conecta la mașinile cu W2k. Pentru a rezolva această problemă, trebuie să vă legați folosind protocoale: IPX/SPX numai la clientul Novell, TCP/IP numai la clientul Microsoft. Acest lucru se poate face în meniul proprietăților conexiunii la rețea

Din cartea Rezumat, cursuri, diploma pe computer autor

Motoare de căutare Dacă aveți nevoie să obțineți o selecție de materiale pe informații mai specifice și specializate, este mai bine să utilizați motoarele de căutare. Un motor de căutare este un set de programe speciale pentru căutarea pe Internet. Ele sunt lipsite de dezavantajele inerente

Din cartea Internet. Noi oportunitati. Trucuri și efecte autor Balovsyak Nadezhda Vasilievna

Cum funcționează motoarele de căutare și cum se construiesc corect interogările Motoarele de căutare moderne sunt un set de programe speciale concepute pentru a căuta informații pe Internet Principiul funcționării lor este următorul: din când în când

Din cartea Internet 100%. Tutorial detaliat: de la începător la profesionist autor Gladky Alexey Anatolievici

Cinematografe online populare Unul dintre cinematografele online gratuite populare se află la http://vsekino.tv (Fig. 7.5). Orez.

Din cartea Internet - ușor și simplu! autor Alexandrov Egor

Directoare populare Cel mai popular și complet director din lume este, fără îndoială, Yahoo! (http://dir.yahoo.com) (Fig. 4.4). Orez. 4.4. Cel mai popular director de link-uri Yahoo! Trebuie remarcat faptul că directoarele sunt adesea combinate cu motoarele de căutare, atât de multe dintre cele prezentate

Din cartea Yandex pentru toată lumea autorul Abramzon M. G.

1.11.3. Postări populare Lista postărilor populare este actualizată o dată pe zi. Sunt selectate câteva zeci de astfel de înregistrări, dar doar câteva dintre cele mai populare sunt incluse pe pagina de titlu a secțiunii Căutare. Restul poate fi vizualizat la link-ul Înregistrări totale.

Din cartea Cum să găsiți și să descărcați orice fișiere de pe Internet autorul Reitman M.A.

1.11.6. Categorii populare Dacă înainte vorbeam despre clasamentul bloggerilor, al serviciilor și al celor mai populare postări, acum vom vorbi despre categorii. Categoria mesajului lor este determinată de autorii lor. Cum, de ce, de ce - depinde de subiect, de modă, de starea de spirit. in orice caz

Din cartea Primii pași cu Windows 7. Un ghid pentru începători autor Kolisnichenko Denis N.

1.11.7. Știri populare Evaluarea știrilor a serviciului Yandex este evidențiată ca un bloc separat printre alți indicatori. Știri. Acestea sunt știrile despre care se discută cel mai mult pe bloguri. Lista de știri populare este actualizată la fiecare 5-10 minute. Dacă urmați linkul de la

Din cartea Meet the Laptop autor Jukov Ivan

Trackere populare Există multe dispozitive de urmărire torrent în lume ale căror servicii le puteți utiliza. Următoarele sunt cele mai populare trackere.? http://lostfilm.tv este un tracker specializat în seriale TV. De regulă, lansările au dublare și calitate profesională

Din cartea Securitate IT: merită să riscați o corporație? de Linda McCarthy

10.2.1. Motoarele de căutare Internetul conține o cantitate imensă de informații. La urma urmei, oricine poate crea un site web pe Internet, astfel încât numărul de site-uri noi crește în fiecare zi. Motoarele de căutare sunt folosite pentru a căuta pe Internet

Din cartea autorului

Aplicații populare de internet ICQ (ICQ) ICQ este un serviciu centralizat de mesagerie instantanee. Utilizatorul serviciului (adică dumneavoastră) lucrează cu un program client (așa-numitul „messenger”). Mesajele sunt trimise instantaneu. Poti de asemenea

Din cartea autorului

Liste de corespondență populare Bugtraq Această listă discută despre vulnerabilități UNIX, cum pot fi exploatate și cum să le închideți. Scopul său nu este de a învăța cum să piratați sistemele, ci mai degrabă cum să descoperiți vulnerabilități, cum să partajați informații despre acestea, cum să

Motoare de căutare

Motoarele de căutare vă permit să găsiți documente WWW legate de subiecte date sau echipate cu cuvinte cheie sau combinații ale acestora. Există două metode de căutare utilizate pe serverele de căutare:

· Conform ierarhiei conceptelor;

· Prin cuvinte cheie.

Serverele de căutare sunt populate automat sau manual. Serverul de căutare are de obicei link-uri către alte servere de căutare și le trimite o cerere de căutare la cererea utilizatorului.

Există două tipuri de motoare de căutare.

1. Motoare de căutare „full-text” care indexează fiecare cuvânt de pe o pagină web, excluzând cuvintele oprite.

2. Motoarele de căutare „abstracte” care creează un rezumat al fiecărei pagini.

Pentru webmasteri, motoarele full-text sunt mai utile deoarece orice cuvânt găsit pe o pagină web este analizat pentru a determina relevanța acestuia pentru interogările utilizatorilor. Cu toate acestea, motoarele abstracte pot indexa paginile mai bine decât cele cu text integral. Aceasta depinde de algoritmul de extragere a informațiilor, de exemplu, de frecvența de utilizare a acelorași cuvinte.

Principalele caracteristici ale motoarelor de căutare.

1.Mărimea unui motor de căutare este determinată de numărul de pagini indexate. Cu toate acestea, în orice moment, linkurile furnizate ca răspuns la solicitările utilizatorilor pot avea vârste diferite. Motive pentru care se întâmplă acest lucru:

· unele motoare de căutare indexează imediat pagina la cererea utilizatorului, iar apoi continuă să indexeze paginile care nu au fost încă indexate.

· alții indexează adesea cele mai populare pagini web.

2.Data de indexare. Unele motoare de căutare arată data la care un document a fost indexat. Acest lucru ajută utilizatorul să determine când un document a apărut online.

3. Adâncimea de indexare arată câte pagini după cea specificată va indexa motorul de căutare. Majoritatea mașinilor nu au restricții privind adâncimea de indexare. Motive pentru care nu toate paginile pot fi indexate:

· utilizarea incorectă a structurilor de cadru.

· utilizarea unei hărți a site-ului fără a duplica link-uri obișnuite

4. Lucrul cu rame. Dacă un robot de căutare nu știe cum să lucreze cu structuri de cadre, atunci multe structuri cu cadre vor fi ratate în timpul indexării.

5. Frecvența legăturilor. Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este legat de acesta. Unele mașini, pe baza unor astfel de date, „conclud” dacă merită sau nu indexarea unui document.

6.Frecvența de actualizare a serverului. Dacă serverul este actualizat frecvent, motorul de căutare îl va reindexa mai des.

7. Controlul indexării. Arată ce instrumente puteți utiliza pentru a controla motorul de căutare.

8.Redirecționare. Unele site-uri redirecționează vizitatorii de la un server la altul, iar această opțiune arată cum va fi legată de documentele găsite.

9.Opriți cuvinte. Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Aceste cuvinte sunt de obicei considerate prepoziții sau cuvinte folosite frecvent.

10. Amenzi pentru spam. Abilitatea de a bloca spam-ul.

11.Ștergerea datelor vechi. Un parametru care determină acțiunile webmasterului la închiderea serverului sau mutarea acestuia la o altă adresă.

Exemple de motoare de căutare.

1. Altavista. Sistemul a fost deschis în decembrie 1995. Deținut de DEC. Din 1996 colaborează cu Yahoo. AltaVista este cea mai bună opțiune pentru căutare personalizată . Oricum, sortarea rezultatelor pe categorii Acest lucru nu se face și trebuie să revizuiți manual informațiile furnizate. AltaVista nu oferă niciun mijloc de a prelua liste de site-uri active, știri sau alte capabilități de căutare de conținut.

2.Excitați căutarea. Lansat la sfârșitul anului 1995. În septembrie 1996 - achiziționat de WebCrawler. Această unitate are o blană de căutare puternicăscăzut, posibilitate de setări individuale automateinformațiile furnizate, precum și calificările compilatedescrieri ale mai multor noduri de către personal calificat. Excita diferă de alte noduri de căutare prin aceea căvă permite să căutați servicii de știri și să publicați recenzii Pagini web. Motorul de căutare folosește instrumentecăutare standard de cuvinte cheie și euristicămetode de căutare a conținutului. Datorită acestei combinații,puteți găsi pagini relevante Web dacă nu conțin o cheie specificată de utilizator cuvinte Dezavantajul Excite este o interfață oarecum haotică.

3.HotBot. Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi. HotBot este o bază de date care conține documente indexate full-text și unul dintre cele mai cuprinzătoare motoare de căutare de pe Web. Capacitățile sale de căutare booleană și capacitatea sa de a limita căutările la orice zonă sau site web ajută utilizatorul să găsească informațiile de care are nevoie în timp ce filtrează informațiile de care nu au nevoie. HotBot oferă posibilitatea de a selecta parametrii de căutare doriti din listele derulante.

4.Căutare informații. Lansat înainte de 1995, ușor accesibil. În prezent, conține aproximativ 50 de milioane de adrese URL. Infoseek are o interfață bine concepută și facilități excelente de căutare. Majoritatea răspunsurilor la interogări sunt însoțite de link-uri „subiecte conexe”, iar fiecare răspuns este urmat de link-uri „pagini similare”. Baza de date a motorului de căutare a paginilor indexate după text integral. Răspunsurile sunt ordonate după doi indicatori: frecvența de apariție a cuvântului sau a frazelor pe pagină tsakh, precum și poziția cuvintelor sau expresiilor pe pagini. Există un Director Web, împărțit în 12 categorii cu sute de subcategorii care pot fi căutate. Fiecare pagină de catalog conține o listă de re noduri recomandate.

5. Lycos. Funcționează din mai 1994. Cunoscut și folosit pe scară largă. Include un director cu un număr mare de adrese URL. și motorul de căutare Point cu tehnologie pentru analiza statistică a conținutului paginii, spre deosebire de indexarea full-text. Lycos conține știri, recenzii de site-uri, link-uri către site-uri populare, hărți ale orașului și instrumente pentru găsirea adreselor, imaginilor expresii și clipuri audio și video. Lycos aranjează răspunsurile după gradul de corelaresatisfacerea unei cereri bazate pe mai multe criterii, de exemplu, numărullu termeni de căutare găsiți în rezumatul documentuluiment, interval întreîn cuvinte dintr-o anumită expresie a documentului, locațietermenii din document.

6. WebCrawler. Deschis pe 20 aprilie 1994 ca proiect al Universității din Washington. WebCrawler oferă oportunități sintaxă pentru specificarea interogărilor, precum și o selecție mare adnotări de noduri cu o interfață simplă.

După fiecare răspuns, WebCrawler va afișa o pictogramă mică cu o evaluare aproximativă a faptului că cererea a fost potrivită. Comee afișează, de asemenea, o pagină cu un scurt rezumat pentru fiecare răspuns, adresa URL completă, un scor de potrivire exactă și, de asemenea, utilizează acest răspuns în interogarea exemplu ca cuvinte cheie.Interfață grafică pentru configurarea interogărilor în Nu există web crawler. N nu este permisutilizarea simbolurilor universale este de asemenea imposibilăatribuiți ponderi cuvintelor cheie.Nu există nicio modalitate de a limita câmpul de căutareo anumită zonă.

7. Yahoo. Cel mai vechi director al Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat catalogul Yahooligans pentru copii. Apar directoarele regionale și de top Yahoo. Yahoo se bazează pe abonamentele utilizatorilor. Poate servi drept punct de plecare pentru orice căutare pe Web, deoarece sistemul său de clasificare va ajuta utilizatorul să găsească un site cu informații bine organizate. Conținutul web este împărțit în 14 categorii generale, listate pe pagina de start a Yahoo! În funcție de specificul interogării utilizatorului, este posibil fie să lucrați cu aceste categorii pentru a explora subcategorii și liste de noduri, fie să căutați anumite cuvinte și termeni în baza de date. De asemenea, utilizatorul poate limita căutarea în orice secțiune sau subsecțiune a Yahoo!. Datorită faptului că clasificarea nodurilor este efectuată de oameni, și nu pe computer, calitatea linkurilor este de obicei foarte ridicată. Cu toate acestea, rafinarea căutării în caz de eșec este o sarcină dificilă. Alăturați-vă Yahoo ! motor de căutare inclus AltaVista, deci dacă căutați pe Yahoo! se întâmplă automat repetare folosind un motor de căutare AltaVista . Rezultatele sunt apoi trimise la Yahoo!. Yahoo! oferă posibilitatea de a trimite interogări de căutare către Usenet și Fourl 1 pentru a afla adrese de e-mail.

Motoarele de căutare rusești includ:

1. Rambler Acesta este un motor de căutare în limba rusă. Secțiunile enumerate pe pagina de pornire Rambler acoperă resurse web în limba rusă. Există un clasificator de informații. O caracteristică convenabilă este de a oferi o listă cu cele mai vizitate noduri pentru fiecare tema propusă.

2. Căutare Aport. Aport se clasează printre cele mai importante motoare de căutare certificate Microsoft precum motoarele de căutare localesisteme pentru versiunea rusă Microsoft Internet Explorer. Unul dintre avantajele Aport este traducerea engleză-rusă și rusă-engleză a interogărilor online și a rezultatelor căutărilor, datorită cărora puteți căuta în resursele de internet ruse. , chiar și fără să cunoască limba rusă. în plus poti cauta informatii ment folosind expresii, chiar și pentru propoziții.Printre principalele proprietăți ale sistemului de căutare Aport putețiîmpărțiți următoarele:

Traducerea interogării și a rezultatelor căutării din rusă în englezălimba chineză și invers;

Verificați automat greșelile de ortografie din cererea dvs.;

Afișare informativă a rezultatelor căutării pentru site-urile găsite;

Abilitatea de a căuta în orice formă gramaticală;

limbaj avansat de interogare pentru profesioniști utilizatorii de numerar.

Alte proprietăți de căutare includ:suport pentru cinci pagini de cod principale (operare diferităsisteme) pentru limba rusă, folosind tehnologia de căutarenu există restricții cu privire la URL și data documentelor, implementarea căutăriiprin titluri, comentarii și semnăturila imagini etc., salvarea parametrilor de căutare și definirea numărul de solicitări anterioare ale utilizatorilor, fuzionarea copii ale documentului aflate pe diferite servere.

3.Lista. ru ( http://www.list.ru) În implementarea sa, acest server are multecomun cu sistemul în limba engleză Yahoo!. Pe pagina principală a serverului există link-uri către cele mai populare categorii de căutare.

O listă de link-uri către principalele categorii ale catalogului ocupă partea centrală. Căutarea în catalog este implementată în așa fel încât rezultatul unei interogări să poată fi găsit atât pe site-uri individuale, cât și pe categorii. Dacă căutarea are succes, sunt afișate adresa URL, titlul, descrierea și cuvintele cheie. Utilizare acceptabilă Limbajul de interogare Yandex. CUlinkul „Structurăcatalog" deschide întreaga categorie de kata într-o fereastră separatăButuruga. A fost implementată capacitatea de a trece de la rubricator la orice subcategorie selectată. Diviziune tematică mai detaliatăsecțiunea curentă este reprezentată de o listă de legături. Catalogul este organizat astfel astfel încât toate site-urile cuprinse la nivelurile inferioare ale structurilortururile sunt, de asemenea, prezentate în secțiuni.Lista de resurse afișată este aranjată alfabetic, dar puteți alege să sortați după: după timp adaugă meniu, prin tranziție, prin ordinea adaugarii in catalog, conformpopularitate în rândul vizitatorilor catalogului.

4. Yandex. Produsele software din seria Yandex reprezintă un set de instrumente pentru indexarea textului integral și căutarea datelor text, ținând cont de morfologia limbii ruse. Yandex include module pentru analiza morfologică și sinteza, indexare și căutare, precum și un set de module auxiliare, cum ar fi un analizor de documente, limbaje de marcare, convertoare de format și un spider.

Algoritmii de analiză morfologică și de sinteză bazați pe dicționarul de bază sunt capabili să normalizeze cuvintele, adică să găsească forma lor inițială și, de asemenea, să construiască ipoteze pentru cuvintele care nu sunt conținute în dicționarul de bază. Sistemul de indexare full-text vă permite să creați un index compact și să căutați rapid folosind operatori logici.

Yandex este proiectat să funcționeze cu texte în rețelele locale și globale și poate fi, de asemenea, conectat ca modul la alte sisteme.

Introducere…………………………………………………………………………………………….2

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Alcătuirea motoarelor de căutare………………………………………………………3

1.2 Caracteristicile motoarelor de căutare……………………………………………………..4

1.3 Principiile motoarelor de căutare……………………………………..4

2 Privire de ansamblu asupra funcționării motoarelor de căutare

2.1 Motoare de căutare străine: compoziție și principii de funcționare…………12

2.2 Motoare de căutare în limba rusă: compoziție și principii de funcționare….…..14

Concluzie………………………………………………………………………..……………16

Lista referințelor……………………………..………….17

Introducere

Motoarele de căutare au devenit de multă vreme parte integrantă a internetului rusesc Datorită faptului că, deși prin diferite mijloace, oferă în mod independent toate etapele procesării informațiilor de la primirea acesteia de la nodurile sursei primare până la furnizarea utilizatorului de abilitatea de a căuta. sunt adesea numite motoare de căutare autonome sisteme .

Motoarele de căutare sunt acum mecanisme uriașe și complexe care reprezintă nu doar un instrument de căutare a informațiilor, ci și zone tentante pentru afaceri. Aceste sisteme pot diferi prin principiul selecției informațiilor, care este prezent într-o măsură sau alta în algoritmul indexului automat. programul de scanare, precum și în regulile de conduită pentru angajații din catalog responsabili de înregistrare. De obicei, sunt comparați doi indicatori principali:

Scara spațială la care funcționează IPS este

Și specializarea ei.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit la asta, dar nu au găsit un răspuns) la principiul de funcționare a motoarelor de căutare, la schema de procesare a cererilor utilizatorilor, în ce constau aceste sisteme și cum funcționează. Motoarele de căutare pot fi comparate cu un birou de asistență, ai cărui agenți parcurg întreprinderile, colectând informații într-o bază de date. Când contactați serviciul, informațiile sunt preluate din această bază de date. Datele din baza de date devin depășite, așa că agenții le actualizează periodic. Unele întreprinderi trimit informații despre ele însele, iar agenții nu trebuie să vină la ei. Cu alte cuvinte, help desk-ul are doua functii: crearea si actualizarea constanta a datelor in baza de date si cautarea informatiilor in baza de date la cererea clientului.

1 Motoare de căutare: compoziție, funcții, principiu de funcționare

1.1 Compoziția motoarelor de căutare

Un sistem de căutare este un complex software și hardware conceput să caute pe internet și să răspundă la o solicitare a utilizatorului, specificată sub forma unei fraze text (interogare de căutare), prin producerea unei liste de legături către surse de informații, în ordinea relevanței ( conform cererii). Cele mai mari motoare de căutare internaționale: Google, Yahoo, MSN. Pe internetul rusesc, acestea sunt Yandex, Rambler, Aport.

În mod similar, un motor de căutare este format din două părți: așa-numitul robot (sau păianjen), care accesează cu crawlere serverele Web și creează o bază de date a motorului de căutare.

Baza robotului este formată în principal de el însuși (robotul însuși găsește link-uri către resurse noi) și, într-o măsură mult mai mică, de proprietarii de resurse care își înregistrează site-urile într-un motor de căutare. Pe lângă robotul (agent de rețea, păianjen, vierme) care formează baza de date, există un program care determină ratingul link-urilor găsite.

Principiul de funcționare al unui motor de căutare este că acesta interogează catalogul său intern (baza de date) pentru cuvintele cheie pe care utilizatorul le specifică în câmpul de interogare și produce o listă de link-uri clasate după relevanță.

Trebuie remarcat faptul că, atunci când procesează o anumită cerere de utilizator, motorul de căutare operează tocmai pe resurse interne (și nu pornește într-o călătorie prin Web, așa cum cred adesea utilizatorii neexperimentați), iar resursele interne sunt, firesc, limitate. În ciuda faptului că baza de date a motorului de căutare este actualizată constant, motorul de căutare nu poate indexa toate documentele Web: numărul lor este prea mare. Prin urmare, există întotdeauna posibilitatea ca resursa pe care o căutați să fie pur și simplu necunoscută unui anumit motor de căutare.

1.2 Caracteristicile motoarelor de căutare

În lucrare, procesul de căutare este prezentat în patru etape: formularea (are loc înainte de începerea căutării); acțiune (începerea căutării); prezentare generală a rezultatelor (rezultatul pe care îl vede utilizatorul după căutare); și rafinament (după revizuirea rezultatelor și înainte de a reveni la căutare cu o formulare diferită a aceleiași nevoi). O schemă neliniară de căutare a informațiilor mai convenabilă constă din următoarele etape:

Fixarea nevoilor de informații în limbaj natural;

Selectarea serviciilor de căutare în rețea necesare și formalizarea precisă a nevoilor de înregistrare a informațiilor în limbi specifice de regăsire a informațiilor (IRL);

Executarea interogărilor create;

Preprocesarea și selectarea listelor primite de link-uri către documente;

Contactarea adreselor selectate pentru documentele solicitate;

Previzualizează conținutul documentelor găsite;

Salvarea documentelor relevante pentru studiu ulterior;

Extragerea de link-uri din documentele relevante pentru a extinde interogarea;

Studierea întregii game de documente salvate;

Dacă nevoia de informații nu este pe deplin satisfăcută, reveniți la prima etapă.

1.3 Cum funcționează motoarele de căutare

Scopul oricărui motor de căutare este de a oferi oamenilor informațiile pe care le caută. Învățați oamenii să facă cererile „corecte”, de ex. interogările care respectă principiile de funcționare ale motoarelor de căutare sunt imposibile. Prin urmare, dezvoltatorii creează algoritmi și principii de funcționare pentru motoarele de căutare care ar permite utilizatorilor să găsească exact informațiile pe care le caută. Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații.

Majoritatea motoarelor de căutare funcționează pe principiul pre-indexării. Baza de date a majorității motoarelor de căutare funcționează pe același principiu.

Există un alt principiu de construcție. Căutare directă. Constă în întoarcerea cărții pagină cu pagină în căutarea unui cuvânt cheie. Desigur, această metodă este mult mai puțin eficientă.

În versiunea cu index inversat, motoarele de căutare se confruntă cu problema dimensiunii fișierului. De regulă, ele sunt semnificativ mari. Această problemă este de obicei rezolvată în două moduri. Primul este că tot ce nu este necesar este eliminat din fișiere și rămâne doar ceea ce este cu adevărat necesar pentru căutare. A doua metodă este că pentru fiecare poziție nu se reține o adresă absolută, ci una relativă, adică abordează diferența dintre pozițiile actuale și anterioare.

Astfel, cele două procese principale efectuate de motorul de căutare sunt indexarea site-urilor, a paginilor și căutarea. În general, procesul de indexare nu cauzează probleme motoarelor de căutare. Problema este procesarea unui milion de cereri pe zi. Acest lucru se datorează unor volume mari de informații care sunt procesate de sisteme informatice mari. Principalul factor care determină numărul de servere care participă la căutare este sarcina de căutare. Aceasta explică unele dintre ciudateniile care apar atunci când căutați informații.

Motoarele de căutare constau din cinci componente software separate:

păianjen: un program asemănător unui browser care descarcă pagini web.

tractor pe şenile: un păianjen „călător” care urmărește automat toate linkurile găsite pe o pagină.

indexator: un program „orb” care analizează paginile web descărcate de păianjeni.

baza de date: stocarea paginilor descărcate și procesate.

motorul de căutare a rezultatelor (sistemul de livrare a rezultatelor): preia rezultatele căutării din baza de date.

Păianjen: Un păianjen este un program care descarcă pagini web. Funcționează la fel ca browserul dvs. atunci când vă conectați la un site web și încărcați o pagină. Păianjenul nu are componente vizuale. Puteți observa aceeași acțiune (descărcare) atunci când vizualizați o anumită pagină și când selectați „vezi codul HTML” în browser.

Tractor pe şenile: Așa cum un păianjen descarcă pagini, poate dezlipi pagina și poate găsi toate linkurile. Este treaba lui să determine unde ar trebui să meargă păianjenul, pe baza link-urilor sau pe baza unei liste predeterminate de adrese.

Indexator: Indexatorul analizează pagina în diferitele sale părți și le analizează. Elemente precum titlurile paginilor, titlurile, linkurile, textul, elementele structurale, elementele BOLD, elementele ITALIC și alte părți de stil ale paginii sunt izolate și analizate.

Bază de date: Baza de date este depozitul tuturor datelor pe care motorul de căutare le descarcă și le analizează. Acest lucru necesită adesea resurse enorme.

Căutare Motor Rezultate: Sistemul de rezultate este responsabil pentru clasarea paginilor. Acesta decide ce pagini satisfac cererea utilizatorului și în ce ordine ar trebui să fie sortate. Acest lucru se întâmplă conform algoritmilor de clasare a motoarelor de căutare. Aceste informații sunt cele mai valoroase și interesante pentru noi - tocmai cu această componentă a motorului de căutare interacționează optimizatorul, încercând să îmbunătățească poziția site-ului în rezultatele căutării, așa că în viitor vom lua în considerare în detaliu toți factorii care influențează clasamentul rezultatelor.

Indexul de căutare funcționează în trei etape, dintre care primele două sunt pregătitoare și invizibile pentru utilizator. În primul rând, indexul de căutare colectează informații de la Lume Lat Web . Pentru a face acest lucru, utilizați programe speciale, similare cu browserele. Ei sunt capabili să copieze o anumită pagină Web pe un server de index de căutare, să o vizualizeze, să găsească toate hyperlinkurile care au acele resurse găsite acolo, să caute din nou hyperlinkurile pe care le conțin etc. Astfel de programe sunt numite viermi, paianjeni, omizi, crawler, paianjeniși alte nume similare. Fiecare index de căutare folosește în acest scop propriul program unic, pe care adesea îl dezvoltă singur. Multe motoare de căutare moderne s-au născut din proiecte experimentale legate de dezvoltarea și implementarea programelor automate care monitorizează Rețeaua. Teoretic, cu o intrare reușită păianjen este capabil să pieptene întregul spațiu Web într-o singură scufundare, dar acest lucru necesită mult timp și încă trebuie să se întoarcă periodic la resursele vizitate anterior pentru a monitoriza schimbările care au loc acolo și a identifica legăturile „moarte”, adică acelea care și-au pierdut relevanța.

Una dintre principalele modalități de a găsi informații pe Internet este prin intermediul motoarelor de căutare. Motoarele de căutare accesează Internetul în fiecare zi: vizitează pagini web și le introduc în baze de date uriașe. Acest lucru permite utilizatorului să introducă unele cuvinte cheie, să apese pe trimitere și să vadă ce pagini se potrivesc cu interogarea sa.

Înțelegerea modului în care funcționează motoarele de căutare este esențială pentru webmasteri. Pentru ei este vitală structura corectă a documentelor și a întregului server sau site web din punctul de vedere al motoarelor de căutare. Fără aceasta, documentele nu vor apărea suficient de des ca răspuns la solicitările utilizatorilor către motorul de căutare sau s-ar putea să nu fie deloc indexate.

Webmasterii doresc să crească clasamentul paginilor lor, iar acest lucru este de înțeles: la urma urmei, orice solicitare către un motor de căutare poate produce sute și mii de link-uri corespunzătoare către documente. În cele mai multe cazuri, doar primele 10 link-uri sunt suficient de relevante pentru interogare.

Bineînțeles, doriți ca documentul să fie în top zece, deoarece majoritatea utilizatorilor rareori văd linkurile care urmează pe primele zece. Cu alte cuvinte, dacă linkul către document este al unsprezecelea, atunci este la fel de rău ca și cum nu ar exista deloc.

Principalele motoare de căutare

Care dintre sutele de motoare de căutare sunt cu adevărat importante pentru un webmaster? Ei bine, bineînțeles, larg cunoscut și des folosit. Dar, în același timp, ar trebui să țineți cont de publicul pentru care este proiectat serverul dvs. De exemplu, dacă serverul dvs. conține informații foarte specializate despre cele mai recente metode de muls vacile, atunci este puțin probabil să vă bazați pe motoarele de căutare de uz general. În acest caz, vă sfătuiesc să faceți schimb de legături cu colegii dvs. care se confruntă cu probleme similare :) Deci, mai întâi, să definim terminologia.

Există două tipuri de baze de date cu informații despre paginile web: motoarele de căutare și directoarele.

Motoarele de căutare: (păianjeni, crawler-uri) explorează în mod constant Internetul pentru a-și umple bazele de date de documente. De obicei, acest lucru nu necesită niciun efort din partea persoanei. Un exemplu ar fi motorul de căutare Altavista.

Designul fiecărui document este destul de important pentru motoarele de căutare. Titlul, metaetichetele și conținutul paginii sunt de mare importanță.

Cataloage: spre deosebire de motoarele de căutare, informațiile sunt introduse într-un catalog la inițiativa unei persoane. Pagina adăugată trebuie să fie strict legată de categoriile acceptate în catalog. Un exemplu de director este Yahoo. Designul paginilor nu contează. Mai jos vom vorbi în principal despre motoarele de căutare.

Altavista

Sistemul a fost deschis în decembrie 1995. Deținut de DEC. Din 1996 colaborează cu Yahoo.

Emotionează căutarea

Lansat la sfârșitul anului 1995, sistemul s-a dezvoltat rapid. În iulie 1996, Magellan a fost achiziționat, în septembrie 1996, WebCrawler a fost achiziționat. Cu toate acestea, ambele îl folosesc separat unul de celălalt. Poate că în viitor vor lucra împreună.

Există, de asemenea, un director în acest sistem - Excite Reviews. Intrarea în acest director este noroc, deoarece nu toate site-urile sunt incluse acolo. Cu toate acestea, informațiile din acest director nu sunt folosite de motorul de căutare în mod implicit, dar este posibil să le verifici după vizualizarea rezultatelor căutării.

HotBot

Lansat în mai 1996. Deținut de Wired. Bazat pe tehnologia motorului de căutare Berkeley Inktomi.

Căutare informații

Lansat puțin mai devreme de 1995, este cunoscut pe scară largă, foarte ușor de căutat și ușor accesibil. În prezent, „Ultrasmart/Ultraseek” conține aproximativ 50 de milioane de adrese URL.

Opțiunea de căutare implicită este Ultrasmart. În acest caz, căutarea se efectuează în ambele directoare. Cu opțiunea Ultraseek, rezultatele interogării sunt returnate fără informații suplimentare. Tehnologia de căutare cu adevărat nouă permite, de asemenea, căutări mai ușoare și multe alte caracteristici pe care le puteți citi despre InfoSeek. Există un director separat de motorul de căutare: InfoSeek Select.

Lycos

Unul dintre cele mai vechi motoare de căutare, Lycos, funcționează din aproximativ mai 1994. Cunoscut și des folosit. Include motorul de căutare Point (funcționează din 1995) și catalogul A2Z (funcționează din februarie 1996).

OpenText

Sistemul OpenText a apărut puțin mai devreme de 1995. Din iunie 1996, a început să colaboreze cu Yahoo. Isi pierde treptat pozitia si in curand va inceta sa fie printre principalele motoare de cautare.

WebCrawler

Deschis pe 20 aprilie 1994 ca proiect de cercetare la Universitatea din Washington. În martie 1995, a fost achiziționat de America Online. Există un director WebCrawler Select.

Yahoo

Cel mai vechi director al Yahoo a fost lansat la începutul anului 1994. Cunoscut pe scară largă, folosit frecvent și cel mai respectat. În martie 1996, a fost lansat un alt catalog Yahoo - Yahooligans pentru copii. Apar tot mai multe directoare regionale și de top Yahoo.

Deoarece Yahoo se bazează pe abonament, este posibil ca unele site-uri să nu fie incluse. Dacă o căutare Yahoo nu produce rezultate adecvate, utilizatorii pot folosi motorul de căutare. Acest lucru se face foarte simplu. Când se face o interogare către Yahoo, directorul o trimite către oricare dintre principalele motoare de căutare. Primele linkuri din lista de adrese care satisfac cererea sunt adresele din director, iar apoi sunt adresele primite de la motoarele de cautare, in special de la Altavista.

Caracteristicile motoarelor de căutare

Fiecare motor de căutare are o serie de caracteristici. Aceste caracteristici ar trebui să fie luate în considerare atunci când vă creați paginile.

Tipul de motor de căutare

Motoarele de căutare „text complet” indexează fiecare cuvânt de pe o pagină web, excluzând doar câteva cuvinte oprite. Motoarele de căutare „abstracte” creează un fel de extras din fiecare pagină.

Pentru webmasteri, motoarele full-text sunt mai utile deoarece orice cuvânt găsit pe o pagină web este analizat pentru a determina relevanța acestuia pentru interogările utilizatorilor. Cu toate acestea, pentru motoarele de căutare abstracte se poate întâmpla ca paginile să fie indexate mai bine decât pentru cele cu text integral. Acest lucru poate proveni din algoritmul de extracție, de exemplu, prin frecvența acelorași cuvinte care sunt folosite pe pagină.

mărimea

Dimensiunea unui motor de căutare este determinată de numărul de pagini indexate. De exemplu, un motor de căutare de dimensiuni mari poate indexa aproape toate paginile dvs., un motor de căutare de dimensiune medie poate indexa doar parțial serverul dvs. și un motor de căutare de dimensiuni reduse poate să nu includă paginile dvs. în directoarele motoarelor de căutare.

Perioada de actualizare

Unele motoare de căutare indexează imediat pagina în funcție de solicitarea utilizatorului și apoi continuă să indexeze paginile care nu au fost încă indexate
alții au mai multe șanse să „crawleze” cele mai populare pagini web decât alții

Data indexului documentului

Unele motoare de căutare arată data la care un anumit document a fost indexat. Acest lucru ajută utilizatorul să înțeleagă cât de „proaspăt” este returnat linkul de către motorul de căutare. Alții lasă utilizatorii să ghicească despre asta.

Pagini trimise

În mod ideal, motoarele de căutare ar trebui să găsească orice pagină pe orice server ca urmare a următoarelor link-uri. Imaginea reală arată diferit. Paginile server apar în indexurile motoarelor de căutare mult mai devreme dacă sunt specificate direct (Adăugați URL).

Pagini netrimise

Dacă este specificată cel puțin o pagină de server, atunci motoarele de căutare vor găsi cu siguranță următoarele pagini folosind link-urile de la cea specificată. Cu toate acestea, acest lucru necesită mai mult timp. Unele mașini indexează imediat întregul server, dar cele mai multe totuși, după înregistrarea paginii specificate în index, părăsesc indexarea serverului pentru viitor.

Adâncimea de indexare

Această setare se aplică numai paginilor nespecificate. Arată câte pagini după cea specificată va indexa motorul de căutare.

Majoritatea mașinilor mari nu au restricții privind adâncimea de indexare. În practică, acest lucru nu este în întregime adevărat. Iată câteva motive pentru care nu toate paginile pot fi indexate:

utilizarea nu foarte atentă a structurilor de cadre (fără a duplica legăturile în fișierul de control (setul de cadre))
folosind hărți imagine fără a le duplica cu link-uri obișnuite

Suport cadru

Dacă un robot de căutare nu știe cum să lucreze cu structuri de cadre, atunci multe structuri cu cadre vor fi ratate în timpul indexării.

Suport ImageMap

Aceasta este aproximativ aceeași problemă ca și cu structurile de cadre ale serverului.

Directoare și servere protejate cu parolă

Unele motoare de căutare pot indexa astfel de servere dacă le furnizați numele de utilizator și parola. De ce este necesar acest lucru? Pentru ca utilizatorii să poată vedea ce este pe serverul tău. Acest lucru vă permite să știți cel puțin că există astfel de informații și poate că apoi se vor abona la informațiile dvs.

Frecvența legăturii

Motoarele de căutare majore pot determina popularitatea unui document în funcție de cât de des este legat de acesta din alte locuri de pe Web. Unele mașini, pe baza unor astfel de date, „conclud” dacă merită sau nu să aloce timp indexării unui astfel de document.

Abilitate de învățare

Dacă serverul este actualizat frecvent, motorul de căutare îl va reindexa mai des dacă este actualizat rar, va fi reindexat mai rar;

Controlul indexării

Arată ce instrumente pot fi folosite pentru a gestiona un anumit motor de căutare. Toate motoarele de căutare majore urmează instrucțiunile fișierului robots.txt. Unele acceptă, de asemenea, controlul folosind etichetele META din documentele indexate în sine.

Redirecţiona

Unele site-uri redirecționează vizitatorii de la un server la altul, iar acest parametru indică ce adresă URL va fi asociată documentelor dvs. Acest lucru este important deoarece, dacă motorul de căutare nu se ocupă de redirecționare, pot apărea probleme cu fișierele inexistente.

Cuvinte sigure

Unele motoare de căutare nu includ anumite cuvinte în indexurile lor sau pot să nu includă acele cuvinte în interogările utilizatorilor. Aceste cuvinte sunt de obicei considerate prepoziții sau pur și simplu cuvinte foarte frecvent utilizate. Dar nu sunt incluse pentru a economisi spațiu pe media. De exemplu, Altavista ignoră cuvântul web și pentru interogări precum dezvoltator web, linkurile vor fi returnate doar pentru al doilea cuvânt. Există modalități de a evita acest lucru.

Impact asupra algoritmului de determinare a relevanței

Motoarele de căutare folosesc în mod necesar locația și frecvența de repetare a cuvintelor cheie într-un document. Cu toate acestea, mecanismele suplimentare pentru creșterea gradului de relevanță sunt diferite pentru fiecare mașină. Acest parametru arată exact ce mecanisme există pentru o anumită mașină.

Amenzi pentru spam

Nu le place tuturor motoarelor de căutare majore când un site încearcă să-și mărească clasamentul, de exemplu, indicându-se de mai multe ori prin Add URL sau menționând același cuvânt cheie de mai multe ori etc. În majoritatea cazurilor, astfel de acțiuni (spam, stivuire) sunt pedepsit, iar ratingul site-ului, dimpotrivă, scade.

Lucrare de laborator nr 10.

Căutarea de informații pe Internet

Scopul lucrării

Familiarizați-vă cu principalele motoare de căutare de pe Internet. Stăpânește abilitățile de lucru în motoarele de căutare. Învață să alegi motorul de căutare optim, ținând cont de specificul sarcinilor.

Dispozitive și materiale

Pentru a efectua lucrări de laborator, aveți nevoie de un computer personal care rulează sistemul de operare WINDOWS. Internet Explorer trebuie instalat.

Motoare de căutare moderne

Internetul este un depozit gigantic de informații. Multe pagini, valoroase și nu atât de valoroase, există fără nicio ordine și sunt interconectate doar prin link-uri aleatorii, în funcție de calificările și preferințele personale ale autorilor site-ului. Cu toate acestea, utilizatorul trebuie să navigheze în această diversitate și să găsească, de preferință în câteva minute, informațiile necesare.

Există un număr mare de motoare de căutare pe Internet. Potrivit celor mai conservatoare estimări, sunt peste opt mii dintre ele, inclusiv clasice motoare de căutare, directoare generale și specializate, și site-uri web metasearch(care trimit cereri către mai multe servere de căutare simultan). În plus, există o serie de instrumente de căutare alternative pe care le puteți găsi utile, inclusiv utilitare care, lucrând împreună cu browserul, extrag informații de pe Web, și așa-numitul "noduri experte", unde oameni reali lucrează cu solicitările dvs. În prezent sunt dezvoltate sisteme inteligente de căutare. Un exemplu de astfel de sistem este, de exemplu, un sistem inteligent de căutare Nigma(www.nigma.ru).

Motoare de căutare și directoare

Cu toată abundența de metode de căutare pe Internet, cele mai comune mijloace de a găsi informații sunt încă motoarele de căutare și cataloagele. Fiecare dintre aceste instrumente are anumite avantaje, iar principala diferență dintre ele este participarea/neparticiparea umană.

Motoare de căutare este un set de programe speciale pentru căutarea pe Internet.

Principalele părți ale pachetului software:

1. Păianjen robot(păianjen). Un program autonom care iterează prin paginile site-urilor aflate în coadă pentru indexare. Acesta descarcă conținutul paginilor căutate pe discul serverului de căutare.

2. Robot crawler păianjen („călător”). Sarcina sa este de a colecta toate linkurile de pe pagina examinată, de a găsi unele noi dintre ele necunoscute motorului de căutare și de a le adăuga la lista celor care așteaptă indexarea.

3. Indexator. Procesează paginile din coadă pentru indexare. Pentru a face acest lucru, el alcătuiește un „dicționar” al paginii și își amintește „frecvența” cuvintelor folosite. Se notează în special cuvintele cheie folosite în titluri, evidențiate cu caractere aldine în text. Plasează toate acestea într-un fișier special - „index”.

5. Sistem pentru procesarea cererilor și livrarea rezultatelor. Acceptă cererea utilizatorului, generează o interogare la baza de date, primește rezultatul de acolo și îl transmite utilizatorului.

Motoare de căutare lansează „păianjeni” software pe Web care călătoresc de la o pagină la alta și indexează textul integral al fiecărei pagini.

Aproape toate motoarele de căutare au aceeași formă de interogare și aproximativ același format pentru livrarea rezultatelor (vezi secțiunea „Aspectul paginilor de căutare”), dar munca motoarele de căutare diferă semnificativ. În primul rând, relevanța (gradul în care rezultatele căutării corespund solicitării utilizatorului), în al doilea rând, dimensiunea și frecvența actualizărilor bazei de date și, în al treilea rând, viteza de emitere a rezultatelor. Și, desigur, motoarele de căutare diferă prin ușurința lor de utilizare.

Astăzi, motoarele de căutare sunt cele mai populare pagini web pe care utilizatorii petrec mult timp. Prin urmare, atunci când alegeți un motor de căutare, serviciile conexe (mail, știri, platforme de tranzacționare etc.) devin din ce în ce mai importante.

Cataloagele- un mijloc tradiţional de organizare a informaţiei. Probabil că toți am întâlnit cataloage de bibliotecă și cataloage de produse. Directoarele sunt utilizate într-o varietate de sisteme. Aproape oriunde trebuie să stocați și să organizați informații.

Una dintre principalele provocări cu care se confruntă compilatorii de catalog este crearea de categorii naturale și intuitive pentru utilizatorul obișnuit. Din păcate, această problemă poate fi rezolvată doar cu un grad sau altul de aproximare. Lumea este continuă, nu există granițe stricte în ea. Unul și același site poate fi vizualizat din unghiuri diferite și poate vedea diferitele sale funcții. Directoarele sunt create de editori umani care citesc pagini, le elimina pe cele neadecvate și clasifică nodurile după subiect.

Dezavantajele cataloagelor includ următoarele.

În primul rând, ambiguitatea structurii este un dezavantaj clar al organizării catalogului a informațiilor (deși este oarecum atenuată de faptul că fiecare catalog major are o căutare în catalog).

În al doilea rând, cataloagele sunt făcute de oameni. Completitudinea și calitatea acestora depind de numărul și calificările persoanelor care lucrează în catalog, de gusturile și preferințele lor personale. Neuniformitatea conținutului titlurilor este o trăsătură caracteristică tuturor cataloagelor.

În al treilea rând, laboriozitatea categorizării manuale limitează volumul de informații catalogate.

În același timp, avantajul incontestabil al cataloagelor este că informațiile din ele sunt stocate într-o manieră ordonată, în conformitate cu logica umană elementară și relevanţă Numărul de pagini găsite la căutarea într-un catalog este de obicei cu un ordin de mărime mai mare decât la căutarea cu motoarele de căutare.

După cum am menționat mai sus, deoarece directoarele sunt create manual, acestea acoperă mult mai puține resurse decât motoarele de căutare. În prezent, conform estimărilor conservatoare, există un miliard de pagini pe Web (și numărul acestora crește cu un milion în fiecare zi). Majoritatea motoarelor de căutare nu s-au apropiat nicăieri de a indexa întregul Web. Excepție este Google (pentru Rusia www.google.ru), care susține exact această cifră - un miliard de pagini, parțial sau integral acoperite de indexurile săi. Cel mai mare catalog - Open Directory Project (www.dmoz.org) - pare mic pe acest fundal: doar aproximativ 2 milioane de pagini sunt enumerate în el.

În 1994, când a început creșterea rapidă a World Wide Web, alegerea instrumentelor de căutare pe Web a fost foarte limitată: Yahoo (www.yahoo.com). Serverul rămâne o piatră de temelie a explorării Web până în prezent, dar ca director se confruntă acum cu o concurență acerbă din partea Proiectului Open Directory.

Multe directoare sunt destul de utile, dar luând în considerare toate lucrurile, proiectul Open Directory este alegerea preferată. Proiectul Open Directory, inițiat de Netscape, este condus de peste 24.000 de editori voluntari din întreaga lume, care au indexat aproape 2 milioane de noduri și le-au clasificat în peste 200.000 de categorii. Orice server de căutare poate licenția Open Directory Project și poate utiliza baza de date a acestuia atunci când procesează interogări, iar mulți o fac: AltaVista (www.altavista.com), HotBot (www.hotbot.com), Lycos (www.lycos.co. uk) și aproximativ o sută de alte servere se scufundă acolo pentru legături.

Ne-am aștepta ca, deoarece Proiectul Open Directory este un director condus de voluntari, calitatea rezultatelor să fluctueze. Dar rezultatul sunt liste bine organizate de pagini conexe, cu descrieri clare ale fiecărui link. Iar site-ul Open Directory Project are aceeași senzație ca Google: este „căutare pură” fără distrageri, cum ar fi link-uri către magazine.

Indiferent de directorul pe care îl alegeți, toate au un avantaj față de motoarele de căutare: pot fi navigate sistematic folosind un sistem de meniu ierarhic.