Tipuri de sisteme de regăsire a informațiilor. Mare enciclopedie a petrolului și gazelor

5. Căutare pe internet. Cataloagele. Sisteme de recuperare a informațiilor. Motoarele de căutare pe internet.

IRS (sistem de recuperare a informațiilor) este un sistem care asigură căutarea și selecția datelor necesare într-o bază de date specială cu descrieri ale surselor de informații (index) pe baza regăsirea informațiilor limba și regulile de căutare corespunzătoare.

Sarcina principală a oricărui sistem informațional este de a căuta informații relevante pentru nevoile de informații ale utilizatorului. Este foarte important să nu pierdeți nimic în urma căutării, adică să găsiți toate documentele legate de cerere și să nu găsiți nimic de prisos. Prin urmare, se introduce o caracteristică calitativă a procedurii de căutare - relevanța.

Relevanța este corespondența rezultatelor căutării cu interogarea formulată. În continuare, vom lua în considerare în principal IRS pentru World Wide Web (WWW).

Principalii indicatori ai IPS pentru WWW sunt scara spațială și specializarea.

După scară spațială IPS poate fi împărțit în local, global,

regionale şi specializate. Motoarele de căutare locale pot fi proiectate pentru a găsi rapid pagini pe server.

IRS regionale descriu resursele de informații ale unei anumite regiuni, de exemplu, paginile în limba rusă de pe Internet. Motoarele de căutare globale, spre deosebire de cele locale, se străduiesc să îmbrățișeze imensitatea - să descrie cât mai complet posibil resursele întregului spațiu informațional al Internetului.

În plus, sistemele de regăsire a informațiilor se pot specializa și în căutarea diverselor surse de informații, de exemplu, documente WWW, fișiere, adrese etc.

Să aruncăm o privire mai atentă la principalele sarcini pe care dezvoltatorii IPS trebuie să le rezolve. După cum rezultă din definiție, Sistemele de recuperare pe Internet pentru WWW efectuează o căutare în propria lor bază de date (index) cu

descrierea surselor de informații distribuite.

Prin urmare, trebuie mai întâi să descriem resursele de informații și să creăm un index. Construirea unui index începe cu identificarea unui set inițial de adrese URL pentru sursele de informații. Apoi se efectuează procedura de indexare.

Indexare – descrierea surselor de informații și construirea unei baze de date speciale (index) pentru căutare eficientă.

În unele sisteme de regăsire a informațiilor, descrierea surselor de informații este realizată de personalul de regăsire a informațiilor, adică de persoane care redactează un scurt rezumat al fiecărei resurse. Apoi, de regulă, adnotările sunt sortate pe subiecte (compilare a unui catalog tematic). Desigur, descrierea compilată de o persoană va fi complet adecvată sursei. Cu toate acestea, în acest caz, procedura de descriere durează o perioadă semnificativă de timp, astfel încât indicele generat, de regulă, are un volum limitat. Dar căutarea într-un astfel de sistem poate fi efectuată la fel de ușor ca în cataloagele tematice ale bibliotecii.

ÎN IPS de al doilea tip procedura de descriere a resurselor informaţionale este automatizată. În acest scop, este dezvoltat un program special de robot, care, folosind o anumită tehnologie, accesează cu crawlere resursele, le descrie (indexează) și analizează link-uri din pagina curentă pentru a extinde zona de căutare. Cum poate un program să descrie un document? Cel mai adesea este simplu este compilată o listă de cuvinte care apar în text și în alte părți ale documentului,

în acest caz, se ia în considerare frecvența de repetare și locația cuvântului, adică cuvântului i se atribuie un fel de coeficient de ponderare în funcție de semnificația sa. De exemplu, dacă un cuvânt este în titlul unei pagini Web, robotul va marca acest fapt pentru el însuși. Deoarece descrierea este automatizată, timpul necesar este redus, iar indexul poate fi foarte mare.

În consecință, următoarea sarcină pentru al doilea tip de sistem de recuperare a informațiilor este dezvoltarea unui indexator robot. Pentru a căuta în sisteme de acest tip, utilizatorul va trebui să învețe cum să compună interogări, în cel mai simplu caz format din mai multe cuvinte. Apoi IPS va căuta

V în indexul său, documente ale căror descrieri conțin cuvinte din interogare. Pentru a efectua o căutare mai bună, este necesar să se dezvolte un limbaj de interogare special pentru utilizator. În funcție de caracteristicile de proiectare ale modelului de index și de limbajul de interogare acceptat, se dezvoltă un mecanism de căutare și un algoritm pentru sortarea rezultatelor căutării. Deoarece indexul este mare, numărul documentelor găsite poate fi destul de mare. Prin urmare, modul în care un motor de căutare efectuează o căutare și sortează rezultatele acesteia este extrem de important.

Nu în ultimul rând important este aspectul motorului de căutare care apare utilizatorului, așa că una dintre sarcini este de a dezvolta o interfață convenabilă și frumoasă. În fine, prezentarea rezultatelor căutării este extrem de importantă, deoarece utilizatorul trebuie să învețe cât mai multe despre sursa de informații găsite pentru a lua decizia corectă cu privire la necesitatea de a o vizita.

Pentru a accesa serverul de căutare, utilizatorul folosește un program client standard pentru World Wide Web, adică un browser. La adresa paginii de start IRS, utilizatorul lucrează cu interfața motorului de căutare, care servește la comunicarea între utilizator și motorul de căutare al sistemului (sistemul de generare a interogărilor și vizualizarea rezultatelor căutării).

Sisteme de recuperare a informațiilor

Componenta principală a sistemului informațional este un motor de căutare, care servește la traducerea cererii utilizatorului într-o solicitare formală a sistemului, la căutarea de link-uri către resursele informaționale și la furnizarea rezultatelor căutării utilizatorului.

După cum am menționat mai devreme, căutarea este efectuată într-o bază de date specială numită index. Arhitectura indexului este concepută în așa fel încât căutarea să aibă loc cât mai rapid și, în același timp, este posibilă urmărirea valorii fiecăreia dintre resursele găsite. Unele sisteme stochează interogările utilizatorului în baza de date personală, deoarece este nevoie de mult timp pentru a depana fiecare interogare și este extrem de important să stocați interogările la care se răspunde satisfăcător.

Robot de indexare– un program care servește la scanarea internetului și menținerea la zi a bazei de date cu index.

Site-urile web sunt acele resurse de informații la care IPS oferă acces.

După cum știți, o pagină Web este un document complex format din multe elemente. Când descrieți un astfel de document de către un program robot, este necesar să luați în considerare în ce parte a paginii Web a fost găsit cuvântul dat. Surse de indexare pentru documente

WWW sunt:

∙ Titluri.

∙ Rezumat (Descriere).

∙ Liste de cuvinte cheie (KeyWords).

∙ Texte integrale ale documentelor.

Apropo, motoarele de căutare care descriu absolut întregul text al unui document WWW se numesc full-text.

O adresă URL este folosită pentru a descrie un fișier dintr-o resursă FTP. Pentru descrierea unui articol dintr-un grup de știri, sursele de indexare sunt câmpurile Subiect și Cuvinte cheie.

În timpul procedurii de indexare, vocabularul este adesea normalizat (reducerea cuvântului la forma sa de bază, unele cuvinte neinformative, de exemplu, conjuncțiile sau prepozițiile, sunt ignorate); Fiecare IRS are propria sa listă de așa-numitele cuvinte stop care sunt ignorate în timpul procesului de indexare. În sistemele cu limbi foarte variabile, de exemplu rusă, se ia în considerare morfologia.

Luarea în considerare a morfologiei înseamnă capacitatea de a lucra cu diverse forme de cuvinte ale unui anumit

Aici trebuie remarcat faptul că limba rusă este destul de complexă, ale cărei cuvinte se schimbă în numere, cazuri, genuri și timpuri și adesea în moduri neașteptate. De exemplu: a merge, a merge, a merge, a merge etc. Toate IPS existente, ținând cont de morfologia limbii ruse, folosesc „Dicționarul gramatical al limbii ruse”, compilat de Andrei Anatolyevich Zaliznyak. Dicționarul include 90.000 de intrări de dicționar, pentru fiecare cuvânt sunt furnizate informații despre dacă este flexat și cum este exact flexiunea sau conjugarea acestuia.

Din cele de mai sus rezultă că principalele instrumente de căutare a informațiilor pe WWW sunt sistemele de recuperare a informațiilor.

Cu toate acestea, există instrumente de căutare pe Internet care au diferențe fundamentale față de sistemele de recuperare a informațiilor discutate mai sus. În general, se pot distinge următoarele instrumente de căutare pentru WWW:

∙ motoare de căutare,

∙ metamotoare de căutare și programe de căutare accelerată.

Locul central aparține pe bună dreptate motoarelor de căutare, care la rândul lor sunt împărțite în directoare, indexuri automate (motoare de căutare) și directoare indexate. Doar motoarele de căutare posedă aproape în totalitate capacitățile și proprietățile sistemelor de regăsire a informațiilor.

Catalogul este un sistem de căutare cu o listă de adnotări clasificate pe subiecte cu link-uri către resurse web. Clasificarea este de obicei făcută de oameni.

Să ne uităm la caracteristicile sistemelor de directoare.

Căutarea în catalog este foarte convenabilă și se realizează prin clarificarea secvenţială a subiectelor. Cu toate acestea, directoarele acceptă posibilitatea de a căuta rapid o anumită categorie sau o pagină folosind cuvinte cheie folosind un motor de căutare local.

Baza de date cu linkuri a directorului (index) are de obicei un volum limitat și este completată manual de personalul directorului. Unele directoare folosesc actualizarea automată a indexului.

Rezultatul căutării în catalog este prezentat sub forma unei liste constând dintr-o scurtă descriere (adnotare) a documentelor cu un link hipertext către sursă.

Printre cele mai populare cataloage străine pot fi menționate: Yahoo (www.yahoo.com), Magellan (www.mckinley.com),

Cataloage rusești:@Rus (www.atrus.ru); Weblist (www.weblist.ru); Constellation Internet (www.stars.ru).

Sistem de căutare– un sistem cu o bază de date generată de robot care conține informații despre resursele informaționale.

O caracteristică distinctivă a motoarelor de căutare este faptul că baza de date care conține informații despre pagini Web, articole Usenet etc. este generată de un program robot. O căutare într-un astfel de sistem se efectuează conform unei interogări compilate de utilizator, constând dintr-un set de cuvinte cheie sau o expresie cuprinsă între ghilimele. Indexul este generat și ținut la zi de roboții de indexare.

Motoare de căutare străine (sisteme):

Google - www.google.com (aproximativ 38% acoperire a interogărilor în limba rusă) Altavistawww.altavista.com

Excite www.excite.com HotBot - www.hotbot.com

Northern Lightwww.northernlight.com Go (Infoseek) www.go.com (infoseek.com) Rapid www.alltheweb.com

Motoare de căutare rusești:

Yandex - www.yandex.ru (sau www.ya.ru) (48% acoperire a interogărilor în limba rusă)

Rambler - www.rambler.ru Aportwww.aport.ru

Metamotor de căutare– un sistem care nu are propriul index, capabil să trimită cereri de utilizator simultan către mai multe servere de căutare, apoi să combine rezultatele obținute și să le prezinte utilizatorului sub forma unui document cu link-uri.

6 Principii de funcționare a sistemelor de metacăutare. Mecanisme de căutare pe internet. Limbajul de interogare.

La operarea unui sistem de metacăutare, din setul de documente primite de la motoarele de căutare, este necesară selectarea celor mai relevante, adică cele corespunzătoare solicitării utilizatorului.

Cele mai simple sisteme de metacăutare implementează abordarea standard prezentată în Fig. 1. În astfel de sisteme nu se realizează analiza descrierilor documentelor primite, ceea ce poate pune documente irelevante care se află pe primul loc într-un motor de căutare peste cele relevante în altul, ceea ce reduce semnificativ calitatea căutării în sine.

Fig. 1 Metamotor standard de căutare

La dezvoltarea următoarei generații de motoare de metacăutare, au fost luate în considerare deficiențele inerente motoarelor de metacăutare standard. Au fost create sisteme cu posibilitatea de a selecta acele motoare de căutare în care, conform utilizatorului, este mai probabil să găsească ceea ce are nevoie (Fig. 2)

Orez. 2. Următoarea generație de metamotoare de căutare

În plus, această abordare vă permite să reduceți resursele de calcul utilizate ale serverului de metacăutare fără a-l supraîncărca cu prea multe informații inutile și să economisiți serios traficul. Trebuie remarcat aici că în orice sistem de metacăutare blocajul este în principal lățimea de bandă a canalului de transmisie a datelor, deoarece procesarea paginilor cu rezultate de căutare primite de la câteva zeci de servere de căutare nu este o operațiune foarte laborioasă, deoarece timpul petrecut cu prelucrarea informațiilor este mult mai puțin timp necesar pentru ca paginile solicitate de la serverele de căutare să ajungă.

Ca exemplu de sisteme care au o organizare similară, putem numi Profusion, Ixquick, SavvySearch, MetaPing.

Un exemplu de sistem de metacăutare este Nigma (Nigma. RF) - rusă metacăutare inteligentă sistem.

Program de căutare accelerată este un program cu capabilități de metamotor care este instalat pe computerul dvs. local.

Diferența fundamentală dintre metasearch sisteme și programe de căutare accelerată de la IRS este lipsa propriului index. Dar sunt excelente la utilizarea rezultatelor altor motoare de căutare.

Motoare de căutare

Tehnologia de căutare generalizată constă din următoarele etape:

∙ Utilizatorul formulează o cerere

∙ Sistemul caută documente (sau imaginile de căutare ale acestora)

∙ Utilizatorul primește rezultatul (informații despre documente)

∙ Utilizatorul îmbunătățește sau reformează cererea

∙ Se organizează o nouă căutare...

De obicei, motoarele de căutare acceptă două moduri: modul de căutare simplă și modul de căutare avansată. Să luăm în considerare posibilitățile generalizate.

Formarea unei cereri în modul de căutare simplă. Puteți introduce pur și simplu unul sau mai multe cuvinte separate printr-un spațiu; căutarea cuvintelor cu toate terminațiile posibile este modelată de simbolul * de la sfârșitul cuvântului. Multe sisteme vă permit să căutați fraze sau expresii pentru a face acest lucru, trebuie să le includeți între ghilimele; Includerea sau excluderea obligatorie a anumitor cuvinte poate fi necesară.

Principala problemă a căutării utilizând o interogare compusă primitiv (sub formă de listare a cuvintelor cheie) este că motorul de căutare va găsi toate paginile pe care cuvintele specificate apar în orice parte a documentului. De obicei, numărul de pagini găsite va fi prea mare.

Pentru a îmbunătăți calitatea căutării în modul de căutare simplă, este permisă utilizarea operatorilor logici și a operatorilor care vă permit să limitați zona de căutare, precum și să selectați o anumită categorie de documente din lista prezentată.

Multe motoare de căutare includ operatori speciali în limbajul lor de interogare care vă permit să căutați în anumite zone ale unui document, de exemplu, în titlul acestuia, sau să căutați un document după o parte cunoscută a adresei sale.

Modul de interogare avansat sau detaliat in diferite sisteme este implementat individual, dar cel mai adesea este o forma in care operatorii si elementele cheie mentionate sunt implementate prin simpla bifare a casutelor corespunzatoare sau selectarea parametrilor dintr-o lista.

Mai jos, ca exemplu, sunt informații din secțiunea de ajutor a motorului de căutare

Yandex: fereastră de căutare avansată, limbaj de interogare, căutare în ceea ce a fost găsit.

Caută în găsit Dacă, ca urmare a interogării dvs., Yandex a găsit o mulțime de documente, dar pe un subiect mai larg decât doriți, puteți scurta această listă rafinând interogarea. O altă opțiune este să activați caseta de selectare găsit în formularul de căutare, să specificați cuvinte cheie suplimentare, iar următoarea căutare va fi efectuată numai pe acele documente care au fost selectate în căutarea anterioară.

Cheat Sheet despre utilizarea limbajului de interogare

	Sens

„Vino la noi pentru murături de dimineață”	Cuvintele vin la rând în forma exactă

„Ambasadorul *a sosit”	Cuvânt lipsă din ghilimele

jumătate de felie și porumb	Cuvinte într-o singură propoziție

echipa && obţine	Cuvinte într-un singur document

cocoș de munte \| potârniche \| cineva	Căutați oricare dintre cuvinte

nu poţi<< винить	Neclasare „și”: expresia după operator nu are efect
	poziţia documentului în emisiune

Trebuie /2 să execut	Distanța în două cuvinte în orice direcție (de ex.
	un cuvânt poate apărea între cuvintele date)




ceva ce ~~ inteleg

cu inteligența mea /+2	Distanța în două cuvinte în ordine directă

ceai ~ laptem	Căutați propoziții în care cuvântul ceai apare fără cuvântul lapte

supă de varză /(-1 +2) slurping	Distanța de la un cuvânt în ordine inversă la două cuvinte în


îmi dau seama ce!	Cuvinte în formă exactă cu majuscule specificate

se dovedește că && (+pe \| !me)	Parantezele formează grupuri în interogări complexe

Politică	Forma de dicționar a cuvântului

titlu:(în țară)	Căutați după titlurile documentelor

url:ptici.narod.ru/ptici/kuropatka.htm	Căutați după URL

cu siguranță inurl:vojne	Căutare pe baza fragmentului de adresă URL

	Căutați după gazdă

	Căutați după gazdă în introducerea inversă

site:http://www.lib.ru/PXESY/FILATOW	Căutați în toate subdomeniile și paginile unui anumit site

	Căutați după un singur tip de fișier

	Căutare limitată de limbă

	Căutare limitată la domenii

	Căutați cu restricții de dată

afaceri de stat && /3 o prinzi	Distanța 3 propoziții în orice direcție


ceva ce ~~ inteleg	Excluzând cuvântul voi înțelege din căutare

O opțiune interesantă este să căutați documente pe web care leagă la o pagină cu o adresă URL pe care o specificați. În acest fel, puteți găsi pagini pe web care au link-uri către site-ul dvs. Web. Unele sisteme vă vor permite să vă limitați căutarea într-un anumit domeniu.

Operatorii speciali suplimentari includ:

∙ Operatori pentru căutarea documentelor cu un anumit fișier grafic;

∙ Operatorii care limitează data paginilor căutate;

∙ Operatori de proximitate între cuvinte;

∙ Operatori de contabilitate sub formă de cuvinte;

∙ Operatori pentru sortarea rezultatelor (după relevanță, prospețime, vechime). De remarcat că, din păcate, astăzi nu există

standard pentru numărul și sintaxa operatorilor acceptați pentru diferite motoare de căutare. Se depun eforturi pentru a dezvolta un standard pentru sintaxa operatorilor suportați, așa că se speră ca dezvoltatorii de motoare de căutare să se ocupe de experiența utilizatorului. În această etapă de dezvoltare a instrumentelor de căutare, un utilizator, atunci când accesează un anumit motor de căutare, trebuie în primul rând să se familiarizeze cu regulile sale pentru alcătuirea interogărilor. De regulă, va exista un link de ajutor pe pagina principală care vă va duce la informații de ajutor.

Diferitele motoare de căutare descriu un număr diferit de surse de informații de pe Internet. Prin urmare, nu vă puteți limita căutarea doar la unul dintre motoarele de căutare specificate.

Să luăm în considerare modalități prezentarea rezultatelor căutării în motoarele de căutare.

Cel mai adesea, numărul documentelor găsite depășește câteva zeci, iar în unele cazuri poate ajunge la sute de mii! Prin urmare, ca formă de emitere, se întocmește o listă de documente de 5-10-15 unități pe pagină, cu posibilitatea de a trece la următoarea porțiune din partea de jos a paginii. Trebuie indicate titlul și adresa URL (adresa) documentului găsit uneori sistemul indică gradul de relevanță al documentului în procente.

Descrierea unui document conține cel mai adesea primele câteva propoziții sau fragmente din textul documentului cu cuvinte cheie evidențiate. De regulă, este indicată data actualizării (verificarea) a documentului, dimensiunea acestuia în kiloocteți, unele sisteme determină limba documentului și codificarea acestuia (pentru documentele în limba rusă);

Ce poți face cu rezultatele obținute? Dacă titlul și descrierea documentului corespund cerințelor dvs., puteți accesa imediat sursa inițială folosind linkul. Este mai convenabil să faceți acest lucru într-o fereastră nouă pentru a putea analiza în continuare rezultatele căutării. Multe motoare de căutare vă permit să căutați în documentele găsite și vă puteți rafina interogarea introducând termeni suplimentari.

Dacă inteligența sistemului este mare, vi se poate oferi serviciul de căutare a documentelor similare. Pentru a face acest lucru, selectați un document care vă place în mod deosebit și îl îndreptați către sistem ca model de urmat.

Cu toate acestea, automatizarea determinării similitudinii este o sarcină foarte netrivială și adesea această funcție nu funcționează așa cum era de așteptat. Unele motoare de căutare vă permit să resortați rezultatele. Pentru a economisi timp, puteți salva rezultatele căutării ca fișier pe unitatea dvs. locală pentru studiu offline ulterior.

http://www. *****/dir/cat32/subj385/file16459/view156596/page2.html

Sisteme de recuperare a informațiilor. Întrebări pentru examen

1. Conceptul de informare. Tipuri de informații. Proprietăți.

informație(din latină informatio - conștientizare, explicație, prezentare) - în sens larg, un concept abstract care are multe semnificații, în funcție de context. În sensul restrâns al cuvântului - informații (mesaje, date) indiferent de forma de prezentare a acestora. În prezent, nu există o definiție unică a termenului informație. Din punctul de vedere al diferitelor domenii ale cunoașterii, acest concept este descris prin setul său specific de caracteristici. Informația este o colecție de date înregistrate pe un suport material, stocate și distribuite în timp și spațiu.

informație- aceasta este o informație conștientă despre lumea din jurul nostru, care face obiectul stocării, transformării, transmiterii și utilizării.

De bază tipuri de informatii conform formei sale de reprezentare, metodele de codificare și stocare, care este de cea mai mare importanță pentru informatică, sunt:

grafic sau pictural

sunet

text

numeric

informații video

Există și tipuri de informații pentru care încă nu au fost inventate metode de codificare și stocare a acestora - este vorba de informații tactile transmise prin senzații, informații organoleptice transmise de mirosuri și gusturi etc.

Proprietăți informaționale

Ca orice obiect, informația are proprietăți. O trăsătură caracteristică distinctivă a informației de alte obiecte ale naturii și ale societății este dualismul: proprietățile informației sunt influențate atât de proprietățile datelor sursă care alcătuiesc conținutul acesteia, cât și de proprietățile metodelor care înregistrează aceste informații.
Din punctul de vedere al informaticii, următoarele proprietăți calitative generale par a fi cele mai importante: obiectivitatea, fiabilitatea, completitudinea, acuratețea, relevanța, utilitatea, valoarea, actualitatea, înțelegerea, accesibilitatea, concizia etc.

Obiectivitatea informației . Obiectiv – existent în afara și independent de conștiința umană. Informația este o reflectare a lumii obiective externe. Informația este obiectivă dacă nu depinde de metodele de înregistrare, de opinia cuiva sau de judecata.
Exemplu. Mesajul „Este cald afară” poartă informații subiective, în timp ce mesajul „Exterior sunt 22°C” poartă informații obiective, dar cu o acuratețe care depinde de eroarea instrumentului de măsură.
Informațiile obiective pot fi obținute folosind senzori de lucru și instrumente de măsură. Reflectate în conștiința unei persoane, informațiile pot fi distorsionate (într-o măsură mai mare sau mai mică) în funcție de opinia, judecata, experiența, cunoștințele unui anumit subiect și, astfel, încetează să mai fie obiective. Fiabilitatea informațiilor . Informațiile sunt de încredere dacă reflectă starea reală a lucrurilor. Informațiile obiective sunt întotdeauna de încredere, dar informațiile de încredere pot fi atât obiective, cât și subiective. Informațiile de încredere ne ajută să luăm decizia corectă. Informațiile pot fi inexacte din următoarele motive:

denaturarea intenționată (dezinformarea) sau denaturarea neintenționată a unei proprietăți subiective; distorsiuni ca urmare a interferențelor („telefon deteriorat”) și mijloace insuficient de precise de remediere.Completitudinea informațiilor . Informațiile pot fi numite complete dacă sunt suficiente pentru înțelegerea și luarea deciziilor. Informațiile incomplete pot duce la o concluzie sau o decizie eronată. Acuratețea informațiilor este determinată de gradul de apropiere a acestuia de starea reală a obiectului, procesului, fenomenului etc. Relevanța informațiilor – importanță pentru prezent, actualitate, urgență. Doar informațiile primite în timp util pot fi utile. Utilitatea (valoarea) informațiilor . Utilitatea poate fi evaluată în raport cu nevoile consumatorilor săi specifici și este evaluată prin acele sarcini care pot fi rezolvate cu ajutorul ei.

Cele mai valoroase informații sunt obiective, de încredere, complete și actualizate. Trebuie luat în considerare faptul că informațiile părtinitoare, nesigure (de exemplu, ficțiune) sunt de mare importanță pentru o persoană. Informațiile sociale (publice) au și proprietăți suplimentare:

are un caracter semantic (noțional), adică conceptual, deoarece în concepte sunt generalizate cele mai esențiale trăsături ale obiectelor, proceselor și fenomenelor din lumea înconjurătoare. are o natură lingvistică (cu excepția unor tipuri de informații estetice, de exemplu, arta plastică). Același conținut poate fi exprimat în diferite limbi naturale (vorbite), scrise sub formă de formule matematice etc.

2. Termeni de bază din teoria regăsării informațiilor: document, nevoie de informații, persistența documentului, relevanță.

Document(din lat. documentum- eșantion, certificat, dovezi) - un obiect material care conține informații într-o formă înregistrată și conceput special pentru transmiterea acesteia în timp și spațiu.

Nevoia de informare este o nevoie care apare atunci când scopul cu care se confruntă utilizatorul în cursul activităților sale profesionale sau în practica sa socială și de zi cu zi nu poate fi atins fără utilizarea unor informații suplimentare.

Relevanţă

Se numește corespondența textului (document, fișă faptică) cu nevoia reală de informații pertinenţă, iar corespondența unui text cu altul este relevantă. La căutare, se face o distincție între relevanța semantică și cea formală.

Un document al cărui subiect sau subiect central corespunde în general conținutului semantic al unei solicitări de informații se numește relevant, iar proprietatea proximității semantice între două sau mai multe texte (în acest caz, între un document și o solicitare de informații) - relevanta. Relevanţă este un concept fundamental în teoria regăsării informațiilor. Ei vorbesc despre două tipuri relevanță: semantică și formală. Corespondența unui document cu conținutul unei cereri de informații se numește relevanță semantică, iar corespondența imaginii de căutare a acestui document cu o prescripție de căutare formalizată care exprimă o cerere de informare dată se numește relevanță formală. Relevanța formală este denumită și relevanța documentului, iar relevanța semantică este relevanța informației (adică „informația conținută în document”).

3. Sistem de regăsire a informațiilor. Definiție. Structura IPS.

Sistem de regăsire a informațiilor (IPS) este un set ordonat de documente (matrice de documente) și tehnologii informaționale concepute pentru stocarea și regăsirea informațiilor - texte (documente) sau date (fapte). Sistemele de recuperare a informațiilor sunt orice depozite de informații organizate într-un mod specific. Mai mult, sistemele de recuperare a informațiilor pot fi, de asemenea, neautomatizate. Principalul lucru este funcția țintă: stocarea și preluarea informațiilor.

În funcție de obiectul de stocare și de tipul cererii, se disting două tipuri de căutare a informațiilor: film documentarȘi faptice- și, în consecință, două tipuri de IPS - documentar și factual. Acestea din urmă sunt denumite și sisteme de regăsire a informațiilor și a informațiilor de referință.

Film documentar sunt numite sisteme de regăsire a informațiilor, care implementează o căutare a interogărilor tematice într-o serie de documente sau texte și apoi oferă utilizatorului un subset al acestor documente sau copii ale acestora. Conceptul de document poate varia de la sistem la sistem. În cazul general, acesta este un anumit obiect de informare, înregistrat (de obicei printr-un sistem de semne) pe un suport material (hârtie, fotografie și film, memorie magnetică etc.) și destinat transmiterii în spațiu și timp în sistemul social. comunicatii .

Faptic Sistemele de regăsire a informațiilor implementează stocarea, căutarea și emiterea de date direct faptice (caracteristicile și proprietățile științifice, tehnice, economice ale obiectelor, proceselor, fenomenelor, adreselor, numelor, datelor cantitative etc.).

Principala diferență esențială între căutarea documentară și cea factuală este abordarea semanticii documentelor. Sistemele documentare descriu semnificația documentelor în ansamblu din punctul de vedere al conținutului lor tematic, subiect. În acest caz, este important să identificați și să denumiți (listați) principalele subiecte și obiecte cărora le este dedicat documentul. În sistemele faptice, obiectele sunt descrise, caracteristicile lor și semnificațiile acestor caracteristici sunt înregistrate. De aici diferențele în limbajele de descriere și metodele de stocare a descrierilor în sistem. În consecință, fiecare tip de căutare are propriile instrumente de căutare.

Sistemele faptice implică acumularea și căutarea într-o serie de documente cu o structură strict reglementată. O astfel de structură este fie rezultatul prelucrării intelectuale preliminare a documentelor la introducerea informațiilor în sistem, fie disponibilitatea unor astfel de documente în formă finită în domenii specifice ale activității umane, de exemplu, formulare contabile, formulare, cărți de referință, grafice etc. Există sisteme informaționale faptice care oferă informații de acumulare și caută doar un tip de obiect și un singur tip de interogare. Există, de asemenea, sisteme factografice mai dezvoltate care asigură stocarea și preluarea datelor diverse ca conținut și structură, dar această diversitate este întotdeauna finită.

În același timp, nu există nicio diferență insurmontabilă între sistemele documentare și cele factuale. Adesea, sistemele reale de regăsire a informațiilor sunt un exemplu de sisteme mixte în care informațiile faptice sunt folosite ca mijloc suplimentar de căutare documentară și invers. În sistemele documentare, textele (documentele) pot fi și ele structurate, împărțite în fragmente sau câmpuri, iar prelucrarea și livrarea informațiilor documentare pot fi efectuate la nivelul câmpurilor individuale.

Există și un al treilea tip de sisteme, care se numesc logic-informațional. Acestea sunt sisteme care răspund la întrebări la care nu se răspunde explicit în baza de informații. O bază de cunoștințe extralingvistice și informații generate algoritmic din ceea ce este deja disponibil (documentar sau factual) ajută la obținerea unui răspuns. Aceste informații noi sunt fie furnizate ca răspuns la o interogare, fie sunt utilizate suplimentar pentru căutare.

Un sistem de regăsire a informațiilor de tip document este o colecție ordonată de documente, precum și un set de instrumente și metode concepute pentru stocarea, căutarea și emiterea de informații documentare la cerere. Documentary IPS emite documente care corespund solicitării pe tema sau subiectul. Se numește un document al cărui subiect sau subiect central corespunde în general conținutului semantic al cererii de informații relevante , A proprietatea proximității semantice între două sau mai multe texte (în acest caz, între un document și o solicitare de informații) - relevanţă . Relevanța este un concept fundamental în teoria regăsării informațiilor. Ei vorbesc despre două tipuri de relevanță: semantică și formală. Corespondența unui document cu conținutul unei cereri de informații se numește relevanță semantică, iar corespondența imaginii de căutare a acestui document cu o prescripție de căutare formalizată care exprimă o cerere de informare dată se numește relevanță formală. Relevanța formală este denumită și relevanța documentului, iar relevanța semantică este relevanța informației (adică „informația conținută în document”).

Componentele sistemului informatic se numesc subsisteme. Împărțirea în subsisteme este necesară și utilă atât în scopul dezvoltării, cât și pentru descrierea tehnologiei de funcționare a sistemelor. Poate avea o bază diferită. De obicei, se au în vedere două tipuri de împărțire a sistemelor informaționale în subsisteme: după principiul funcțional (subsisteme funcționale) și după tipul mijloacelor (subsisteme suport).

Sunt numite diverse instrumente care implementează funcții IPS subsisteme suport , sau „dispoziții”. Se disting următoarele subsisteme: suport lingvistic, suport informaţional, hardware, software

Conceptul de sistem acoperă un complex de elemente interconectate care acționează ca un întreg. Sistemul include următoarele componente:

Structura este multe elemente ale sistemului și relațiile dintre ele.

Intrările și ieșirile sunt fluxuri de materiale sau fluxuri de mesaje care intră sau ies dintr-un sistem. Vom considera informațiile primite ca un set de simboluri (x(i)), a căror valoare este formată de vectorul X. Aceste mesaje sunt procesate în sistem și sunt direct dependente de timp. În mod similar, setul de ieșiri - (y(i, t)) formează vectorul Y.

Scop și limitări. Ordinea de funcționare a sistemului este descrisă de un număr de variabile: U1, U2..., Un. Unele dintre aceste variabile trebuie menținute întotdeauna într-o poziție extremă - max U1 etc. U1 = f (X, t, Y, ...), atunci U1 se numește funcția țintă a sistemului. Această funcție determină corespondența obiectivelor sistemului cu rezultatele funcționării acestuia.

Legea implementării sistemului. Aceasta este o funcție f(x) care leagă schimbările în intrarea și ieșirea sistemului.

Printre proprietățile cunoscute ale sistemului se numără următoarele: relativitatea, divizibilitatea și integritatea.

IS este un sistem a cărui funcționare în timp constă în colectarea, stocarea, prelucrarea, distribuirea informațiilor despre activitățile oricărei entități economice din lumea reală.

4. Tipuri de sisteme de regăsire a informațiilor în funcție de natura informațiilor furnizate.

5. Funcțiile unui sistem de regăsire a informațiilor.

Sistemul de recuperare a informațiilor este un sistem care îndeplinește următoarele funcții:
- stocarea unor cantitati mari de informatii;
- cauta rapid informatiile necesare;
- adăugarea, ștergerea și modificarea informațiilor stocate;
- afișarea informațiilor într-o formă convenabilă pentru oameni.

Sunt:
- automatizat (computerizat);
- bibliografic (referință);
- interactiv (online);
- sisteme de regăsire a informațiilor documentare și factografice.

6. Context istoric pentru dezvoltarea motoarelor de căutare.

Să ne întoarcem la istoria apariției Internetului, care a fost creat în legătură cu nevoia de a partaja resursele informaționale distribuite între diverse sisteme informatice. Majoritatea aplicațiilor timpurii, inclusiv FTP și e-mail, au fost concepute exclusiv pentru schimbul de date între computerele gazdă de pe Internet.
Alte aplicații, precum Telnet, au fost create pentru a permite utilizatorului să acceseze nu numai informații, ci și resursele de lucru ale unui sistem de la distanță. Pe măsură ce Internetul s-a dezvoltat (creșterea utilizatorilor și a computerelor gazdă), metodele anterioare de schimb de date nu mai răspundeau nevoilor crescute ale utilizatorilor. Este necesar să se dezvolte noi modalități de căutare și accesare a resurselor de rețea care să permită utilizarea informațiilor indiferent de formatul și locația acesteia.

Pentru a răspunde unor astfel de nevoi, au fost create pentru prima dată sistemul de căutare Archie, care rezolvă problema localizării resurselor pe un server FTP, și sistemul Gopher, care simplifică accesul la diverse resurse de rețea. Apoi au fost dezvoltate sistemele informatice de rețea WWW și WAIS, oferind metode complet noi de obținere a informațiilor. Principiile de funcționare ale acestor sisteme facilitează navigarea într-o cantitate imensă de resurse informaționale fără a fi nevoie să furnizeze mecanisme pentru funcționarea internetului în sine. Această abordare ne permite să vorbim nu doar despre resursele sistemelor informatice interconectate, ci și despre spații speciale de informații ale rețelei.

Sistemul Archie este un set de instrumente software care funcționează cu baze de date speciale. Aceste baze de date conțin informații actualizate constant despre fișierele care pot fi accesate prin serviciul FTP. Folosind serviciile sistemului Archie, puteți căuta un fișier folosind modelul de nume. În acest caz, utilizatorul va primi o listă de fișiere cu o indicație exactă a locului în care sunt stocate în rețea, precum și informații despre tipul, momentul creării și dimensiunea fișierelor. Sistemul de regăsire a informațiilor Archie poate fi accesat într-o varietate de moduri, de la solicitări prin e-mail și Telnet până la utilizarea clienților grafici Archie.
Sistemul Gopher a fost dezvoltat pentru a simplifica procesul de localizare a resurselor Internet FTP și pentru a prezenta mai convenabil informații despre conținutul fișierelor stocate pe serverele FTP. Sistemul Gopher face posibilă prezentarea utilizatorilor cu informații despre fișierele disponibile și conținutul acestora într-o formă convenabilă (sub forma unui meniu). Meniurile serverului Gopher pot conține link-uri către alte servere Gopher și FTP. Astfel, utilizatorul are posibilitatea de a „călătorește” pe Internet, fără a acorda atenție locației resurselor de care este interesat și de a obține acces la aceste resurse.
Sistemul Veronica este folosit pentru a căuta informații în spațiul Gopher folosind titlurile elementelor de meniu. După introducerea unui cuvânt cheie, sistemul Veronica află dacă acesta apare în meniu pe orice server Gopher și, ca rezultate ale căutării, produce o listă cu titlurile elementelor de meniu care conțin cuvântul cheie. Deoarece sistemul Veronica nu este un program de căutare autonom, ci este strâns legat de sistemul Gopher, are același dezavantaj ca și sistemul Gopher: nu este întotdeauna posibil să spunem după titlu ce este o anumită resursă de informații. Avantajul sistemului este că nu este nevoie să aflați unde se află informațiile găsite este suficient să selectați intrarea necesară din listă.

7. Istoricul dezvoltării sistemelor automate de regăsire a informațiilor documentare, etape de dezvoltare. Caracteristicile scenei moderne.

Tranziția către societatea informațională a secolului 21 a dat naștere unei creșteri fără precedent a volumului și concentrării informațiilor în rețelele globale de calculatoare. Acest lucru a agravat drastic problema creării sistemelor de regăsire a informațiilor (IRS) și utilizarea eficientă a acestora.

Istoria sistemelor automate de recuperare a informațiilor datează de o jumătate de secol. Un sistem tipic de regăsire a informațiilor din primii ani este un sistem om-mașină, în care analiza și descrierea conținutului documentelor (indexare) se realizează manual, iar căutările sunt efectuate de mașină. Inițial, baza limbilor de regăsire a informațiilor (IRL), ale căror elemente principale sunt dicționarele de descriptori și tezaurele. Astăzi, însă, majoritatea sistemelor informaționale de lucru aparțin clasei sistemelor verbale de tip non-tezaur, atunci când termenii de indexare sunt selectați direct din textele documentelor. Creșterea de tip avalanșă a volumului de informații documentare electronice, tipul acesteia, diversitatea tematică și lingvistică este atât cauza crizei regăsirii moderne a informațiilor, cât și stimulentul pentru îmbunătățirea acesteia.

Problema căutării resurselor pe Internet a fost realizată destul de curând și, ca răspuns, au apărut diverse sisteme și instrumente software de căutare, printre care se numără sistemele Gopher, Archie, Veronica, WAIS, WHOIS etc. Recent, aceste instrumente au fost înlocuit cu „clienți” și „servere” ale World Wide Web WWW.

Rezultatele obținute în ultimul deceniu în dezvoltarea tehnologiei informatice, a metodelor de proiectare a software-ului și a suportului informațional pentru sistemele de automatizare de diferite niveluri și scopuri au contribuit la o revizuire semnificativă a abordărilor adoptate anterior pentru crearea sistemelor informaționale și, mai ales , la crearea de noi tehnologii informaționale, ale căror principale principii sunt:

Asigurarea comunicării între utilizatorul final (cercetător, proiectant, constructor, tehnolog, operator IPC și GAP, planificator) cu sistemul de automatizare într-un limbaj natural limitat profesional, prezentarea intrărilor și a informațiilor rezultate într-o formă familiară și ușor de utilizat.

Oferirea capacității de a rezolva probleme de planificare, management, proiectare, pregătire a producției și cercetare științifică pe baza formulărilor acestora și a datelor inițiale, indiferent de complexitatea și disponibilitatea modelelor matematice formale ale acestor probleme.

Crearea pentru utilizatorul final a unor astfel de condiții de lucru în care acesta desfășoară procesele de management, planificare, proiectare și căutare de noi soluții în modul unui dialog activ, extins, cu computerul, folosind conceptele domeniului său, folosind experiența profesională. și abilități și luarea deciziilor simultan, conform mai multor criterii, dintre care o parte nu este descrisă formal și nu are expresie cantitativă.

8. Caracteristicile IPS

9. Interogare de căutare. Conducere. Tipuri de interogări de căutare.

10. Suport lingvistic.

11. Sisteme de regăsire a informațiilor faptice. Căutarea bibliografică ca tip de cercetare factuală.

IRS real implementeaza cautarea si afisarea faptelor, textelor, documentelor care contin informatii care pot satisface cererea utilizatorului. În acest caz, căutarea nu se efectuează pentru orice document anume, ci pentru întregul set de informații despre această solicitare stocat în colecția de informații a IPS sau ISS. Rețineți că principala diferență dintre sistemele de regăsire a informațiilor faptice și cele documentare este ceea ce aceste sisteme oferă utilizatorului. nu orice document introdus anterior, ci informații deja procesate într-o măsură sau alta.

În funcție de modul în care o astfel de prelucrare a informațiilor este implementată în sistemul informațional factual, se disting trei generații de astfel de sisteme.

Sistemele de informații de prima generație asigură acumularea și regăsirea informațiilor despre un tip de obiect și implementează un tip de interogări atunci când sunt utilizate pentru descrierea faptică a datelor în format fix.

În sistemele faptice din a doua generație, este deja posibilă selectarea tipului de cerere din setul prezentat. Obiectele afișate pot aparține unor clase diferite; formatul de descriere factuală este specificat pentru clasa de obiecte.

În sistemele informaționale faptice de a treia generație, care sunt, de fapt, un tip de sisteme de dialog inteligente, căutarea informațiilor este implementată folosind o listă nereglementată de interogări, imaginea de căutare este specificată de utilizator sub orice formă, sunt furnizate operațiuni de sinteză a informațiilor. pentru a satisface cererile utilizatorilor, există un aparat special pentru analizarea informațiilor nou introduse cu privire la relevanța semantică și formală a datelor stocate în fondul de informații.

13. Sisteme inteligente de regăsire a informațiilor.

14. Standardizarea vocabularului în IPS.

15. Indexarea în IPS.

Indexarea este un proces care constă din două etape:

identificarea subiectelor care sunt reflectate în acest document;

exprimarea acestor subiecte în limbajul adoptat de sistemul de regăsire a informațiilor și înregistrarea sub formă de imagini de căutare care sunt asociate documentului.

Pentru a utiliza IRS pentru a găsi documente care corespund unei anumite solicitări de informații, cererea în sine trebuie și ea indexată. Procesul de căutare se realizează prin compararea imaginilor de căutare ale documentelor cu imaginea de căutare a cererii. În cazul în care imaginile se potrivesc total sau parțial, documentul este considerat în concordanță cu solicitarea și este eliberat utilizatorului.

16. Caută modele. Instrumente lingvistice pentru prezentarea și structurarea documentelor electronice. Limbi metadate.

Metadatele în documentele HTML

Konstantin A. Rybakov

Se știe că metadatele transportă informații de referință și control care sunt utilizate de diferiți agenți (aplicații client, roboți de căutare) în diverse scopuri.

Acest articol va discuta metaetichete, a căror includere într-un document, de regulă, are următoarele obiective principale: gestionarea procesului de indexare a documentului (sau a întregului site în ansamblu) de către roboții de căutare, descrierea conținutului acestuia. document (din nou pentru roboții de căutare) și gestionarea anumitor funcții ale browserelor. Ar fi inutil să descriem toate metaetichetele, deoarece multe dintre ele sunt destul de abstracte, adică nu conțin informații utile din punctul de vedere al agenților și sunt pur și simplu ignorate de aceștia.

Metaetichetele sunt împărțite în două grupuri: echivalente ale unui antet HTTP și o parte de informații și control care nu este inclusă în antetul HTTP. Această împărțire se datorează în principal sintaxei ( Și respectiv) şi standardul. Dacă vorbim despre metadatele în sine, atunci o astfel de împărțire va fi într-o oarecare măsură condiționată, adică nu vorbim despre faptul că etichetele NAME pot acționa ca antete HTTP, ci doar că antetul HTTP este și un purtător de referință. și informații de control. În general, echivalentele HTTP au o prioritate mai mică decât antetul „adevărat”, care este generat de serverul WEB. De asemenea, merită remarcat formatul general pentru declararea meta-etichetelor într-un document HTML, după cum se arată mai jos:

...<TITLE><META HTTP-EQUIV="..." CONTENT="..."><META NAME="..." CONTENT="..."> grup HTTP-EQUIV 1. EXPIRĂ (data expirării documentului) După expirarea perioadei specificate, documentul va fi descărcat din nou de fiecare dată, în loc să fie luat din cache. Format data: RFC850 2. PRAGMA (gestiune caching) O valoare posibilă este NO-CACHE, adică acest document nu este stocat în cache de browser. Exemplu: <META HTTP-EQUIV="PRAGMA" CONTENT="NO-CACHE"> 3. CONTENT-TYPE (Tipul de document și codificarea acestuia) Au existat multe controverse cu privire la această etichetă... Este necesară în principal pentru selectarea corectă a codificării de către browser, dar acest lucru este relevant doar atunci când serverul WEB nu acceptă transcodarea automată a documentelor (de exemplu, pentru serverele străine care oferiți spațiu gratuit pentru site-ul dvs., aceasta este o opțiune care nu este furnizată), în caz contrar CONTENT-TYPE poate duce doar la confuzie. Exemplu: <META HTTP-EQUIV="CONTENT-TYPE" CONTENT="text/html; charset=koi8-r"> 4. CONȚINUT-LIMBAJ Indicarea explicită a limbii documentului. Datele din această etichetă pot fi folosite atât de roboții de căutare, cât și de serverele WEB. Format:<Язык>-<Диалект> Exemplu: <META HTTP-EQUIV="CONTENT-LANGUAGE" CONTENT="en-GB"> Timpul (în secunde) după care documentul se va reîncărca automat sau va trece la un alt document cu adresa URL specificată. Format:<ВРЕМЯ>sau<ВРЕМЯ>; <URL> Exemplu: <META HTTP-EQUIV="REFRESH" CONTENT="5; http://algo. /"> 6. CACHE-CONTROL (controlul memoriei cache) Cazuri posibile: cache în cache public (PUBLIC) / privat (PRIVAT). Documentul nu este deloc în cache (NO-CACHE) sau în cache, dar nu este salvat (NO-STORE). Exemplu: <META HTTP-EQUIV="CACHE-CONTROL" CONTENT="NO-STORE"> Numele Grupului 1. DESCRIERE (descrierea documentului) Alături de descrierea cuvintelor cheie, această etichetă este, în opinia noastră, cea mai importantă. Informațiile conținute în acesta sunt afișate în rezultatele căutării emise de serverele de căutare la cererea utilizatorului. În general, rezultatele căutării arată de obicei astfel: a) URL-ul documentului b) Titlul documentului (conținut <TITLE>...)
c) Descrierea documentului, adică DESCRIPTION sau câteva sute de octeți de la începutul documentului (inclusiv atributele ALT și TITLE pentru imagini), dacă DESCRIPTION lipsește. În primul caz, utilizatorul primește o descriere destul de scurtă, dar în același timp, succintă a documentului, deși aceasta, desigur, depinde de autorul documentului, iar în al doilea caz, informațiile despre document sunt mai degrabă slab, și anume, poate fi un set de cuvinte fără sens sau primele câteva propuneri care pot să nu aibă legătură cu tema generală a documentului și, în consecință, să nu-l caracterizeze în niciun fel.
d) Evaluare (coeficientul de conformitate a documentului cu solicitarea utilizatorului).

Exemplu:

2. CUVINTE CHEIE (cuvinte cheie)

Cuvântul „cheie” înseamnă un set de cuvinte și expresii care caracterizează cel mai pe deplin acest document. Ele sunt utilizate în mod activ de roboții de căutare în timpul indexării. În cele din urmă, aceste cuvinte sunt luate în considerare în rezultatele căutării și contribuie la clasamente mai înalte.

Exemplu:

După cum se poate observa din descriere, utilizarea DESCRIPTION și KEYWORDS nu este niciodată superfluă prezența acestora, sub rezerva unei descrieri competente și a unei selecții corecte a cuvintelor cheie, va crește clasamentul documentului în momentul furnizării rezultatelor căutării de către motoarele de căutare.

3. DOCUMENT-STAT (starea documentului)

Această etichetă controlează frecvența de indexare și poate lua două valori: STATIC (documentul este static, adică nu se modifică și, prin urmare, trebuie indexat o singură dată) și DYNAMIC (pentru documentele care se schimbă frecvent care trebuie reindexate)

Exemplu:

4. ROBOȚI (gestionarea procesului de indexare)

Opțiuni posibile:
a) INDEX - capacitatea de a indexa acest document (altfel NOINDEX)
b) FOLLOW - capacitatea de a indexa toate documentele la care se face referire într-un anumit fișier HTML (în caz contrar, NOFOLLOW)
c) TOATE - îndeplinirea simultană a condițiilor INDEX și FOLLOW
d) NONE - îndeplinirea simultană a condițiilor NOINDEX și NOFOLLOW

Exemplu:

5. RESOURCE-TYPE (tipul de resursă)

Pentru documentele HTML obișnuite, valoarea acestei etichete meta este setată la „DOCUMENT”

Exemplu:

6. URL (locația site-ului principal)

URL-ul de bază (a nu se confunda cu BASE) determină ce document trebuie indexat (pentru a nu procesa „oglinzi”)

Exemplu:

Este acceptabil să adăugați un atribut LANG la metaetichetele care indică limba datelor, dar acest lucru nu este necesar.

17. Resursele informaționale și prezentarea lor într-un sistem de regăsire a informațiilor.

Resursele informaționale și prezentarea lor în sistemul de regăsire a informațiilor

După cum se poate observa din diagramă (Figura 3.41), matricea de documente Internet IPS este întregul set de documente de șase tipuri principale: pagini WWW, fișiere Gopher, documente Wais, înregistrări de arhivă FTP, știri Usenet, articole din lista de corespondență. Toate acestea sunt informații destul de eterogene, care sunt prezentate sub forma unor formate de date diferite, care nu sunt în niciun fel în concordanță între ele. Există informații text, informații grafice, informații audio și, în general, tot ce se află în depozitele de mai sus. Desigur, se pune întrebarea cum ar trebui să funcționeze un sistem de recuperare a informațiilor cu toate acestea. În sistemele tradiționale, există conceptul de imagine de căutare a unui document - POD (Search Image of Document) este ceva care înlocuiește un document și este utilizat în căutări în locul unui document real un model al unui tablou de informații de documente într-o matrice reală. Cel mai popular este modelul vectorial, în care fiecărui document îi este atribuită o listă de termeni care reflectă cel mai adecvat sensul acestuia a cărui dimensiune este egală cu numărul de termeni care pot fi utilizați în căutare Cu un model vectorial boolean, elementul vectorial este egal cu 1. sau 0, în funcție de prezența termenului în documentul AML sau de absența acestuia. În modelele mai complexe, termenii sunt ponderați, adică elementul vectorului nu este egal cu 1 sau 0, ci cu un număr care reflectă corespondența unui termen dat cu un document. Acesta din urmă model este cel mai popular în sistemele de recuperare a informațiilor de pe Internet. În general, există și alte modele de descriere a documentelor: un model probabilistic al fluxurilor de informații și al căutării și un model de căutare în mulțimi neclare. Analiza avantajelor și dezavantajelor utilizării acestor modele la implementarea sistemelor de regăsire a informațiilor pe Internet este subiectul unui studiu special. Aici are sens doar să atragem atenția cititorului asupra faptului că până acum este modelul liniar care este utilizat în sistemele Lycos, WebCrawler, AltaVista, OpenText, AliWeb și o serie de altele. Cercetările privind utilizarea altor modele sunt, de asemenea, efectuate, de exemplu, în cadrul proiectului AltaVista sau de către grupuri științifice. Astfel, prima sarcină pe care trebuie să o rezolve un sistem de recuperare a informațiilor este alocarea unei liste de cuvinte cheie unui document sau unei resurse de informații. Această procedură se numește indexare. Adesea însă, indexarea se referă la compilarea unui fișier cu listă inversată, în care fiecare termen de indexare este asociat cu o listă de documente în care apare. Această procedură este doar un caz special, sau mai degrabă un aspect tehnic al creării unui motor de căutare pentru un sistem de regăsire a informațiilor.

Organizațiile creează sisteme informatice manuale, mecanizate și automatizate. Sistemul de regăsire a informațiilor include înregistrarea și indexarea documentelor, matricele de informații și de regăsire create pe baza acestora (fișiere de carduri, matrice pe suport informatic) și stocarea operațională a documentelor.

Pentru a obține compatibilitatea informațională a matricelor de căutare ale organizațiilor din industrie, este necesară dezvoltarea centralizată a clasificatoarelor: o nomenclatură standard de cazuri; clasificator corespondent; clasificator al unităților structurale (dacă există structuri standard); clasificator de nume de tipuri de documente; clasificator de probleme legate de activitățile organizației; clasificator al întrebărilor cuprinse în propuneri, declarații, reclamații cetățenilor etc.

Compatibilitatea informațională interindustrială a sistemului informațional este asigurată prin utilizarea OK TEI; atunci când utilizați clasificatoare în sistem, ar trebui să fie posibilă trecerea la codurile de referință sau de control OK TEI, care urmăresc progresul documentelor sau utilizarea acestora. Baza sistematizării în aceste matrice este modul în care există mai multe tipuri independente de IPS: regulă, data (termenul limită) de execuție;

2 documente de control și referință pentru acces restricționat, de obicei în jurnale numerotate, legate și sigilate;
3 fișe de control și referință privind propunerile, declarațiile și reclamațiile cetățenilor, în care la baza sistematizării se află subiectele abordate în contestațiile cetățenilor;
4 referință (codificare) privind actele juridice de reglementare care reflectă problemele activităților organizației (mediul juridic). În sistemele de acest tip, fiecare problemă despre care există informații în document este luată în considerare în mod independent, iar baza de sistematizare este, de asemenea, subiectul prevederilor de reglementare. Atunci când documentele sunt retrase din circulație sau anulate, informațiile din IPS sunt anulat, dar nu distrus, dar transferat în arhiva organizației împreună cu documentele .

Dosarele de referință sunt împărțite în două părți: documente neexecutate și executate, în care RKK sunt sistematizate după următoarele criterii:

specifice subiectului sau tematic (în conformitate cu conținutul documentelor sau domeniul de activitate la care se referă documentele);

1. după nomenclatorul cazurilor (în conformitate cu denumirile cazurilor după nomenclatorul cazurilor sau indexurile acestora);
2. corespondent (prin numele sau simbolurile organizațiilor cu care se realizează corespondența);
3. de către executanți (pe divizii structurale);
4. alfabetice (în ordinea alfabetică a numelor de familie, a numelor obiectelor sau obiectelor);
5. geografice (pe denumirile unităţilor administrativ-teritoriale);
6. nominal (după denumirea de tipuri sau soiuri de documente);
7. înregistrare (în ordinea crescătoare a numerelor de înregistrare a documentelor).

Alegerea caracteristicii de căutare este determinată în funcție de tipurile de documente și de natura solicitărilor de informații.

Prima parte a dosarului este folosită pentru a căuta informații despre documente în curs de execuție. A doua parte a dosarului este folosită pentru căutarea documentelor executate.

Pe măsură ce documentele sunt executate, RKK cu marcajele necesare sunt mutate din prima parte a dosarului în secțiunile și rubricile corespunzătoare ale celei de-a doua;

În funcție de volumul fluxului de documente, sistemul de înregistrare și control al execuției documentelor și sarcinile de căutare, se pot menține un singur IRS de referință sau mai multe sisteme informaționale independente. Se formează dulapuri separate (baze de date) pentru documentele primite, documentele de ieșire ale inițiativei și apelurile cetățenilor. Dacă există un număr mare de acte juridice de reglementare și documente administrative utilizate în activitățile organizației, pe acestea pot fi create fișiere de codificare (baze de date) separate.

Lista de nume de baze de date este similară cu lista de nume de cabinet de fișiere.

Contabilitatea volumului fluxului de documente:

1. volumul fluxului de documente - numărul de documente primite (intrat) și create (intern, outgoing) de către organizație într-o anumită perioadă de timp;
2. Numărul de documente se numără cu ajutorul formularelor de înregistrare la locurile de înregistrare a acestora.

O copie a unui document este luată ca unitate de contabilitate, excluzând copiile create în timpul tipăririi și reproducerii. Fiecare document este numărat o dată. Atașamentele la un document sunt contorizate împreună cu acesta ca un singur document.

Documentele primite și create de organizație și apelurile cetățenilor sunt luate în considerare separat.

Copiile (copiile) reproduse sunt contabilizate separat conform jurnalelor de lucru din biroul de dactilografiere și copiere și (sau) conform listelor de corespondență.

O organizație poate efectua o contabilitate completă și selectivă a volumului fluxului de documente (la nivelul întregii organizații, pe divizii structurale, pe grupuri de documente etc.).

Contabilitatea și analiza volumului fluxului de documente în organizație se realizează sub îndrumarea serviciului instituției de învățământ preșcolar;

Rezultatele înregistrării volumului fluxului de documente sunt rezumate de către serviciul instituției de învățământ preșcolar și prezentate conducerii organizației pentru a dezvolta măsuri de îmbunătățire a lucrului cu documentele;

Informațiile privind volumul fluxului de documente sunt utilizate pentru a stabili structura și nivelul de personal al serviciului instituției de învățământ preșcolar, pentru a selecta tehnologia pentru lucrul cu documente și instrumente de automatizare de birou și pentru a determina gradul de volum de muncă al serviciului instituției de învățământ preșcolar și al angajaților individuali. Sistemele de regăsire a informațiilor joacă un rol semnificativ în rezolvarea celor mai importante sarcini ale instituțiilor arhivistice: intensificarea proceselor de euristică arhivistică, creșterea vitezei și eficacității soluționării problemelor de căutare pe toate subiectele și seturile de documente, la toate nivelurile de căutare; extinderea accesului utilizatorilor la informațiile documentare (întrucât restricția accesului nu este adesea legată de prezența unei ștampile de confidențialitate, ci este cauzată de calitatea insuficientă a aparatului științific de referință, ceea ce complică semnificativ munca cercetătorilor); creșterea intensității și eficienței utilizării documentelor de arhivă sub toate formele de utilizare, a varietății de servicii de informare furnizate de arhive, inclusiv pe bază contractuală; dezvoltarea cooperării interarhivistice și internaționale bazate pe schimbul de informații, implementarea unor proiecte comune de introducere a unor complexe semnificative de surse istorice în circulația științifică. Căutarea de informații în astfel de sisteme este înțeleasă ca o anumită succesiune de operațiuni efectuate pentru a găsi documente (articole, rapoarte științifice și tehnice, descrieri ale certificatelor de drept de autor și brevetelor, cărților etc.) care conțin anumite informații (cu eliberarea ulterioară a documentelor în sine sau copiile acestora), sau în scopul emiterii de date faptice reprezentând răspunsuri la întrebările adresate.

Universitatea de Stat din Sankt Petersburg

Facultatea de Filologie

Departamentul de Lingvistică Matematică

V.P. Zaharov

Recuperarea informațiilor
sisteme

Manual educațional și metodologic

Saint Petersburg

Recenzători:

doc. tehnologie. stiinte V.Sh. Rubașkin(Universitatea de Stat din Sankt Petersburg)

Ph.D. ped. stiinte O.A. Arbatskaya(Universitatea de Stat de Cultură și Artă din Sankt Petersburg)

Tipărită prin decret
Consiliul Editorial și Editurii
Universitatea de Stat din Sankt Petersburg

Zaharov V.P.

Z-38 Sisteme de regăsire a informațiilor: Metodă educațională. indemnizatie. - Sankt Petersburg, 2005. - 48 p.

Manualul propus conține o descriere a elementelor de bază ale regăsirii informațiilor documentare, programul disciplinei academice „Teoria regăsirii informațiilor”, care este studiat de studenții din anul 3 ai Departamentului de Lingvistică Structurală și Aplicată a Universității de Stat din Sankt Petersburg și un set de lucrări de laborator (practice) la această disciplină. Lucrările de laborator separate sunt folosite pentru a preda studenții la alte cursuri și la alte discipline. Manualul se bazează pe activitățile de cercetare și predare ale autorului.

Pentru studenții de licență și absolvenți specializați în domeniul lingvisticii aplicate, sisteme informatice și sisteme automate de procesare a textului.

ã V.P. Zaharov, 2005

ã Sankt Petersburg
stat
Universitatea, 2005

1. Introducere în teorie și practică
regăsirea informațiilor

1.1. Concepte de bază de regăsire a informațiilor

Sistem de regăsire a informațiilor (IPS) este o colecție ordonată de documente (matrice de documente) și tehnologii informaționale concepute pentru stocarea și regăsirea informațiilor - texte (documente) sau date (fapte). Sistemele de recuperare a informațiilor sunt orice depozite de informații organizate într-un mod specific. Mai mult, sistemele de recuperare a informațiilor pot fi, de asemenea, neautomatizate. Principalul lucru este funcția țintă: stocarea și preluarea informațiilor.

În funcție de obiectul de stocare și de tipul cererii, se disting două tipuri de regăsire a informațiilor: documentară și faptică - și, în consecință, două tipuri de sisteme de regăsire a informațiilor - documentară și faptică. Acestea din urmă sunt denumite și sisteme de regăsire a informațiilor și a informațiilor de referință.

Film documentar sunt numite sisteme de regăsire a informațiilor, care implementează o căutare a interogărilor tematice într-o serie de documente sau texte și apoi oferă utilizatorului un subset al acestor documente sau copii ale acestora. Conceptul de document poate varia de la sistem la sistem. În cazul general, acesta este un anumit obiect de informare, înregistrat (de obicei printr-un sistem de semne) pe un suport material (hârtie, fotografie și film, memorie magnetică etc.) și destinat transmiterii în spațiu și timp în sistemul social. comunicatii .

Faptic Sistemele de regăsire a informațiilor implementează stocarea, căutarea și emiterea de date direct faptice (caracteristicile și proprietățile științifice, tehnice, economice ale obiectelor, proceselor, fenomenelor, adreselor, numelor, datelor cantitative etc.).

Sistemele faptice implică acumularea și căutarea într-o serie de documente cu o structură strict reglementată. O astfel de structură este fie rezultatul prelucrării intelectuale preliminare a documentelor la introducerea informațiilor în sistem, fie disponibilitatea unor astfel de documente în formă finită în domenii specifice ale activității umane, de exemplu, formulare contabile, formulare, cărți de referință, grafice etc. . Există sisteme informaționale faptice care asigură acumularea de informații și căutarea unui singur tip de obiect și un singur tip de interogare. Există, de asemenea, sisteme factografice mai dezvoltate care asigură stocarea și preluarea datelor diverse ca conținut și structură, dar această diversitate este întotdeauna finită.

Un sistem de regăsire a informațiilor de tip document este o colecție ordonată de documente, precum și un set de instrumente și metode concepute pentru stocarea, căutarea și emiterea de informații documentare la cerere. Documentary IPS emite documente care corespund solicitării pe tema sau subiectul. Se numește un document al cărui subiect sau subiect central corespunde în general conținutului semantic al cererii de informații relevante , A proprietatea proximității semantice între două sau mai multe texte (în acest caz, între un document și o solicitare de informații) - relevanţă . Relevanța este un concept fundamental în teoria regăsării informațiilor. Ei vorbesc despre două tipuri de relevanță: semantică și formală. Corespondența unui document cu conținutul unei cereri de informații se numește relevanță semantică, iar corespondența imaginii de căutare a acestui document cu o prescripție de căutare formalizată care exprimă o cerere de informare dată se numește relevanță formală. Relevanța formală este denumită și relevanța documentului, iar relevanța semantică este relevanța informației (adică „informația conținută în document”).

Sunt numite diverse instrumente care implementează funcții IPS subsisteme suport , sau „dispoziții”. Se disting următoarele subsisteme: suport lingvistic, suport informaţional, suport tehnic, software, suport tehnologic, suport personal etc.

Suport informațional - acestea sunt matrice de informații (documente, interogări, metadate), precum și instrumente și metode pentru descrierea, construcția și clasificarea acestora.

suport lingvistic - Acesta este un aparat logico-semantic format dintr-un limbaj de regăsire a informațiilor, reguli de aplicare (tehnici de indexare), criterii de emitere și alte mijloace lingvistice.

Software - Acestea sunt algoritmi și software care implementează toate funcțiile sistemului informațional realizat cu ajutorul unui computer.

Suport tehnic - sunt mijloace tehnice (calculatoare, telecomunicații) care asigură stocarea, regăsirea și transmiterea informațiilor.

Suport tehnologic - acesta este un set și o procedură pentru efectuarea de procese și proceduri automate și neautomatizate de prelucrare a informațiilor în sistemul informațional, inclusiv descrierea acestora, diagrame de tehnologie a informației și materiale de instruire.

Sprijin de personal (sau personal). - sunt persoanele care interactioneaza cu sistemul si asigura functionarea acestuia (personal de intretinere).

IPS este, de asemenea, împărțit în părți componente (subsisteme) în funcție de funcționalitate, atunci când fiecare subsistem îndeplinește o funcție specifică în procesul tehnologic: introducerea documentelor, indexarea documentelor, introducerea și corectarea interogărilor, indexarea interogărilor, căutarea, menținerea dicționarelor, menținerea statisticilor, procesarea căutării rezultate, emiterea documentelor etc. Se numesc astfel de părți subsisteme funcționale .

Conceptele importante în regăsirea informațiilor sunt documentul și interogarea. Un document este definit ca un mijloc de fixare în orice mod pe material special a oricărei informații despre fapte, evenimente, fenomene ale realității obiective și activitatea mentală umană. Documentele au diferite forme de prezentare. În sistemele automate de recuperare a informațiilor documentare, acestea sunt în primul rând informații text în limbi naturale în formă care poate fi citită de mașină.

O cerere este o nevoie de informare formulată în limbaj natural. Rezultatul „traducerii” cerere de informatie în limbajul de regăsire a informațiilor se numește imagine de interogare de căutare (POZ) sau caută rețetă (PP). Aceasta este înțeleasă ca o expresie în limbajul de interogare , care include atât FP în sine, cât și controale de căutare. Sintaxa și semantica limbajelor de interogare este determinată de structura și conținutul documentelor și de sarcinile generale ale sistemului.

A treia parte a furnizării de informații este așa-numita „problemă”, rezultatele căutării. Problemele există în două tipuri: scurte descrieri ale documentelor și documentele în sine.

Cea mai importantă componentă a sistemelor de regăsire a informațiilor este limbajul de regăsire a informațiilor. Pentru a selecta documentele necesare dintr-o serie de documente, o persoană trebuie să citească sau să le vadă conținutul. Pentru a accelera și simplifica această procedură, au apărut diverse forme de înregistrare prescurtată a conținutului documentelor - adnotări, rezumate, cataloage. Dar în toate aceste cazuri, limbajul natural este folosit pentru a selecta documentele pe baza descrierilor lor prescurtate. Asemenea „dezavantaje” ale semnelor lingvistice precum omonimia, sinonimia și polisemia sunt bine cunoscute. Sensul exact al multor cuvinte poate fi înțeles doar în context. Acest lucru împiedică utilizarea limbajului natural pentru a captura și identifica informații conceptuale. Prin urmare, sistemele formale concepute pentru a stoca informații documentare în scopul recuperării ulterioare au necesitat crearea unor limbaje informaționale speciale. Limbile de regăsire a informațiilor sunt sisteme de semne cu propriul alfabet, vocabular, gramatică și reguli de utilizare. Să observăm doar că toate limbile artificiale au fost, într-un fel sau altul, create și sunt create pe baza limbilor naturale.

La compararea documentelor și cererilor, este necesar să se determine relevanța documentului în raport cu cererea și să se ia o decizie privind emiterea sau neemiterea unui document pentru această cerere. Regulile pe care oficial se determină gradul de relevanță al documentului și al cererii, i.e. se numește conformitatea cu POD și POS criteriul corespondenței semantice (KSS), sau criteriul de emitere .

Modelele matematice și formulele de calcul al coeficientului de relevanță pot fi foarte diferite. În practică, IPA-urile cu criteriu logic de emitere , când PP-urile sunt construite folosind operatori logici (booleeni) de conjuncție (&), disjuncție (\/), negație (~). În acest caz, o expresie de interogare logică este un set de elemente de căutare (de obicei cuvinte cheie) combinate cu operatori logici și paranteze necesare pentru a indica ordinea în care operatorii sunt executați. Cuvintele cheie PP joacă rolul variabilelor booleene care iau valoarea 1 („adevărat”) dacă cuvântul dat este conținut în document și 0 („fals”) atunci când nu există. Un document este considerat relevant pentru interogare dacă formula logică a interogării în ansamblu primește valoarea „adevărată” pentru acest document și irelevant dacă rezultatul calculării formulei logice este „fals”.

Simbolurile (&, \/, ~) folosite în logică pentru a desemna conjuncția, disjuncția și negația sunt de obicei înlocuite în căutările de informații de către operatorii AND, OR și, respectiv, NOT. În Rusia, denumirile AND, OR, NOT sunt mai des folosite. Totuși, în cazul general, în fiecare IRS specific, sunt selectate notațiile pentru operatorii booleeni, iar uneori, pentru confortul utilizatorului, sunt introduse mai multe simboluri pentru același operator (de exemplu, în Aport IRS, se poate specifica operatorul de conjuncție prin următoarele semne: &, spațiu, ȘI , Și, +).

Utilizarea operatorilor booleeni oferă o logică ușor de utilizat pentru compararea documentelor și interogărilor. Căutarea (calculul adevărului pentru elementele PP), de regulă, se efectuează folosind fișiere index speciale (inversate) construite pe baza unui vocabular al matricei documentare și se caracterizează prin viteză mare. Această simplitate și claritate a CSS-ului logic sunt motivul pentru utilizarea pe scară largă.

Problema evaluării eficienței căutării este o problemă complexă, incluzând atât latura teoretică, cât și latura practică. Principalii indicatori funcționali (tehnici) ai IRS bazați pe relevanță sunt completitatea și acuratețea, care se bazează pe împărțirea documentelor în relevante și irelevante, precum și emise și neemise.

Completitudinea căutării (P) (English Recall - R) este o măsură calculată ca raport al cantității emise relevante documente pentru numărul total de relevante documentele conținute în matricea de informații.

Precizia căutării (T) (English Precision - P) este raportul dintre cantitate emise relevante documente pentru numărul total de documente emise.

1.2. Căutare de informații pe internet

Dacă încercăm să clasificăm IPS-ul Internetului, putem distinge următoarele tipuri principale:

1. IRS de tip verbal (motoare de căutare)

2. Clasificare IRS (directoare)

3. Directoare electronice (pagini „galbene” etc.)

4. Sisteme informatice specializate pentru anumite tipuri de resurse

5. Agenți inteligenți.

Contabilitatea globală a tuturor resurselor Internet este asigurată de sisteme verbale și parțial de clasificare.

Clasificare IPS implementați navigarea în spațiul web pe baza indicatoarelor speciale, care sunt „arbori” tematici construiți pe baza clasificărilor. Schemele de clasificare a resurselor de pe Internet sunt de obicei structuri arborescente ale căror noduri sunt denumite cu cuvinte în limbaj natural. Diverse scheme de clasificare diferă unele de altele în domeniul de aplicare și metodologia de compilare a acestora. Unul dintre dezavantajele clasificărilor ierarhice universale este că sunt conservatoare și sunt în urmă cu dezvoltarea științei, tehnologiei și vieții în general. Principala problemă a serviciilor de căutare a clasificării este automatizarea clasificării. Până acum, problema clasificării automate nu a găsit o soluție satisfăcătoare. Înregistrarea site-urilor web și a paginilor web în directoare este de obicei efectuată de oameni - indexatori și moderatori ai acestui sistem. Și, prin urmare, volumul bazei de date a sistemelor de tip clasificare este relativ mic în comparație cu capacitatea de informare a întregului Internet.

Pentru a rezolva problema acoperirii maxime a resurselor Internet, sistemele numite metacăutare(metamotoare de căutare). Nu au propriile baze de date de căutare, nu conțin niciun index și, atunci când caută, folosesc resursele altor motoare de căutare. Din acest motiv, probabilitatea de a găsi informațiile necesare crește. Pentru a transmite o cerere către un motor de căutare, se folosește un agent special de metacăutare, care este responsabil de procesul de transmitere a cererii către alte sisteme. După procesarea cererii primite, fiecare sistem returnează agentului de metacăutare un set de descrieri și link-uri către documente pe care le consideră relevante pentru această solicitare. În ciuda tuturor atractivității motoarelor de metacăutare, ar trebui să vă amintiți și despre dezavantajele și dezavantajele lor. În primul rând, lipsa unui standard de limbaj de interogare unificat nu permite metasistemelor să obțină de la motoarele de căutare care execută interogări ale motoarelor de metacăutare același rezultat pe care îl poate obține un utilizator cu experiență când lucrează cu fiecare mașină separat.

Sistemele globale de recuperare a informațiilor ar trebui considerate astăzi principalul mijloc de căutare a informațiilor pe Internet. tip verbal(motoarele de căutare) indexarea (cel puțin pretinzând că este) întregul spațiu de internet. Principalele motoare de căutare de acest tip (în primul rând în ceea ce privește dimensiunea bazei de date) includ Google, Fast (AlltheWeb), AltaVista, HotBot, Inktomi, Teoma, WiseNut, MSN Search. Printre sistemele rusești, există trei principale: Yandex, Rambler și Aport! (Aport). Completitudinea bazei de date de căutare și eficiența indexării site-urilor web reprezintă principala problemă a tuturor sistemelor de regăsire a informațiilor de pe Internet. De regulă, sistemele cu un volum mai mare de baze de date generează un număr mai mare de documente ca rezultat al căutării. O mare problemă, atât lingvistică, cât și programatică, este multilingvismul spațiului informațional de pe Internet și varietatea formatelor de prezentare a datelor. Cu toate acestea, sistemele globale majore fac față acestor probleme.

Este IPS verbal căruia i se acordă atenția principală în partea practică a manualului. În primul rând, nivelul de utilizator este modelat, exprimat în limbaje de interogare și interfețe cerere-răspuns. Se efectuează o analiză comparativă a limbajelor de interogare ale diferitelor sisteme de recuperare a informațiilor de pe Internet.

O caracteristică a sistemelor moderne este căutarea full-text. Multe sisteme verbale de regăsire a informațiilor de pe Internet calculează relevanța documentelor pentru interogări prin compararea elementelor de interogare cu textele integrale ale documentelor postate pe Internet. În ceea ce privește limbajul de regăsire a informațiilor, de regulă, cuvintele obișnuite ale limbilor naturale acționează ca elemente de căutare. Cererile sunt formulate printr-o interfață specială, implementată sub formă de formulare de ecran în programele browser.

Este util să înțelegeți cum funcționează aceste sisteme. Există trei părți principale în orice motor de căutare.

Robot - un subsistem care asigură navigarea (scanarea) pe Internet și menținerea la zi a fișierului inversat (baza de date index). Acest pachet software este principalul mijloc de colectare a informațiilor despre disponibilitatea și starea resurselor de informații din rețea.

Căutare în baza de date - așa-zisul index - o bază de date special organizată (bază de date index engleză), care include, în primul rând, un fișier inversat, care constă din unități lexicale preluate din documente web indexate și conține o varietate de informații despre acestea (în special, pozițiile lor în documente), precum și ca despre documentele in sine si site-urile in general.

Sistem de căutare - un subsistem de căutare care procesează cererea utilizatorului (ordinea de căutare), caută în baza de date și furnizează rezultate de căutare utilizatorului. Motorul de căutare comunică cu utilizatorul prin interfețe de utilizator - forme de ecran ale programelor browser: interfața pentru generarea de interogări și interfața pentru vizualizarea rezultatelor căutării.

Un fișier index (sau pur și simplu index) este un set de fișiere interconectate care vizează căutarea rapidă a datelor la cerere. Indexul se bazează întotdeauna pe un fișier inversat. Circuit inversat (invers). Organizarea matricei de căutare se bazează pe principiul asigurării accesului la documente prin identificatorii de conținut al acestora (caracteristici de căutare: descriptori, cuvinte cheie, termeni, alte caracteristici). Această schemă este obținută prin procesarea unei matrice secvențiale de documente pentru a crea fișiere auxiliare speciale inversate - puncte de acces.

Fiecare înregistrare a unei astfel de matrice auxiliare este identificată printr-un identificator de conținut corespunzător (descriptor, cuvânt cheie, doar un termen, numele autorului, numele organizației etc.) și conține numele (adresele de stocare) ale tuturor documentelor din imaginile de căutare ale cărora se află. este cuprins. Pentru fiecare identificator de conținut (element de date de căutare) din matricea inversată, împreună cu adresa (număr, nume) documentului, pot fi stocate (și sunt de obicei stocate) informații suplimentare, cum ar fi: numele câmpului, numărul propoziției, în care acest element a fost găsit în acest document, numărul cuvântului într-o propoziție etc. Fixarea poziției unui cuvânt în text în funcție de numărul propoziției și numărul acestui cuvânt din propoziție vă permite să construiți un limbaj de interogare flexibil care vă permite să setați distanța dintre cuvinte și propoziții dintr-un document. Caracteristicile poziționale sunt, de asemenea, utilizate la calcularea coeficientului de relevanță și clasarea documentelor în rezultatele căutării.

Găsirea documentelor necesare prin fișierul inversat nu se realizează prin scanarea continuă a întregii matrice, ci prin vizualizarea numai a acelor identificatori de conținut din fișierul inversat care sunt specificați în instrucțiunea de căutare, de exemplu. numărul de operații de comparare a cuvintelor în timpul căutării este proporțional cu numărul de termeni din prescripția de căutare. Acest mod de operare reduce timpul de căutare și vă permite să serviți consumatorii de informații în timp real.

Căutările prin index sunt operațiuni pe liste de identificatori de elemente de căutare în conformitate cu modelul de căutare și criteriile de potrivire. Lista rezultată de documente relevante (în terminologia modernă „răspuns”), care este convertită într-o listă clasificată de scurte descrieri ale documentelor, echipate cu link-uri hipertext și alte caracteristici, este returnată utilizatorului în programul său de browser client. Făcând clic pe titlul unui document în scurta sa descriere (prin intermediul unui hyperlink) se solicită acel document fie direct de pe serverul pe care se află, fie printr-o bază de date a unui motor de căutare.

O componentă importantă a sistemelor informatice moderne sunt așa-numitele pagini web de interfață, adică. formulare de ecran prin care utilizatorul comunică cu motorul de căutare. Există două tipuri principale de pagini front-end: pagini de interogare și pagini cu rezultate ale căutării.

indexarea textelor integrale a cât mai multor site-uri;

lucru „competent” cu forme de cuvinte - capacitatea IPS de a identifica diferite forme de cuvânt ale aceluiași lexem, într-un mod diferit, de a genera o formă canonică - o lemă și capacitatea de a evidenția o formă specifică dintre multe forme de cuvânt ;

Rezumat al disertației

Exemple de utilizare și alte informații Documentar informaţional-motor de căutaresistem – informaţional-motor de căutaresistem, conceput pentru a găsi documente care conțin...

Sisteme automate de regăsire a informațiilor
Tutorial
Tip automatizat informaţional-motoare de căutare sisteme: documentar, factual și informaţional-joc de inteligență. Documentar automatizat informaţional-motor de căutaresistem – sistem, proiectat pentru...
Tema proiectului de diplomă: „Dezvoltarea unui agent de informații (robot) al unui sistem de regăsire a informațiilor pentru colectarea informațiilor pe Internet”
Diplomă
PROIECT DE DIPLOMA Tema: „Dezvoltare informativ agent (robot) informaţional-motor de căutaresisteme a colecta informații în...) V.K. Ivanov, K.V. Ivanov, Introducere în informaţional-motoare de căutaresisteme. (/window_catalog/pdf2txt?p_id=28415) I. Nekrestyaninov...

Instrumentele de regăsire a informațiilor existente în prezent pot fi considerate ca o conexiune individuală sau colectivă consumatori(utilizatori) informații. Instrumentele de căutare sunt specifice contactului consumator cu furnizorii de informații, uniți prin comunitatea informațiilor în raport cu întrebarea pusă (fig. 2).

Orez. 2 Schema de interacțiune a instrumentului de regăsire a informațiilor cu consumatorii și furnizorii de informații

Pe diagramă furnizor informația produce informații care sunt acumulate (acumulate) de un instrument de regăsire a informațiilor. Consumator formulează informații cerere iar după căutarea matricei, acesta primește informațiile necesare de la instrumentul de căutare. Furnizori informațiile pot fi separate geografic și departamental, iar instrumentul de căutare reprezintă o modalitate de a depăși această dezbinare.

Instrumentele de regăsire a informațiilor rezolvă problema găsirii de informații specifice într-o varietate de documente(resurse de informare). În munca lor cu informații documentare, se pot distinge două etape principale:

Etapa 1 - colectarea și stocarea informațiilor;

Etapa 2 - căutarea și distribuirea resurselor informaționale către consumatori.

Procesul de flux de informații pe Internet are loc într-un cerc vicios format din consumatori de informații, furnizori de informații și instrumente de regăsire a informațiilor. Furnizorii și consumatorii de informații pot fi atât persoane fizice, cât și organizații întregi. Sursa de informare o constituie activitățile și practicile sociale ale indivizilor și grupurilor, în urma cărora se formează date și mesaje documentare.

Serviciile de căutare (instrumente concepute pentru a căuta informații) de pe Internet sunt împărțite în cataloage (directoare), motoare de căutare sisteme (motoare de căutare) și metamotoare de căutare(metamotoare de căutare).

2. Cataloage de căutare de informații

Cataloage

Catalog - este un sistem care oferă clasificare informație. Caracteristica sa distinctivă este prezența unei ierarhii (scheme de ordonare) a resurselor, în care fiecare dintre ele (resurse)
se referă la una sau mai multe secțiuni. Cataloage (De exemplu, Yahoo!

www.yahoo.corn) și List.ru ( http://list.ru)) nu lucrați cu indici,și cu descrieri ale resurselor de pe Internet. Acestea sunt completate de webmasteri (oameni care creează resurse de informații) sau editori speciali care vizualizează resursele de informații de pe Web. Ca răspuns la o solicitare a utilizatorului, directoarele caută aceste hewings. Directoarele nu detectează automat modificările aduse resurselor de informații din rețea. Cu toate acestea, rezultatele căutării lor pot

par mai semnificative, deoarece resursele de informații fiscale sunt pregătite de oameni.

Să ne uităm la structură schema standard catalog (fig. 3):

Orez. 3. Aspect tipic de catalog

Client este un program pentru vizualizarea unor informații specifice

resursă. Cele mai populare programe de navigare pe Internet

documentele sunt Microsoft Internet Explorer și Netscape Navigator. ÎN

la rândul lor, toate aceste resurse informaţionale sunt obiecte

căutare.

Interfața cu utilizatorul - acest grup Pagini web (formulare) instrumente de căutare prin care utilizatorul interacționează Cu prin acest mijloc.

Motor de căutare- o componentă de sistem, al cărei scop principal este de a căuta documente cunoscute de sistem care corespund cererii formulate în matricea de date internă a sistemului și de a genera un răspuns (rezultatul căutării) către utilizator în forma unui set de legături către documentele găsite.

Personalul tehnic - persoane ale căror responsabilități includ crearea unei liste de resurse de informații din catalog, descrierile acestora și ierarhia acestor resurse.

Cereri utilizator - o matrice de date de sistem utilizată pentru stocarea temporară a cererilor formulate de utilizator.

Ierarhia resurselor informaționale și descrierile acestora– matrice de date de catalog intern, care conține informații despre resursele de informații de pe Internet (adrese URLși o scurtă descriere a resurselor). Această matrice este organizată în așa fel încât fiecare resursă de informații să corespundă unui subiect, iar lista de subiecte este ordonată în funcție de subordonare.

Resurse informative - resurse care sunt vizualizate utilizând programe de vizualizare precum Microsoft Internet Explorer, Netscape Navigator etc., de ex. Acestea sunt documente de pe Internet.

Când rezolvați o problemă de căutare standard (când căutați informații disponibile public), catalogul, și nu motorul de căutare, este cel mai bun punct de plecare pentru a începe căutarea.

Un exemplu tipic de utilizare a unui catalog este necesitatea de a găsi pe Internet un grup de resurse informaționale pe un anumit subiect insuficient de restrâns, de exemplu site-uri, furnizarea de informații de contact pentru organizațiile din Moscova sau site-urile media electronice.

IPS

Sisteme de recuperare a informațiilor

Un altul, fundamental diferit de catalog, serviciu cautare de informatii - sistem de regăsire a informațiilor(IPS). IPS- Acest un sistem care asigură acumularea și recuperarea informațiilor

IPS, rezolvarea problemelor de colectare, stocare, prelucrare și emitere a informațiilor , efectua urmatoarele operatii:

căutarea documentelor;
analiza conținutului documentului;
construirea imaginilor de căutare ale documentelor (extragerea din
documente de informaţii utilizate de sistem ca cunoştinţe
despre document);
stocarea imaginilor de căutare ale documentelor (informații despre
documente);
analiza cererilor utilizatorilor (consumatori de informatii);
căutare relevante documente (corespunzatoare) cererii;
emiterea de link-uri către documente către consumatori.

Acest lucru face posibilă elaborarea unei scheme generale IPS. Un exemplu ar fi schema tipică IPS(Fig. 4).

Orez. 4. Diagrama tipică a unui sistem de regăsire a informațiilor

Indexul bazei de date - Acesta este setul principal de date IPS. Acesta servește la stocarea informațiilor despre toate documentele de pe Internet cunoscute de sistem. Aceste informații sunt necesare pentru ca motorul de căutare să poată găsi documente pe baza solicitării utilizatorului.

Robot de indexare (crawler, spider sau păianjen) - Modulul software al motorului de căutare utilizat pentru căutarea (selectarea) resurselor de informații pe Internet și a acestora indexarea(a indexa informații înseamnă a atribui fiecărui document cuvinte cheie care reflectă conținutul documentului și controlează căutarea, conducând la acele documente ale căror cuvinte sunt mai asemănătoare cu cuvintele interogării efectuate), adică. menținerea bazei de date cu index într-o stare actualizată (în raport cu Internetul). Acest program este principala sursă de informații despre starea resurselor informaționale. Vizualizarea documentelor de pe Internet prin acest modul de sistem se face în mod regulat. Pentru sistemele mari, perioada de revizuire a documentelor este de obicei de 1-2 săptămâni.

General algoritmfuncționarea IPS(principiul de funcționare; suita este următorul. Robotul de indexare automată scanează (trecând de la o resursă la alta, folosind link-urile aflate pe aceasta) diverse resurse de informații ale Internetului (documente de pe Internet). Creează un index Bază de date, plasând acolo informații despre resursele rețelei. În același timp, revine periodic și la resursele informaționale și le verifică pentru modificări. Când un utilizator realizează un motor de căutare; cerere, software-ul său (motorul de căutare) scanează indexul bazei de date create în căutarea resurselor cu cuvinte cheie date și ierarhizează (ordonează) aceste resurse în funcție de gradul de apropiere de subiectul căutării.

În ceea ce privește algoritmul de funcționare IPS, ar trebui să faceți o serie de comentarii. Fiecare motor de căutare specific stochează (informații nu despre toate documentele de pe Internet, ci doar despre acele documente care sunt cunoscute de acest sistem (pentru diferite sisteme, procentul documentelor indexate este diferit, dar, de regulă, nu depășește 30%). nu documentele în sine sunt stocate în motoarele de căutare, ci doar informații despre acestea suficiente pentru ca utilizatorul să le găsească și, drept consecință, este posibil ca sistemul de căutare în rezultatele căutării să nu returneze unele documente care corespund solicitării. Ca urmare a căutării (răspuns la cerere), sistemul sortează documentele în funcție de gradul de conformitate cu solicitarea făcută de utilizator din punctul de vedere al algoritmului motorului de căutare, și nu din punctul de vedere al potrivirea lor reală cu interogarea Această caracteristică a sistemelor economisește în mod semnificativ timpul petrecut în căutarea informațiilor necesare, mai ales atunci când combinația de cuvinte de interogare apare în câteva mii sau milioane de documente, dar există și cazuri în care cele mai relevante documentele solicitate nu sunt primele din lista emisă. În acest caz, trebuie făcut un compromis între numărul de documente examinate și numărul total de documente găsite (de obicei, informațiile necesare sunt conținute în primele câteva zeci de documente găsite), dar cea mai tipică acțiune este de a rafina interogarea folosind rafinatoarele de interogări furnizate de sistem (adică .de obicei cu limbajul de interogareși/sau instrumente avansate de interfață de formulare a interogărilor). De asemenea, ar trebui să apelați la formarea unei cereri mai detaliate dacă există mult zgomot de informații în rezultatele căutării (adică informații care nu corespund cererii), care, de regulă, indică selectarea nereușită. termeni cerere (de exemplu, sunt supuse polisemiei (adică au mai multe semnificații)). În intervalele dintre activitatea robotului de indexare al sistemului, documentele sunt modificate de către utilizatori, dar aceste modificări sunt adesea luate în considerare de sistemul de căutare nu instantaneu, ci după o anumită perioadă de timp, determinată de perioada de indexare a Internetului, deci unele informațiile pot fi potențial indisponibile în sistem la un anumit moment în timp.

Motoarele de căutare ar trebui folosite atunci când aveți nevoie să găsiți informații despre probleme specifice sau pentru a asigura acoperirea completă a resurselor.

Un exemplu de utilizare a sistemelor de regăsire a informațiilor în timpul căutării poate fi cerința de a găsi site-ul web al unei anumite organizații sau de a răspunde la întrebarea „Motivul introducerii unui examen unificat în școlile secundare?”

Cele mai cunoscute motoare de căutare includ servicii precum Google ( http://www.qooqle.com) și Yandex (http://www.yandex.ru).

Sisteme metapozitive

Diferențele de strategie și amploarea acoperirii materiale a diferitelor motoare de căutare duc adesea la faptul că diferite instrumente de căutare oferă răspunsuri diferite la aceeași interogare. Dezvoltatorii au profitat de acest lucru sisteme metapomsk, care în munca lor folosesc potențialul altor mijloace de regăsire a informațiilor (Fig. 5.). Metamotoarele de căutare sunt suplimente pentru motoarele de căutare și cataloagele electronice care nu au propria lor bază de date (index) și, atunci când caută conform instrucțiunilor de căutare ale utilizatorului, generează independent interogări pentru mai multe instrumente externe.

Orez. 5. Schema tipică a unui sistem de metacăutare

căutați, apoi analizați rezultatele obținute și produceți o listă de link-uri în ordinea determinată de raportul evaluărilor răspunsurilor din mai multe instrumente de căutare simultan. În caz contrar, un astfel de sistem sondajează mai multe motoare de căutare și apoi selectează link-uri urmând propriul algoritm.

Motoarele de metacăutare vă permit să reduceți timpul petrecut căutând informații, deoarece atunci când procesează o cerere de utilizator, aceste sisteme accesează simultan mai multe instrumente de căutare diferite.

Cele mai importante metamotoare de căutare sunt MetaCrawler (http://www.metacr awler.com) și MetaBot.ru (h ttp://metabot.ru). Principalul lor avantaj constă în capacitatea de a trimite interogări introduse în ele către alte sisteme și apoi de a rezuma rezultatele. Astfel, utilizatorul, introducând o instrucțiune de căutare, De exemplu în MetaBot.ru, de fapt accesează simultan și alte motoare de căutare. Acest lucru garantează „obiectivitatea” și „completitudinea” rezultatelor obținute, totuși, având în vedere diferențele în modul în care diferitele sisteme procesează termenii, rezultatul poate să nu fie întotdeauna relevant pentru interogare.

Metamotoarele de căutare sunt cele mai eficiente în etapele inițiale ale căutării de informații. Acestea ajută la localizarea instrumentelor de căutare care conțin informații despre informațiile pe care utilizatorul le caută.

Instrumente și metode suplimentare de căutare

Există modalități suplimentare de căutare pe Internet care profită de capacitățile oferite de unele dintre celelalte servicii ale Web-ului, personalul său și utilizatorii săi pentru a facilita căutările de informații. Astfel de servicii includ teleconferințe(forumuri) (o modalitate de interacțiune între utilizatori pe Internet, prin care unul dintre utilizatori lasă mesaje pe o resursă de informații din rețea (site), iar ceilalți utilizatori pot citi în orice moment convenabil pentru ei), reclame electronice(pe baza principiului teleconferințelor), chaturi(de la (needle chat - chat) (o metodă de interacțiune între utilizatori pe Internet, prin care utilizatorii comunică în timp real), servere, conducând căutări de informații prin e-mail(una dintre modalitățile posibile de accesare a instrumentelor de recuperare a informațiilor), etc. Aceste metode sunt suplimentare deoarece:

nu este destinat utilizării în masă;
nu sunt universale (acumulează adrese în cantități insuficiente sau în zone înguste);
nu sunt standard sau obligatorii pentru cei care
le oferă (adică nu există nicio garanție de a primi un răspuns la
cerere).

Tipuri de sisteme de regăsire a informațiilor. Mare enciclopedie a petrolului și gazelor

Nevoia de informare este o nevoie care apare atunci când scopul cu care se confruntă utilizatorul în cursul activităților sale profesionale sau în practica sa socială și de zi cu zi nu poate fi atins fără utilizarea unor informații suplimentare.

Sunt: - automatizat (computerizat); - bibliografic (referință); - interactiv (online); - sisteme de regăsire a informațiilor documentare și factografice.

Metadatele în documentele HTML

Sisteme automate de regăsire a informațiilor

Tema proiectului de diplomă: „Dezvoltarea unui agent de informații (robot) al unui sistem de regăsire a informațiilor pentru colectarea informațiilor pe Internet”

Sunt:
- automatizat (computerizat);
- bibliografic (referință);
- interactiv (online);
- sisteme de regăsire a informațiilor documentare și factografice.