Indexarea documentelor (Sistematizare, subiectizare, indexare coordonate). Procesele motoarelor de căutare

GOST 7,66-92
(ISO 5963-85)

Grupa T62

STANDARDUL DE STAT AL UNIUNII URSS

Sistem de standarde privind informarea, biblioteconomia și publicarea

DOCUMENTE DE INDEXARE

Cerințe generale pentru indexarea coordonatelor

Sistemul de standarde privind informațiile,
biblioteconomie și editare. Indexarea documentelor.
Cerințe generale pentru indexarea coordonatelor


OKSTU 0007

Data introducerii 1993-01-01

DATE INFORMAȚII

1. DEZVOLTAT ȘI INTRODUS de către Comitetul de Stat pentru Știință și Tehnologie URSS și Comitetul Tehnic TC 191 „Informații științifice și tehnice, bibliotecă și editare”

DEZVOLTATORII

V.N. Beloozerov, Ph.D. Philol. Științe (conducător de subiect); N.D. Kravchenko, Ph.D. ped. științe; I.V.Trostnikova; N.A.Slivnitsina; G. N. Khondkarian; V.N.Kazakov, Ph.D. tehnologie. stiinte

2. APROBAT ȘI INTRAT ÎN VIGOARE prin Rezoluția Comitetului de Standardizare și Metrologie al URSS din 27 martie 1992 N 297


Acest standard a fost elaborat prin aplicarea directă a standardului ISO 5963-85 „Documentație. Metode de analiză a documentelor, determinarea obiectului acestora și alegerea termenilor de indexare” cu cerințe suplimentare care reflectă nevoile economiei naționale.

3. Data primei inspecții este 1995.

Frecvența inspecției - 5 ani

4. DEZVOLTAT PENTRU PRIMA Oara

5. DOCUMENTE REGLEMENTARE ŞI TEHNICE DE REFERINŢĂ

Număr articol, cerere

GOST 7,0-84

Parte introductivă

GOST 7,25-80

GOST 7,26-80

Parte introductivă

GOST 7.27-80

Parte introductivă; Anexa 1

GOST 7,52-85

Parte introductivă; 5.7

GOST 7,59-90

Parte introductivă; Anexa 1


Acest standard stabilește cerințe generale pentru indexarea coordonată a documentelor, inclusiv reguli pentru generarea unei imagini de căutare a unui document. Cerințele specifice pentru sistematizarea și identificarea subiectului documentelor sunt în conformitate cu GOST 7.59. Formularul de prezentare a imaginii de căutare a unui document în formatul comunicativ MEKOF - în conformitate cu GOST 7.52.

Standardul se aplică sistemelor de regăsire a informațiilor în care conținutul documentelor este prezentat într-o formă comprimată prin unități lexicale ale limbajului de regăsire a informațiilor. Standardul nu se aplică formării înregistrărilor faptice în bazele de date faptice.

Termeni și definiții - conform GOST 7.0, 7.26, 7.27, 7.59 și Anexa 1.

Cerințele suplimentare care reflectă nevoile economiei naționale sunt prezentate în Anexa 1.

1. DISPOZIȚII GENERALE

1. DISPOZIȚII GENERALE

1.1. Procesul de indexare include următorii pași, care se desfășoară în următoarea secvență:

analiza și determinarea conținutului documentului ca obiect de indexare;

selectarea conceptelor care caracterizează conținutul documentului;

selectarea termenilor de indexare pentru a desemna concepte;

formarea unei imagini de căutare a unui document din termeni de indexare.

Etapele enumerate pot fi combinate ca parte a procedurilor tehnologice, cu condiția ca fiecare etapă să fie efectuată corespunzător.

1.2. Imaginea de căutare a documentului (SID) este formată din termeni de indexare selectați folosind mijloacele gramaticale ale limbajului de regăsire a informațiilor (IRL).

1.3. În timpul procesului de indexare, nu este recomandat să descrii un document ca obiect fizic (în ceea ce privește forma, volumul, etc.). Este permisă reflectarea unor astfel de informații în POD dacă vă permite să determinați mai precis conformitatea documentului cu nevoile de informații ale utilizatorului sistemului.

2. ANALIZA DOCUMENTULUI

2.1. Atunci când analizează un document, indexatorului trebuie să i se ofere posibilitatea de a revizui documentul în întregime. Dacă este imposibil să vă familiarizați complet cu documentul, indexatorul trebuie să studieze părțile de text disponibile ale documentului (principalele surse de indexare):

aparatul de referință al documentului - titlu (denumire), adnotare, rezumat, cuprins (cuprins), prefață, concluzie etc.;

introducere;

titlurile părților și capitolelor;

primele fraze ale capitolelor și ale paragrafelor;

ilustrații, diagrame, tabele și legende;

cuvinte și grupuri de cuvinte care sunt subliniate sau evidențiate prin mijloace de tipărire în text.

Indexarea numai după titlu este incompletă. Când indexați prin rezumate și adnotări, trebuie să vă asigurați că conținutul documentului este transmis în mod adecvat în acestea.

2.2. Atunci când se analizează documente non-text (audiovizuale și altele) care, pe lângă citire, necesită vizualizarea, ascultarea, testarea unui obiect în acțiune și alte proceduri similare, este permisă indexarea acestora după componenta text existentă (nume, descriere succintă, etc.), dar chiar și în acest caz. În acest caz, indexatorului ar trebui să i se ofere posibilitatea de a revizui pe deplin documentul dacă materialul textual pare insuficient.

3. SELECȚIA CONCEPTELOR CARACTERISTICE CONȚINUTUL DOCUMENTULUI

3.1. Numărul de caracteristici și concepte reflectate în PML determină caracterul complet al acestuia și este cel mai important indicator al calității indexării.

3.1.1. PML trebuie să reflecte toate conceptele care pot fi de valoare pentru utilizatorii sistemului.

Un document poate identifica mai mult de un subiect din zona de interes a unui utilizator. Aceste subiecte ar trebui luate în considerare separat.

3.1.2. Subiectele reflectate în timpul indexării nu ar trebui să se limiteze la cadrul îngust al intereselor imediate ale utilizatorilor sistemului de regăsire a informațiilor. Conceptele legate de aspectele secundare ale documentului (de exemplu, aspectele sociale și economice ale cercetării științifice și tehnice) ar trebui incluse și în AML.

3.1.3. La alegerea conceptelor, criteriul principal este valoarea potențială a conceptului pentru exprimarea conținutului unui document sau pentru căutarea acestuia. În acest caz, este necesar să ne concentrăm asupra solicitărilor tipice către IPS:

selectați conceptele cel mai frecvent utilizate în rândul comunității de utilizatori IPS;

clarificați vocabularul și regulile gramaticale ale FP pe baza feedback-ului de la utilizatori.

Modificările aduse IPL nu ar trebui să încalce structura generală și logica inerente creării acestuia.

3.1.4. Numărul de termeni de indexare alocați unui document este determinat de cantitatea de informații conținute în document. Limitarea numărului de termeni ar trebui să se bazeze pe o selecție semnificativă a celor mai importante concepte.

3.2. Completitudinea indexării adoptate în fiecare sistem informațional este determinată de scopul său funcțional. Mărimea documentului afectează, de asemenea, în mare măsură caracterul complet al indexării. Este necesar să se țină seama de acești factori și, pe baza lor, să se facă o selecție expertă a conceptelor din document, fără a încerca să includă în AML toate conceptele menționate în acesta.

3.3. Specificul AML este determinat de măsura în care conceptele documentului sunt reflectate cu acuratețe în termenii de indexare și este, de asemenea, unul dintre parametrii calității indexării. Înlocuirea unui concept cu un termen care reflectă un concept mai larg duce la o pierdere a specificității. Termeni mai largi pot fi folosiți în cazuri speciale:

dacă un termen prea specific nu este clar pentru utilizatori, mai ales atunci când conceptul corespunzător este utilizat numai în zonele limită de activitate;

dacă conceptul nu este dezvăluit integral în document sau este auxiliar pentru prezentarea conținutului documentului.

3.4. Se recomandă ca fiecare IPS să elaboreze liste de caracteristici care sunt considerate importante pentru reflectarea în AML. Pentru toate sistemele, poate fi recomandată o listă de indicatori de rol în conformitate cu GOST 7.52. În funcție de nevoile unui anumit IP, această listă poate fi fie extinsă, fie scurtată.

4. SELECTAREA TERMENILOR DE INDEXARE

4.1. În procesul de selectare a termenilor de indexare, conceptele care caracterizează conținutul documentului sunt:

unități lexicale preferate (descriptori sau cuvinte cheie), selectate după regulile unui anumit FL;

termeni care reflectă concepte noi, verificând acuratețea și acceptabilitatea acestora în dicționare, enciclopedii, cărți de referință, tabele de clasificare, tezaure de regăsire a informațiilor, standarde terminologice și alte surse recunoscute ca fiind autorizate în domeniu.

4.2. Selecția termenilor de indexare se realizează pe baza unui tezaur de regăsire a informațiilor înregistrat (GOST 7.25) sau publicat, care este utilizat la elaborarea interogărilor către sistemul de regăsire a informațiilor.

Atunci când se utilizează un tezaur, este posibil să se reducă numărul de termeni incluși în PML prin excluderea conceptelor generale care pot fi utilizate în etapa de căutare a unui document sau în etapa de elaborare a unei instrucțiuni de căutare bazate pe link-uri din articolele tezaurului .

4.3. Conceptele care nu sunt reprezentate în dicționarul de indexare, dar sunt necesare pentru formarea PML, sunt exprimate în unul din două moduri:

un nou termen specific care este inclus în AML și în dicționar;

un termen mai general găsit în IPL; în acest caz, termenul specific este trimis serviciului de întreținere FL ca candidat pentru includerea în dicționar.

Noile concepte sunt reprezentate ca fiind cele mai apropiate unități lexicale existente în FL și se evaluează și utilitatea includerii de noi termeni în dicționar din punct de vedere al căutării.

4.4. La indexarea cu cuvinte cheie gratuite preluate din textul documentului, acestea trebuie reduse la forma canonică conform GOST 7.25. Se recomandă limitarea lungimii frazelor la două sau trei forme de cuvinte.

Schema de indexare folosind un tezaur de regăsire a informațiilor este prezentată în Anexa 2.

5. FORMAREA IMAGINII DE CĂUTARE A UNUI DOCUMENT

5.1. POD-ul constă din termeni de indexare selectați, organizați folosind mijloacele gramaticale ale FL unui anumit IRS.

5.2. Următoarele categorii de date furnizate de tehnologia de indexare a unui anumit IRS pot fi incluse în AML:

gradul de normalizare a termenilor de indexare și vocabularul folosit pentru aceasta;

caracteristicile individuale ale termenului de indexare;

conexiunea termenilor de indexare în construcţiile sintactice ale POD.

Pentru a include date faptice în PML, categoriile gramaticale specificate în secțiunea. 6.

5.3. Pe baza gradului de normalizare, se disting două tipuri de termeni de indexare a coordonatelor: descriptori și cuvinte cheie.

5.4. Termenii de indexare trebuie să fie prezentați în AML în conformitate cu regulile de ortografie ale limbajului natural utilizat în sistem.

5.4.1. Descriptorii pot fi reprezentați prin coduri condiționate care sunt specificate în dicționarul de indexare utilizat. În acest caz, IRS trebuie să ofere o căutare automată a formelor de ortografie ale descriptorilor după codurile lor.

5.4.2. Cuvintele cheie din sistemele informatice multilingve, cu AML bazate pe diverse limbi naționale, trebuie marcate cu semne care indică faptul că aparțin uneia sau alteia limbi naturale.

5.5. Caracteristicile individuale ale termenilor de indexare sunt elemente opționale ale AML și sunt utilizate pentru a clarifica conținutul unui document, pentru a organiza procedurile de regăsire a informațiilor sau pentru prelucrarea ulterioară analitică și sintetică a documentelor din sistem.

Caracteristicile individuale includ date despre categoria semantică și morfologică a termenului de indexare, rolul și ponderea informației acestuia, metoda de obținere și utilizarea prevăzută.

5.5.1. Caracteristica semantică a termenului de indexare este de a-l clasifica în următoarele categorii lexicografice:

1) un termen care exprimă un concept științific și tehnic;

2) nume propriu, identificator;

3) numele parametrului;

4) valoarea parametrului (exprimată ca text sau o valoare numită);

5) expresie numerică;

6) desemnarea unității de valoare.

5.5.2. Caracteristica morfologică a termenului de indexare este de a-l atribui categorii lexicografice:

1) cuvânt derivat;

2) cuvânt compus;

3) frază;

4) abreviere;

5) fragment de cuvânt.

Caracteristicile morfologice sunt utilizate în POD pentru a implementa analiza semantică a unităților lexicale din IRS pe baza caracteristicilor lor formale.

5.5.3. Rolul termenului de indexare este indicat în AML pentru a clarifica locul conceptului corespunzător în conținutul documentului. Pentru aceasta, indicatorii de rol special adoptați în IRS marchează termenii de indexare care reflectă următoarele aspecte ale documentului:

1) obiectul cercetării, descrierea;

2) caracteristicile, proprietățile, parametrii obiectului;

3) metode și instrumente de cercetare, echipamente tehnologice;

4) componente, componente, detalii ale obiectului;

5) aria de aplicare a obiectului (ramură economie, tehnologie, știință);

6) scopul obiectului;

7) scopul cercetării, dezvoltării, descrierii;

8) rezultatele cercetării și dezvoltării.

5.5.4. Ponderea informațională a unui termen de indexare reflectă în AML importanța acestui concept pentru un document dat. Numărul de gradări ale ponderii informației este determinat de nevoile unui sistem informațional specific. Este necesar să distingem:

1) concepte care exprimă tema principală a documentului;

2) concepte care exprimă subiecte secundare ale documentului;

3) concepte utilizate în document ca auxiliare pentru prezentarea conţinutului acestuia.

Este acceptabil să se folosească un indicator de pondere negativă pentru a marca termenii de indexare pentru a indica faptul că conceptul nu este acoperit în document.

5.5.5. Notele necesare indicarii modului de obtinere a termenului de indexare sunt folosite pentru organizarea procesului tehnologic de indexare. Ar trebui să se distingă următoarele așternuturi:

1) termenul este atribuit la latitudinea indexatorului, dar nu se află în document;

2) termenul este înscris în AML pe baza legăturilor indicate în tezaur, dar nu este prezent în document;

3) termenul a fost obținut prin indexare automată.

5.5.6. Notele despre utilizarea intenționată a termenului de indexare sunt introduse în POD pentru a evidenția unitățile lexicale care sunt supuse unei prelucrări speciale în procesele de prelucrare ulterioară analitică și sintetică a informațiilor. Ar trebui să se distingă următoarele așternuturi:

1) termenul este folosit ca titlu de subiect în indexuri:

2) pentru acest termen de indexare există date factuale specificate în LSB;

3) termenul este folosit doar ca un calificativ clarificator al altor termeni.

5.6. Termenii de indexare din AML pot fi furnizați cu indicatori de legătură care îi combină în structuri sintactice care reflectă:

1) ordinea și poziția relativă a termenilor de indexare în document;

2) conexiuni semantice ale conceptelor din document;

3) conexiuni paradigmatice ale descriptorilor din tezaur.

Construcțiile sintactice sunt considerate ca unități integrale ale subdiviziunii împreună cu termenii de indexare. Ele pot fi combinate cu alte constructe sintactice sau cu termeni individuali de indexare într-un construct de ordin superior.

Numărul de niveluri ale ierarhiei structurilor sintactice este determinat de nevoile sistemelor informaționale specifice. Construcțiile de ordinul al patrulea și superior nu ar trebui să fie utilizate.

Structurile sintactice pot fi caracterizate prin indicatori de pondere, rol și utilizare prevăzută, similari termenilor de indexare individuali (a se vedea clauzele 5.5.3, 5.5.4, 5.5.6).

5.7. Înregistrarea POD-ului în memoria IPS este determinată de metoda de codificare adoptată în acesta, ținând cont de cerințele acestei secțiuni și GOST 7.52.

6. INDEXAREA DOCUMENTULUI FACTOGRAFIC

6.1. Indexarea faptică a unui document (FID) constă în identificarea într-un document și includerea în AML a datelor care exprimă informații specifice (mesaje) disponibile în document.

Pe baza rezultatelor FID, matricele de informații sunt formate în sisteme informaționale faptice, în care unitatea de informație este o înregistrare faptică.

6.2. FID presupune o distincție formală în AML între două categorii de termeni de indexare care exprimă:

1) subiecte sau obiecte ale mesajului;

2) proprietățile atribuite acestor obiecte, care sunt sensul mesajului.

Termenii corespunzători de indexare trebuie legați între ei într-o structură sintactică care combină numele obiectului, caracteristicile acestuia, semnificațiile acestora, unitățile de valoare și reflectând conexiunile semantice ale conceptelor din document.

În plus, o astfel de construcție sintactică poate fi caracterizată:

1) indicator de modalitate;

2) condiția de adevăr.

6.3. Indicatorul de modalitate al unui mesaj de fapt determină diferența dintre mesajele de următoarele tipuri:

1) fapt observabil;

2) valoarea admisibilă;

3) cerințe standard;

4) indicator țintă;

7) presupunerea;

8) stare.

Dacă sistemul informațional nu utilizează indicatori de modalități, atunci toate mesajele faptice sunt considerate ca aparținând unei singure modalități, care trebuie să fie indicate în documentația operațională a sistemului.

6.4. Condiția pentru adevărul unui mesaj factual este un alt mesaj factual asociat cu primul într-o construcție sintactică de nivel superior.

De exemplu:

X = greutatea produsului

Z = 150 g.

V = umiditate nu mai mult de 45%,

unde X este o caracteristică a obiectului,

Z - valoare caracteristică,

Y este condiția de adevăr.

O afirmație faptică care este o condiție de adevăr trebuie să aibă un indicator al modalității condiției „dacă”, de exemplu:

(greutatea produsului = 150 g) (dacă (umiditatea nu este mai mare de 45%)).

6.5. Termenii de indexare care exprimă subiectul (obiectul) mesajului aparțin categoriilor 1 sau 2 specificate în clauza 5.5.1. Când se utilizează categoria 1, termenului de indexare i se poate atribui suplimentar un indicator al singularității sau generalității obiectului (cuantificator).

Cuantificatorul general este utilizat în mesajele în care se exprimă o declarație despre toate obiectele care intră în domeniul de aplicare al conceptului corespunzător.

Cuantificatorul de singularitate este utilizat în mesajele care exprimă informații despre obiectul care face parte din conceptul dat, care este luat în considerare în acest document.

6.6. Termenii de indexare care exprimă proprietățile obiectelor care compun sensul mesajului pot fi exprimați prin unități lexicale din categoriile 1, 2, 3 (vezi clauza 5.5.1) sau o construcție parametrică (vezi clauza 5.6).

6.7. O construcție parametrică trebuie să conțină două părți exprimate formal: numele parametrului și lista valorilor parametrilor (a se vedea clauza 6.8), care sunt combinate într-o singură construcție sintactică.

6.8. Lista de valori într-un proiect parametric trebuie să includă un set de valori ale parametrilor și o indicație a alternativității sau simultaneității (simultaneității) valorilor.

Un set de valori este specificat prin enumerarea sau specificarea a două valori limită, între care se află valorile acceptate de parametru (interval de valori). Când se specifică un interval de valori, se indică în mod formal care dintre valori este valoarea inițială și finală pentru intervalul de valori, precum și dacă valorile limită sunt incluse în intervalul specificat. Una dintre valorile limită a intervalului poate lipsi dacă valoarea parametrului este limitată doar pe o singură parte.

Indicația de simultaneitate este utilizată atunci când un obiect mesaj are toate valorile parametrilor specificate. Indicația de alternativă este utilizată atunci când parametrii unui obiect mesaj trebuie selectați dintre cei specificați.

6.9. Valorile parametrilor pot fi reprezentate printr-o construcție sintactică a doi termeni de indexare - o expresie numerică și numele unei unități de valoare - dacă este necesar, efectuați operații de calcul sau comparare numerică.

7. INDEXARE AUTOMATIZATĂ

7.1. Scopul automatizării indexării este de a minimiza resursele materiale și umane cheltuite pentru procedura de indexare, precum și de a obține stabilitatea și uniformitatea rezultatelor acesteia.

7.2. Indexarea automată (AI) este realizată de:

1) textul documentului primar.

2) titlul și rezumatul sau rezumatul documentului;

AI conform textului documentului primar trebuie să includă o procedură de comprimare a AML.

7.3. Utilizând tehnologia computerizată, sunt efectuate următoarele etape semnificative ale IA:

1) identificarea părților informative ale documentului;

2) identificarea cuvintelor textului și aducerea lor la o formă normalizată (analiza și sinteza morfologică);

3) generarea unei liste de cuvinte cheie în textul sursă;

4) selectarea descriptorilor folosind tezaurul;

5) formarea AML.

7.4. Identificarea părților informative ale unui document

Tehnologia AI ar trebui să prevadă identificarea și furnizarea către indexator sau program de indexare a celor mai informative fragmente de document din lista specificată în clauza 2.1. Algoritmii de identificare a fragmentelor informative pot fi furnizați pe baza altor criterii formale, precum și în baza deciziei unui indexator.

7.5. Identificarea cuvintelor textului

7.5.1. Procesul de identificare a cuvintelor dintr-un text ar trebui să includă: identificarea formelor de cuvinte ale unui cuvânt și identificarea cuvintelor informative ale textului.

În acest caz, poate fi necesar să se utilizeze proceduri inteligente pentru a rezolva probleme precum identificarea și prelucrarea structurilor sintactice, identificarea și rezolvarea omonimiei.

7.5.2. Pentru a identifica cuvintele dintr-un text, se folosesc dicționare automate (dicționare de fundamente, paradigme, fraze etc.). Dicționarele trebuie să fie prezentate în baza de date a sistemului și prevăzute cu instrumente de vizualizare și întreținere.

7.6. Generarea unei liste de cuvinte cheie text

7.6.1. În procesul de formare a unei liste de cuvinte cheie text, se efectuează o analiză sintactică a textului ținând cont de regulile de compatibilitate a categoriilor gramaticale ale unei anumite limbi naturale.

7.6.2. Analiza sintactică a textului rezolvă următoarele probleme:

1) împărțirea textului în fragmente după criterii specificate;

2) stabilirea dependenţelor sintactice între formele de cuvinte ale textului;

3) identificarea frazelor;

4) normalizarea cuvintelor cheie identificate.

7.7. Generarea automată a AML

7.7.1. În procedura AI, este permisă formarea unui PML din cuvinte cheie sau descriptori liberi ai unui tezaur de regăsire a informațiilor utilizați în acest domeniu.

7.7.2. Când se folosesc descriptori AI ai unui tezaur de regăsire a informațiilor, în etapa formării ML, cuvintele cheie sunt înlocuite cu descriptori specificați în tezaur.

7.7.3. Când se formează un POD din descriptori, este posibil să se îmbogățească POD-ul prin adăugarea de termeni mai înalți la tezaurul de regăsire a informațiilor.

7.7.4. Procedura AI ar trebui să prevadă includerea mijloacelor gramaticale standard în POD (a se vedea secțiunea 5).

7.7.5. Următoarele cerințe sunt impuse sistemelor AI:

1) modularitatea construcției, adică o astfel de organizare internă a sistemului lingvistic și software în care procedurile de rezolvare a problemelor individuale de IA sunt implementate folosind blocuri sau module independente;

2) concentrarea pe software și hardware standard;

3) respectarea documentației normative și metodologice actuale privind indexarea coordonatelor.

ANEXA 1 (pentru referință). TERMENI ȘI DEFINIȚII

ANEXA 1

informație

1. Indexare automată- indexarea, a cărei tehnologie presupune utilizarea unor proceduri formale efectuate cu ajutorul tehnologiei informatice și poate include utilizarea unor proceduri inteligente atunci când se iau decizii de bază cu privire la compoziția imaginii de căutare.

2. Indexare automată- alcătuirea unei imagini de căutare folosind numai proceduri formale de prelucrare a textului unui document sau al unei cereri, realizată prin tehnologie informatică.

3. Cuvânt informativ- un cuvânt sau o expresie din textul unui document sau al unei cereri care poartă o încărcătură semantică semnificativă.

4. Indexare controlată- indexarea, care presupune înlocuirea cuvintelor informative ale textului cu descriptori specificați într-un anumit tezaur de regăsire a informațiilor sau alt dicționar de indexare.

5. Indexarea coordonatelor- indexarea, al cărei scop este de a reflecta cuprinzător conținutul unui document sau al unei interogări prin includerea în imaginea de căutare a tuturor termenilor de indexare necesari pentru aceasta.

6. Unitatea lexicală (LE) a IPL- o succesiune de caractere, un cuvânt, o frază, un fragment dintr-un cuvânt sau un simbol, care este considerat într-un FL dat ca o unitate elementară folosită pentru a reprezenta un anumit concept, obiect sau valoare de parametru în imaginile de căutare ale documentelor sau interogărilor .

7. Indexare gratuită- indexarea, a cărei tehnologie nu prevede înlocuirea cuvintelor informative ale textului în conformitate cu recomandările unui dicționar special de indexare.

8. Termen specific- un cuvânt informativ care reflectă cel mai bine conținutul documentului, a cărui utilizare distinge acest document de alte documente legate tematic.

9. Specificitatea indexării - caracteristica de calitate a indexării, determinată de raportul dintre numărul de termeni specifici și informațiile faptice și numărul de termeni nespecifici din imaginea de căutare.

10. Completitudinea indexării- gradul de reflectare în imaginea de căutare a conținutului documentului și (sau) cererii, definit ca raportul dintre numărul de termeni specifici și informațiile faptice incluse în imaginea de căutare și numărul de astfel de termeni și informații disponibile în textul documentului sau al cererii.

11. Indexarea faptelor - indexarea, care presupune reflectarea în imaginea de căutare a unui document a unor informații specifice (mesajelor) care este sensul acestui document.

ANEXA 2 (pentru referință). SCHEMA DE INDEXARE PRIN TEZAURUL GĂSIREA INFORMAȚIILOR

ANEXA 2
informație

1. Studiază documentul și întocmește o listă de concepte esențiale pentru conținutul său, ținând cont de specificul IPS.

2. Luați în considerare primul concept

3. Găsiți în tezaur o unitate lexicală care reflectă acest concept. Dacă nu există, treceți la pasul 11.

4. Dacă unitatea lexicală găsită este un ascriptor, înlocuiți-o cu descriptorul specificat în link (sau o combinație de descriptori).

6. Verificați dacă descriptorii specificați în referințe sunt mai specifici pentru a exprima conceptul dat. Dacă da, atunci treceți la pasul 10.

7. Notați unitățile lexicale găsite în imaginea de căutare, oferindu-le indicatorii gramaticali necesari conform regulilor FL dat.

8. Verificați dacă există concepte din document care nu sunt încă reflectate în imaginea de căutare și luați în considerare următorul concept. Treceți la pasul 3.

9. Dacă lista de concepte de document este epuizată, terminați lucrarea.

10. Înlocuiți descriptorul original cu unul mai specific, așa cum este indicat de linkul din tezaur. Treceți la pasul 7.

11. Găsiți descriptori în tezaur, a căror includere comună în imaginea de căutare reflectă acest concept. Dacă nu există, treceți la pasul 12, dacă există, treceți la pasul 5.

12. Stabiliți un termen care exprimă conceptul și îndeplinește cerințele pentru descriptori în conformitate cu GOST 7.25.

13. Trimiteți termenul găsit la serviciul de întreținere IPL ca candidat pentru includerea în tezaur. Treceți la pasul 7.

14. Sfârșitul.

O diagramă bloc a indexării utilizând un tezaur de regăsire a informațiilor este prezentată în desen.

Diagrama de flux al algoritmului de indexare



Textul documentului se verifică după:
publicație oficială
M.: Editura Standarde, 1992

Am lansat o nouă carte, Social Media Content Marketing: How to Get Inside Your Followers' Heads and Make them to Love with Your Brand.

Abonati-va


Indexarea site-ului este procesul de căutare, colectare, procesare și adăugare de informații despre un site la o bază de date a unui motor de căutare.

Mai multe videoclipuri pe canalul nostru - învață marketing pe internet cu SEMANTICA

Indexarea unui site înseamnă că un robot motor de căutare vizitează resursa și paginile acesteia, studiază conținutul și îl introduce în baza de date. Ulterior, aceste informații sunt returnate pe baza interogărilor cheie. Adică, utilizatorii rețelei introduc o interogare în bara de căutare și primesc un răspuns sub forma unei liste de pagini indexate.

În termeni simpli, se întâmplă cam așa: întregul Internet este o bibliotecă uriașă. Orice bibliotecă care se respectă are un catalog care facilitează găsirea informațiilor de care aveți nevoie. La mijlocul anilor '90 ai secolului trecut, toată indexarea a fost redusă la o astfel de catalogare. a găsit cuvinte cheie pe site-uri web și a format o bază de date din acestea.

Astăzi, boții colectează și analizează informații pe baza mai multor parametri (erori, unicitate, utilitate, disponibilitate etc.) înainte de a le introduce în motorul de căutare.

Algoritmii roboților de căutare sunt actualizați în mod constant și devin mai complexi. Bazele de date conțin o cantitate imensă de informații, în ciuda acestui fapt, căutarea informațiilor necesare nu necesită mult timp. Acesta este un exemplu de indexare de înaltă calitate.

Dacă site-ul nu a fost indexat, atunci este posibil ca informațiile să nu ajungă la utilizatori.

Cum indexează site-urile Google și Yandex

Yandex și Google sunt probabil cele mai populare motoare de căutare din Rusia. Pentru ca motoarele de căutare să indexeze site-ul dvs., trebuie să îl raportați. Puteți face acest lucru în două moduri:

  1. Adăugați un site pentru indexare folosind link-uri pe alte resurse de pe Internet - această metodă este considerată optimă, deoarece paginile găsite astfel sunt considerate utile de către robot și sunt indexate mai rapid, de la 12 ore la două săptămâni.
  2. Trimiteți site-ul dvs. pentru indexare completând manual un formular special pentru motor de căutare folosind serviciile Yandex.Webmaster, Google Webmaster Tools, Bing Webmaster Tools etc.

A doua metodă este mai lentă; site-ul este pus la coadă și indexat timp de două săptămâni sau mai mult.

În medie, site-urile și paginile noi sunt indexate în 1-2 săptămâni.

Se crede că Google indexează site-urile mai repede. Acest lucru se întâmplă deoarece motorul de căutare Google indexează toate paginile - atât utile, cât și inutile. Cu toate acestea, doar conținutul de înaltă calitate este clasat.

Yandex funcționează mai lent, dar indexează materialele utile și exclude imediat toate paginile nedorite din căutare.

Indexarea unui site funcționează astfel:

  • robotul de căutare găsește portalul și examinează conținutul acestuia;
  • informațiile primite sunt introduse în baza de date;
  • în aproximativ două săptămâni, materialul care a trecut cu succes de indexare va apărea în rezultatele căutării, la cerere.

Există 3 moduri de a verifica indexarea unui site și a paginilor sale în Google și Yandex:

  1. utilizarea instrumentelor pentru webmasteri - google.com/webmasters sau webmaster.yandex.ru;
  2. introducând comenzi speciale în bara de căutare, comanda pentru Yandex va arăta astfel: gazdă: numele site-ului + domeniu de prim nivel; iar pentru Google - site: nume site + domeniu;
  3. folosind servicii speciale automate.

Verificarea indexării

Acest lucru se poate face folosind:

  1. operatorii motoarelor de căutare - caută în ajutor sau;
  2. servicii speciale, de exemplu rds bar;

Cum să accelerezi indexarea site-ului

Viteza cu care apare materialul nou în rezultatele căutării depinde de cât de repede roboții efectuează indexarea și cu cât publicul țintă va ajunge mai repede pe site.

Pentru a accelera indexarea de către motoarele de căutare, trebuie să urmați mai multe recomandări.

  1. Adăugați un site la un motor de căutare.
  2. Umpleți în mod regulat proiectul cu conținut unic și util.
  3. Navigarea prin site ar trebui să fie convenabilă, accesul la pagini nu trebuie să depășească 3 clicuri din pagina principală.
  4. Plasați resursa pe găzduire rapidă și de încredere.
  5. Configurați corect robots.txt: eliminați restricțiile inutile, blocați paginile de servicii de la indexare.
  6. Verificați erorile, numărul de cuvinte cheie.
  7. Faceți linkuri interne (linkuri către alte pagini).
  8. Postați linkuri către articole pe rețelele sociale și marcaje sociale.
  9. Creați o hartă a site-ului, sau chiar două, una pentru vizitatori și una pentru roboți.

Cum să blochezi un site de la indexare

Blocați indexarea unui site - interziceți roboților de căutare accesul la site, la unele dintre paginile acestuia, la o parte din text sau imagine. Acest lucru se face de obicei pentru a ascunde informațiile sensibile, paginile tehnice, site-urile la nivel de dezvoltare, paginile duplicate etc. de accesul public.

Puteți face acest lucru în mai multe moduri:

  • Folosind robots.txt, puteți preveni indexarea unui site sau a unei pagini. Pentru a face acest lucru, la rădăcina site-ului este creat un document text, care stabilește regulile pentru roboții motoarelor de căutare. Aceste reguli constau din două părți: prima parte (User-agent) indică destinatarul, iar a doua (Disallow) interzice indexarea oricărui obiect.
    De exemplu, interzicerea indexării întregului site pentru toți roboții de căutare arată astfel:

Agent utilizator: *

Nu permite: /

  • Folosind metaeticheta robots, care este considerată cea mai corectă modalitate de a bloca indexarea unei pagini. Folosind etichetele noindex și nofollow, puteți împiedica roboții oricăror motoare de căutare să indexeze un site, o pagină sau o parte a textului.

O intrare pentru a dezactiva indexarea unui întreg document ar arăta astfel:

Puteți crea o interdicție pentru un anumit robot:

Ce afectează indexarea în timpul promovării?

Datorită indexării, site-urile sunt incluse în motorul de căutare. Cu cât conținutul este actualizat mai des, cu atât se întâmplă mai repede, deoarece roboții vin mai des pe site. Acest lucru are ca rezultat un clasament de căutare mai ridicat.

Indexarea site-ului în motoarele de căutare oferă un aflux de vizitatori și contribuie la dezvoltarea proiectului.

Pe lângă conținut, roboții evaluează traficul și comportamentul vizitatorilor. Pe baza acestor factori, ei trag concluzii despre utilitatea resursei, vizitează site-ul mai des, ceea ce îl ridică pe o poziție superioară în rezultatele căutării. În consecință, traficul crește din nou.

Indexarea este un proces important pentru promovarea proiectelor. Pentru ca indexarea să aibă succes, roboții de căutare trebuie să se asigure că informațiile sunt utile.

Algoritmii pe care ii folosesc motoarele de cautare se schimba constant si devin mai complexi. Scopul indexării este de a introduce informații în baza de date a motorului de căutare.

Una dintre cele mai importante operațiuni de prelucrare a informațiilor analitice și sintetice ca mijloc de regăsire a informațiilor este indexarea documentelor și interogările de informații.

Indexare - procesul de exprimare a conținutului unui document și (sau) cerere pe limbaj de recuperare a informațiilor (IRL) prin utilizarea termeni de indexare– indici de clasificare, titluri de subiecte (GR), cuvinte cheie, descriptori, coduri . Cu alte cuvinte, indexarea este procesul de traducere a conținutului documentelor și a interogărilor din limbaj natural în FL, având ca rezultat crearea imagine de căutare document (DOI) și imagine de căutare interogare (QI). Astfel, informațiile conținute în document sunt „restrânse” și prezentate în IPL sub forma unui index, titlu de subiect sau descriptor, sau cuvânt cheie.

Limba de regăsire a informațiilor (IRL) - Acesta este un limbaj artificial special creat, conceput pentru a exprima conținutul documentelor și (sau) interogări în scopul căutării lor ulterioare. ILP este elementul principal al aparatului logico-semantic al sistemului de regăsire a informațiilor (IRS).

Necesitatea creării unui limbaj artificial (pentru a exprima conținutul semantic al documentelor în scopul căutării acestora) se datorează faptului că limbajul natural are o serie de proprietăți care împiedică utilizarea acestuia pentru înregistrarea și preluarea informațiilor: aceasta este ambiguitatea și polisemia cuvintelor în limbaj natural. Sensul exact al multor cuvinte poate fi determinat doar din contextul în care sunt folosite (instrument de percuție, doză de impact etc.). Acești factori nu permit realizarea unei corespondențe exacte între conținutul documentului și mijloacele de exprimare a acestui conținut.

Dificultățile utilizării limbajului natural ca limbă străină sunt agravate și mai mult de faptul că IPS poate folosi nu texte complete ca documente de intrare, ci rezumate, adnotări și descrieri bibliografice, care sunt rezultatul colapsării conținutului documentelor.

Cerințe de bază pentru IPJ:

· Neambiguitate;

· Putere semantică suficientă

· Deschidere (posibilitatea de ajustare a limbii)

Fiecare IPL are un vocabular specific care reprezintă un set de unități lexicale (LE)– desemnarea unui concept separat, minimal și indivizibil în această funcție. Vocabularul limbilor naturale este folosit ca LE în IPL - cuvinte, fraze ale titlului subiectului, coduri digitale sau alfanumerice etc.

Un punct important la indexare este crearea unei imagini de căutare a documentelor (SID). Căutați imaginea documentului– conținutul semantic principal al documentului (și nu toate informațiile conținute în acesta), exprimat în termenii unui IP formalizat. PML se potrivește în mod unic cu acest document, iar documentele sunt căutate în gama de documente.


Indexarea unei cereri se realizează și prin traducerea conținutului acesteia în FPJ. Astfel, se numește setul de termeni de indexare care exprimă conținutul semantic al interogării imagine de interogare de căutare (POS).

Căutarea se efectuează folosind un set de termeni de indexare. Pentru a crește eficiența regăsirii informațiilor la cerere, POS-ul poate fi completat cu instrucțiuni speciale privind succesiunea operațiilor logice în procesul de regăsire a informațiilor, care se numesc ordinea de căutare.

Indexarea este implementată în următoarele procese: subiectizare, sistematizare și indexare de coordonate.

sistematizare - un tip de indexare în care conținutul unui document și (sau) cerere este exprimat prin indici de clasificare, în conformitate cu regulile unei anumite clasificări IP (KS). Acest principiu de indexare este considerat a fi clasificare. Oferă capacitatea de a organiza căutarea informațiilor pe o bază ierarhică. Specialiștii care realizează procesul de sistematizare în biblioteci și centre de informare se numesc sistematizatori.

Subiectificarea– un tip de indexare în care conținutul unui document și (sau) cerere este exprimat printr-un titlu de subiect (SR) în conformitate cu regulile unui anumit FL specific subiectului. Principiul de indexare a subiectelor se bazează pe utilizarea LE, care fac parte din titlurile de subiecte, limbaj natural(adică, titlurile de subiecte care exprimă POD și POP sunt compilate pe baza limbajului natural). Principiul de indexare a subiectelor oferă posibilitatea de a organiza căutarea informațiilor în ordine alfabetică. Procesele de subiectivizare sunt realizate în biblioteci și centre de informare de către subiectivizatori.

Indexarea coordonatelor - un tip de indexare în care conținutul semantic al unui document și (sau) interogare este exprimat multidimensional printr-o varietate de cuvinte cheie sau descriptori. Un limbaj destinat indexării coordonatelor se numește limbaj descriptor. Specialiștii care efectuează indexarea coordonatelor se numesc indexatori.

Termenii „indexare” și „indexare” sunt obișnuiți în literatura de limbă engleză și sunt utilizați pe scară largă în practica bibliotecilor internaționale și naționale.

Deci, în funcție de tipul de indexare, se disting identificarea subiectului, clasificarea și descriptorul FP. Acestea includ multe LE și relații gramaticale (paradigmatice și sintagmatice) între ele. LE este desemnarea unui concept separat, acceptat în IPL și indivizibil în această funcție. LE-urile pot reprezenta cuvinte acceptate în limbaj natural, fraze stabilite, abrevieri, simboluri, date, abrevieri general acceptate, componente lexical semnificative ale cuvintelor complexe, precum și coduri echivalente sau desemnări simbolice ale unei limbi artificiale. Relațiile gramaticale vă permit să organizați LE într-un sistem.

Cerințe pentru IP:

· Transmite complet și exact conținutul documentului reflectat în acest IRS;

· Asigurarea interpretării fără ambiguitate a termenilor de indexare;

· Permite indexarea cu mai multe aspecte;

· Permite modificări (adăugiri, corecții);

· Asigurați simplitatea și comoditatea indexării, regăsirii informațiilor și întreținerii acestui IRS;

· Reflectă starea actuală a sistemului terminologic în acest domeniu de cunoaștere.

Regulile de utilizare a IP sunt înregistrate în aparatul de referință și metodologic al IP-ului corespunzător.

Sintagma (greacă – construit împreună, conectat) este o unitate semantică, care, într-un anumit context, este exprimată printr-un cuvânt, grup de cuvinte sau propoziție. Cuvintele individuale (de exemplu, „metodologie”, „manual”, „indexare”) intră în relații sintagmatice în propoziții folosind mijloace gramaticale ale limbii, cum ar fi declinarea, conjugarea, prepozițiile, conjuncțiile etc.

4. TEMA: UNIFICAREA ȘI STANDARDIZAREA INDEXĂRII DOCUMENTELOR.

Termenul „indexare” a fost introdus în teoria și practica bibliotecii interne în 1991 de GOST 7.59 – 90 „Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.” Standardul a fost introdus pentru a înlocui 3 GOST-uri anterioare dezvoltate în anii 80:

1. GOST 7.39 – 82 Sistematizare și subiectizare. Termeni și definiții.

2. GOST 7.44 – 84 Sistematizarea documentelor. Cerințe generale.

3. GOST 7.45 – 84 Identificarea subiectului documentelor. Cerințe generale.

Toate aceste standarde au fost dezvoltate în cadrul Sistemului de Standarde de Informare, Biblioteconomie și Publicare (SIBID) pentru a unifica procesele de indexare. Scopul final al standardizării este îmbunătățirea calității și eficienței muncii - în acest caz, calitatea indexării și acele elemente ale aparatului de referință și regăsire care sunt asociate cu indexarea. Orice standard se naște ca urmare a unei generalizări a multor ani de practică.

Bibliotecarii au studiat din manuale și au folosit mijloace practice. Nu au existat standarde care să reglementeze procesele tehnologice timp de multe decenii. Apariția catalogării centralizate (de exemplu, fișe de catalog tipărite), un sistem de clasificare comun tuturor sau mai multor biblioteci, i-a determinat pe bibliotecari să înțeleagă oportunitatea principiilor și metodelor comune de lucru. La o anumită etapă a dezvoltării relaţiilor internaţionale a apărut necesitatea armonizării maxime a practicilor de catalogare autohtone cu cele străine.

GOST 7.59 – 90 a fost axat pe Standardul Internațional MS ISO 5963 „Documentație - metode de analiză a documentelor, determinarea subiectului acestora și alegerea termenilor de indexare” introdus de Organizația Internațională pentru Standardizare (ISO) în 1985.

Standardul internațional a avut o serie de avantaje pe care dezvoltatorii autohtoni le-au luat în considerare:

· O parte independentă a standardului au fost definițiile termenilor care se găsesc în el (în standardele interne au fost obținute printr-un GOST separat).

· SM a introdus concepte și a definit cerințe generale, acoperind atât sistematizarea, cât și subiectizarea (în standardele interne, aceste procese au fost considerate procese independente, fără legătură în GOST-uri separate).

Avantajele ISO MS erau evidente: este mai ușor să stăpânești orice proces, mai ales un set de procese complexe, precum sistematizarea și subiectizarea, dacă distingem generalul, individualul și specialul. S-a decis combinarea standardelor interne și aducerea lor cât mai aproape de cele internaționale ca structură și conținut. În plus, a fost necesar să se elaboreze un standard a cărui aplicare să nu se limiteze la limitele departamentelor. Aceasta a însemnat că trebuiau rezolvate o serie de probleme terminologice, întrucât în ​​acei ani funcționau în paralel două sisteme de termeni în țară - biblioteca și informația. S-a decis să se folosească terminologia internațională modernă în standard.

În timpul dezvoltării GOST 7.59 - 90, au fost efectuate cercetări științifice serioase privind implementarea standardelor anterioare. Astfel, GOST 7.44 - 84 prevedea menținerea obligatorie în toate bibliotecile a unui index al subiectelor alfabetice (ASU) la un catalog sistematic - nu ca un aparat auxiliar, ci ca parte integrantă a catalogului. Prin urmare, s-a prescris ca în procesul de procesare a noilor chitanțe să fie întocmit un card APU. Această cerință s-a bazat pe idei moderne că societatea de asigurări este capabilă să își îndeplinească funcțiile dacă este prevăzută cu un sistem de control adecvat. De asemenea, a fost introdusă editarea obligatorie a deciziei de clasificare și a titlurilor de subiect ale APU. În consecință, standardele naționale de timp au fost modificate.

Sondajul a arătat că sute de biblioteci au efectuat aceste procese, dar odată cu introducerea GOST, acestea au devenit obligatorii pentru toate bibliotecile.

Din ianuarie 2004, GOST 7.59 - 2003 „Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.”

În conformitate cu cerințele moderne GOST 7.59 – 2003 „Indexarea documentelor” constă din 6 secțiuni. Structura GOST este următoarea:

Câțiva ani mai târziu, a fost dezvoltat și pus în aplicare un alt standard, având în vedere al treilea proces de indexare - GOST 7.66 - 92 „Indexarea documentelor. Cerințe generale pentru indexarea coordonatelor”, care s-a bazat și pe regulile ISO 5963.

Au trecut mai bine de zece ani. De-a lungul anilor, practicile de clasificare din țară s-au schimbat. Sisteme automate și cataloage electronice au apărut în multe biblioteci. A fost necesar să se clarifice lista și denumirile sistemelor de clasificare. Terminologia domeniului în cauză a fost simplificată semnificativ. Au fost aprobate standardele terminologice:

· GOST 7,73 – 96 SIBID. Căutarea și difuzarea informațiilor. Termeni și definiții.

· GOST 7,74 – 96 SIBID. Limbi de regăsire a informațiilor. Termeni și definiții.

· GOST 7,76 – 96 SIBID. Colectarea documentelor. Bibliografie. Catalogare. Termeni și definiții.

Din ianuarie 2004, GOST 7,59 - 2003 „SIBID. Indexarea documentelor. Cerințe generale de sistematizare și subiectizare.”

În conformitate cu cerințele moderne, standardul constă din 6 secțiuni. Structura GOST este următoarea:

1 domeniu de utilizare

3. Definiții

4. Dispoziții generale

4.1 Esența indexării

4.2 Obiect de indexare

4.3 Condiții de indexare

4.4 Principii de indexare

4.5 Tipuri de IP și termeni de indexare

5. Cerințe pentru IP

5.1 Cerințe generale

5.2 Cerințe pentru clasificarea IP

5.3 Cerințe pentru FP specifice disciplinei

6. Procese tehnologice și reguli generale de indexare

6.1 Reguli generale de indexare

6.2 Reguli de sistematizare

6.3 reguli de detaliere.

GOST 7.59 – 2003 stabilește cerințe generale pentru indexare: sistematizarea și subdivizarea documentelor și limbaje de regăsire a informațiilor utilizate pentru indexare. Standardul este destinat bibliotecilor, organismelor de informare științifică și tehnică, camerelor de carte, redacțiilor și editurilor.

În revista „Bibliotecă”, începând cu numărul al doilea din 2004, la rubrica „Biblioteconomie”, se desfășoară „Școala de Indexare” de E.R. Sukiasyan, unde se publică materiale care comentează conținutul GOST-urilor privind indexarea.

Sisteme de informare. Sisteme informatice automatizate.

1. Sisteme informatice.

2. Limbajul de regăsire a informațiilor. Sistem de indexare. Scopul procesului de indexare.

3. Sisteme informatice documentare. Indicatori documentari de performanță IP.

4. Sistem factual. Ce este un domeniu? Modele de date.

5. Construirea unui model ER al domeniului de studiu.

6. Teoria normalizării relaţiilor.

7. Identificator unic de entitate.

8. Clasificarea și structura AIS

9. Conceptul de ciclu de viață AIS. Faze și procese, modele de ciclu de viață AIS.

10. Tehnologia de proiectare AIS.

11. Abordare structurală a proiectării AIS.

12. Utilizarea CASE - instrumente la proiectarea AIS.

13. Sisteme SCADA: etape de realizare, domenii de aplicare, funcționalitate.

Sisteme de informare.

Sistem informatic (IS) este un sistem conceput pentru a menține un model informațional, cel mai adesea din orice domeniu al activității umane. Acest sistem trebuie să ofere un mijloc pentru flux procesele informaţionale:

depozitare

difuzat

transformarea informatiilor.

Sistem informatic sunt numite un set de mijloace interconectate care stochează și procesează informații, numite și sisteme informatice și informatice. Datele intră în sistemul informațional din sursa de informații. Aceste date sunt trimise spre stocare sau sunt supuse unor procesări în sistem și apoi transferate către consumator.

Feedback-ul poate fi stabilit între consumator și sistemul informațional însuși. În acest caz, se apelează sistemul informațional închis. Un canal de feedback este necesar atunci când este necesar să se țină cont de reacția consumatorului la informațiile primite.

Sistemul informatic este format din sursă de informații, Hardware IC, parte software a IS, consumator de informatii.

Există 3 clase de sisteme informaționale în funcție de gradul de automatizare a acestora:

Sisteme informatice manuale- se caracterizează prin lipsa mijloacelor tehnice moderne de prelucrare a informațiilor și toate operațiunile sunt efectuate de oameni. De exemplu, despre activitățile unui manager într-o companie în care nu există calculatoare, putem spune că lucrează cu un IS manual.

Sisteme informatice automate (AIS)- cea mai populară clasă de IP. Aceștia își asumă participarea atât a oamenilor, cât și a mijloacelor tehnice la procesul de prelucrare a informațiilor, rolul principal fiind atribuit computerului.

Sisteme informatice automate- diverși roboți efectuează toate operațiunile de prelucrare a informațiilor fără intervenția umană. Un exemplu de sisteme informatice automate sunt unele motoare de căutare pe Internet, de exemplu Google, unde informațiile despre site-uri sunt colectate automat de un robot de căutare, iar factorul uman nu afectează clasarea rezultatelor căutării.

Limbajul de regăsire a informațiilor. Sistem de indexare. Scopul procesului de indexare.

Limba de regăsire a informațiilor, un sistem de semne conceput pentru a descrie (prin indexarea) conținutul semantic principal al textelor (documentelor) sau al părților acestora, precum și să exprime conținutul semantic al solicitărilor de informații în vederea implementării regăsirea informațiilor. Orice abstract I.-p. eu. constă dintr-un alfabet (o listă de simboluri elementare), reguli de formare și reguli de interpretare. Regulile educației stabilesc ce combinații de simboluri elementare sunt permise la construirea cuvintelor și expresiilor, iar regulile de interpretare determină modul în care aceste cuvinte și expresii trebuie înțelese.

I.-p. eu. trebuie să aibă mijloacele lexicale și gramaticale necesare pentru a exprima conținutul semantic principal al oricărui text și sensul oricărei solicitări de informații cu privire la o anumită industrie sau subiect, să fie lipsit de ambiguitate (permite o interpretare a fiecărei intrări), convenabil pentru comparare și identificare algoritmică (complet). sau parțial) a intrărilor din conținutul semantic principal al textelor și conținutul semantic al solicitărilor de informații. La elaborarea unui specific I.-p. eu. sunt luate în considerare specificul industriei sau subiectului pentru care este creată această limbă, caracteristicile textelor care formează matricea de căutare, natura nevoilor de informații pentru care este creată această limbă. sistem de regăsire a informațiilor.

În majoritatea I.-p. eu. vocabularul principal (lexicul) este specificat prin enumerarea lui și reprezintă un fragment din vocabularul unei anumite limbi naturale. Cuvintele și expresiile selectate din limbajul natural, care împreună formează vocabularul principal, servesc ca alfabet pentru o anumită limbă lingvistică. eu. Reguli de învățământ în astfel de I.-p. eu. îndeplinește funcția de sintaxă. În unele I.-p. eu. vocabularul de bază este precizat (în întregime sau parțial) prin metoda generației, care constă în faptul că pentru astfel de I.-p. eu. regulile educaționale stabilesc modul de construire a cuvintelor I.-p. dintr-un alfabet dat. I., iar din aceste cuvinte - expresii (expresii) și care dintre ele vor fi corect construite. I.-p. eu. difera de limbajul informaţiei iar din limbajul mașinii. La mijlocul secolului al XX-lea. o înghițitură. eu. utilizate pe scară largă bibliotecă și clasificări bibliograficeși limbaje de tip descriptor.

Sistem de indexare este o acumulare mare de informații (bază de date) adusă în ea de un vizitator robot. Aceste informații sunt structurate și indexate într-un anumit fel, astfel încât ulterior să fie mai ușor să selectezi o listă de site-uri folosind anumite cuvinte cheie.

Procesul de indexare include următorii pași, care se desfășoară în următoarea secvență:

analiza și determinarea conținutului documentului ca obiect de indexare;

selectarea conceptelor care caracterizează conținutul documentului;

selectarea termenilor de indexare pentru a desemna concepte;

formarea unei imagini de căutare a unui document din termeni de indexare.

Etapele enumerate pot fi combinate ca parte a procedurilor tehnologice, cu condiția ca fiecare etapă să fie efectuată corespunzător.

1. Imaginea de căutare a documentului (SID) este formată din termeni de indexare selectați folosind mijloacele gramaticale ale limbajului de regăsire a informațiilor (IRL).

2. În timpul procesului de indexare, nu se recomandă descrierea unui document ca obiect fizic (în ceea ce privește forma, volumul, etc.). Este permisă reflectarea unor astfel de informații în POD dacă vă permite să determinați mai precis conformitatea documentului cu nevoile de informații ale utilizatorului sistemului.

©2015-2019 site
Toate drepturile aparțin autorilor lor. Acest site nu pretinde autor, dar oferă o utilizare gratuită.
Data creării paginii: 2016-04-02

Un set de documente constituie o colecție de bibliotecă numai dacă sunt organizate corespunzător și conținutul lor este dezvăluit printr-un sistem de cataloage, fișiere de card și baze de date.

Organizarea fondurilor și crearea cataloagelor este imposibilă fără gruparea documentelor și informațiilor despre acestea sub forma unei descrieri bibliografice înregistrate pe un card de catalog (hârtie și/sau electronic). Este posibilă implementarea acestor procese tehnologice prin prelucrarea analitică și sintetică a informațiilor despre documente. Implementarea ASPI vă permite să organizați colecția bibliotecii și să efectuați catalogarea: să compilați descrieri bibliografice ale documentelor și să le grupați în funcție de anumite criterii. Gruparea documentelor și descrierilor bibliografice ale acestora după diverse criterii, sau clasificarea, face posibilă diversificarea conținutului colecției unei instituții de bibliotecă și informație.

Clasificarea ține cont de anumite caracteristici ale documentelor, de exemplu, conținutul, aspectele conținutului, tipul documentului (publicație educațională, publicație de referință etc.), țintă și scopul cititorului (publicație de referință pentru școlari primari, publicație educațională pentru universități, etc.). Fiecare clasificare a documentelor este „scrisă” într-un anumit limbaj de regăsire a informațiilor. IPL este un limbaj formalizat artificial în care sunt descrise caracteristicile grupării documentelor și descrierile bibliografice ale acestora.

Procesul de traducere a informațiilor despre un document dintr-o limbă naturală într-o limbă străină se realizează pe baza indexării, care este o expresie a conținutului și a formei documentelor folosind un limbaj specific de regăsire a informațiilor. Pentru a efectua indexarea, trebuie să cunoașteți limbajul adecvat de regăsire a informațiilor.

Indexarea conținutului este un proces intelectual complex care necesită deținerea unor abilități speciale, precum și prezența unor calități psihologice deosebite în indexatori: gândire logică, memorie semantică bună, atenție și muncă asiduă. Erudiția și dorința de a învăța constant lucruri noi sunt o calitate integrală a unui specialist în domeniul indexării (catalogator, sistematizator).

Obiectul indexării este un document separat, componenta acestuia sau un set de documente. Indexarea ar trebui să fie efectuată pe baza analizei directe a documentului, ținând cont de natura matricei de regăsire a informațiilor.



Procesul de indexare este reprezentat ca o succesiune a următoarelor operații:

1. Analiză. Prin revizuirea conținutului unui document, indexatorul determină subiectul său principal, precum și problemele secundare ridicate în acesta care pot fi de interes pentru utilizator. În acest caz, indexatorul pleacă de la înțelegerea sa a punctului de vedere al autorului și a gamei de interese ale potențialilor consumatori de informații.

2. Adnotare. O adnotare pe documentul indexat este compilată mental în limbaj natural, care include cuvinte cheie care caracterizează documentul și oferă un răspuns la întrebarea: „Despre ce vorbește documentul?”

3. Decizie de clasificare în formă verbală. Cuvintele cheie sunt înlocuite cu unități lexicale ale unui anumit FL (indici de clasificare, titluri de subiecte, descriptori). Ca rezultat, o imagine de căutare a documentului este creată și informațiile sunt restrânse, iar informațiile despre conținutul și forma documentului sunt traduse într-un limbaj de regăsire a informațiilor.

4. Decizia de clasificare a IPYA. Compilarea unui index complet, titlu de subiect pentru indexul alfabetic al subiectelor, cuvinte cheie.

5. Editare indexuri, titluri de subiecte și cuvinte cheie.

6. Decor decizia luată.

Calitatea indexării este caracterizată de doi indicatori: profunzime și detaliu.

Adâncimea de indexare indică caracterul complet al dezvăluirii conținutului unui document în imaginea de căutare a documentului atribuit acestuia. Adâncimea indexării poate fi estimată aproximativ după numărul de cuvinte IP incluse în imaginea de căutare a documentului.

Detaliul de indexare vă permite să evaluați acuratețea (adecvarea) reflectării conținutului documentului în imaginea de căutare a documentului. Acuratețea reflectării este determinată de apropierea semantică a cuvintelor cheie incluse în adnotarea mentală și a cuvintelor limbajului de regăsire a informațiilor care au format imaginea de căutare a documentului.



Adâncimea și detaliul sunt caracteristici relative. Putem vorbi de mai mare sau mai puțină profunzime și detaliu al indexării, dar nu este posibil să le măsuram în valori digitale absolute.

Pentru a reflecta influența factorilor psihologici asupra calității indexării, este introdus conceptul de „incoerență (reproducibilitate) a indexării”. Incoerența la indexare se caracterizează prin discrepanțe în profunzimea și detaliile imaginilor de căutare ale aceluiași document compilate de diferiți indexatori sau de același indexator în momente diferite. Motivele inconsecvenței sunt diferențele de cunoștințe și aptitudini ale diverșilor indexatori (erudiție generală, orientare într-un anumit domeniu de cunoaștere, deținere de resurse FL, experiență de muncă etc.), precum și calități psihologice (memorie, atenție etc.). .). Pentru a evita inconsecvența, sunt dezvoltate metode speciale și instrucțiuni algoritmice care ghidează indexatorii. Cu toate acestea, în procesarea semantică umană a informațiilor, inconsecvența nu poate fi eliminată complet.

Crearea unei imagini de căutare a unui document este una dintre etapele cheie ale indexării. Căutați imaginea documentului poate consta dintr-o unitate lexicală a unei limbi străine, de exemplu, un index de clasificare sau un titlu de subiect. În acest caz, se folosește cea mai simplă metodă de indexare, care poate fi apelată indexare cu un singur aspect. O astfel de indexare este utilizată de obicei în biblioteci mici, cu un profil tematic destul de larg și completitatea scăzută a documentelor pe subiecte și industrii individuale. Acest tip de indexare este simplu și rentabil. Mai semnificativ este recunoscut indexare cu mai multe aspecte, adică construirea, dacă este cazul, de imagini complexe de căutare a documentelor formate din mai multe unităţi lexicale ale FL.

Implementarea cu succes a indexării presupune ca catalogerul să cunoască limbile relevante de regăsire a informațiilor și să stăpânească abilitățile metodelor generale și specifice de indexare a documentelor.