Revizuirea metodelor existente de recunoaștere a modelelor. Problema recunoașterii modelelor. Rolul și locul recunoașterii modelelor în automatizarea controlului sistemelor complexe

despre ce probleme mai trebuie rezolvate pentru a aduce sistemele automate de recunoaștere a vorbirii la nivel uman.

De la apariția recunoașterii vorbirii invatare profunda, rata de eroare a scăzut semnificativ. Dar, în ciuda a tot ceea ce ați citit și văzut, încă nu avem un sistem de recunoaștere a vorbirii la nivel uman. Există multe erori în recunoașterea vorbirii. Pentru a merge mai departe, este important să știți când apar și să luați măsuri pentru a rezolva problemele. Acesta este singurul mod de a trece de la recunoașterea automată a vorbirii (ASR), care funcționează pentru unii oameni, la ASR care funcționează pentru toți oamenii, tot timpul.

Îmbunătățiri ale ratei de eroare în testul de recunoaștere a vorbirii Switchboard. Suita de teste a fost colectată în 2000. Constă din 40 de conversații telefonice între doi vorbitori nativi de engleză aleatoriu.

A spune că am obținut recunoașterea vorbirii la nivel uman, bazată pe rezultatele Switchboards, este ca și cum ai spune că o mașină cu conducere autonomă conduce la fel de bine ca un om după ce a testat-o ​​într-un oraș într-o zi însorită și fără trafic. Cele mai recente îmbunătățiri ale recunoașterii limbii vorbite sunt uimitoare. Dar este prea devreme să declarăm că am ajuns la nivelul oamenilor. Mai jos sunt câteva secțiuni care necesită îmbunătățiri.

Accente și zgomot

Una dintre cele mai vizibile diferențe în recunoașterea vorbirii este capacitatea de a face față accentelor și zgomotului de fundal. Motivul direct pentru aceasta este că datele de antrenament constau în vorbire engleză cu accent american, cu un raport semnal-zgomot (SNR) ridicat. De exemplu, seturile de date de instruire și de testare ale Switchboard includ doar vorbitori nativi de engleză cu puțin zgomot de fundal.

Cu toate acestea, creșterea cantității de date de antrenament probabil nu va rezolva problema cu ușurință. Există multe limbi cu o cantitate mare dialecte și accente. Nu este posibil să colectați suficiente date pentru toate cazurile. Crearea unui sistem de recunoaștere a vorbirii de înaltă calitate numai pentru limba engleză cu accent american necesită cinci mii de ore de transcrie audio.

Comparația transcrierilor umane cu cele ale modelului Baidu Deep Speech 2. Rețineți că oamenii sunt mai puțin capabili să recunoască accente non-americane. Acest lucru se datorează probabil originilor americane ale stenografilor. Cred că vorbitorii nativi din fiecare regiune ar fi mai capabili să recunoască accentele țărilor lor natale.

În ceea ce privește zgomotul de fond, într-o mașină în mișcare, SNR-ul este rar -5 dB. Oamenii se înțeleg fără probleme în acest mediu. Sistemele automate de recunoaștere a vorbirii fac mult mai multe erori pe măsură ce zgomotul crește. În graficul de mai sus, vedem cum diferența dintre erorile umane și cele ale modelului crește dramatic de la sunetul SNR scăzut la sunetul SNR ridicat.

Erori semantice

Nivelul erorilor în cuvinte nu este cel mai obiectiv indicator. Ne interesează indicatorul erori semantice. Aceasta este proporția de afirmații în care distorsionăm sensul.

Un exemplu de eroare semantică: dacă cineva a spus „să ne întâlnim marți” (să ne întâlnim marți), dar sistemul a recunoscut afirmația ca „să ne întâlnim astăzi” (să ne întâlnim astăzi). De asemenea, putem avea erori în cuvinte fără erori semantice: dacă sistemul a renunțat la cuvânt și a recunoscut „să ne întâlnim marți”, atunci semantica enunțului nu s-a schimbat.

Trebuie să fim mai atenți când folosim rata de eroare a cuvântului (WER) ca indicator principal. Lasă-mă să-ți arăt cea mai proastă situație. Un WER de 5% corespunde unui cuvânt lipsă din douăzeci. Dacă fiecare propoziție conține douăzeci de cuvinte (media pentru engleză), atunci rata de eroare în propoziții va fi de 100%. Dar este puțin probabil ca cuvintele lipsă să schimbe sensul propozițiilor. În caz contrar, chiar și cu un WER de 5%, fiecare propoziție ar fi interpretată greșit.

Când comparăm modele și oameni, este important să verificați natura erorilor, mai degrabă decât să priviți doar WER. Din experiența mea, atunci când oamenii transcriu vorbirea, fac mai puține greșeli, iar aceste greșeli nu sunt la fel de critice.

Cercetătorii de la Microsoft au comparat recent erorile oamenilor și sistemele de recunoaștere a vorbirii cu ratele de eroare umane. Ei au descoperit că modelul era mai probabil să confunde interjecțiile „ah” și „uh-huh”. Aceste două cuvinte au o semantică complet diferită: „a” umple pur și simplu pauzele, iar „aha” acționează ca o recunoaștere. Dar modelul și oamenii au făcut și multe greșeli similare.

Un canal, multe difuzoare

Testul Switchboard este mai ușor deoarece fiecare difuzor este înregistrat pe un microfon separat. Nu există suprapunere între voci diferite din același canal audio. Oamenii pot înțelege mai multe persoane care vorbesc în același timp.

Un sistem bun de recunoaștere a vorbirii ar trebui să poată segmenta sunetul în funcție de cine vorbește (diarizare). Ea trebuie să înțeleagă și sunetul de la mai multe difuzoare (separarea sursei). Acest lucru ar trebui să fie posibil fără a fi nevoie de un microfon lângă fiecare difuzor.

Alte domenii

Accente și zgomot de fundal sunt doar doi factori în care fiabilitatea unui dispozitiv de recunoaștere a vorbirii ar trebui îmbunătățită. Iată încă câteva:

  • Reverberație de la schimbările din mediul acustic.
  • Artefacte hardware.
  • Codec folosit pentru artefacte audio și de compresie.
  • Frecvența de eșantionare.
  • Vârsta vorbitorului.

Mulți oameni nici măcar nu vor observa diferența dintre fișierele mp3 și wav. Recunoașterea vorbirii trebuie să fie de încredere în acești factori înainte de a putea revendica performanțe la nivel uman.

Context

Este posibil să observați că rata de eroare umană în teste precum Switchboard este destul de mare. Dacă ai comunica cu un prieten și acesta nu a înțeles 1 din 20 de cuvinte pe care le-ai spus, ai avea dificultăți în a comunica.

Unul dintre motive este că evaluarea se face independent de context. ÎN viata reala folosim multe alte indicii pentru a înțelege ce spune cealaltă persoană. Câteva exemple de context pe care oamenii îl folosesc:

  • Conversații anterioare și subiect de discuție.
  • Indicații vizuale, cum ar fi expresiile faciale și mișcările buzelor.
  • Cunoștințe despre persoana cu care comunicăm.

În prezent, dispozitivul de recunoaștere a vorbirii Android are acces la lista de contacte, astfel încât să poată recunoaște numele prietenilor tăi. Căutarea vocală în Maps folosește localizarea geografică pentru a restrânge destinațiile potențiale. Precizia sistemelor ASR crește odată cu utilizarea acestui tip de semnal. Dar tocmai am început să explorăm ce context putem include și cum putem face acest lucru.

Implementarea

Îmbunătățirile recente ale recunoașterii limbii vorbite nu pot fi implementate rapid. Când vorbim despre ce face nou algoritm recunoașterea vorbirii este fezabilă, ne uităm la valorile de latență și putere. Sunt conectați, iar algoritmii care reduc latența cresc puterea nominală. Să ne uităm la fiecare separat.

Întârziere:Acesta este timpul de la sfârșitul discursului până la sfârșitul transcripției. Latența scăzută este o cerință comună în sistemele de recunoaștere a vorbirii. Acest lucru poate afecta foarte mult experiența utilizatorului, iar latența este adesea măsurată în zeci de milisecunde. Acest lucru poate părea copleșitor, dar rețineți că crearea unei transcripții este primul pas dintr-o serie de calcule. De exemplu, în căutare vocală căutarea în sine se efectuează după recunoașterea vorbirii.

Rețelele bidirecționale recurente sunt bun exemplu imbunatatire semnificativa. Toate evoluțiile moderne recente în recunoașterea vorbirii le folosesc. Problema este că nu putem calcula nimic după primul strat bidirecțional până când utilizatorul nu termină de vorbit. Astfel, latența crește odată cu lungimea enunțului.

Folosind o singură direcție, putem începe transcrierea instantaneu

Cu repetarea bidirecțională, suntem forțați să așteptăm sfârșitul discursului.

O modalitate bună de a utiliza eficient informațiile viitoare în recunoașterea vorbirii este încă o problemă deschisă.

Putere:cantitatea de putere de calcul necesară pentru a transcrie un enunț este o constrângere economică. Trebuie să luăm în considerare valoarea și costul fiecărei îmbunătățiri în acuratețea recunoașterii vorbirii. Dacă o îmbunătățire nu se încadrează în cadrul economic, aceasta nu poate fi implementată.

Un exemplu clasic de îmbunătățire care nu se materializează este învățarea în ansamblu. Reducerea ratei de eroare cu 1-2% nu merită creșterea puterii de calcul de la 2 la 8 ori. Modelele moderne de rețele neuronale recurente se încadrează, de obicei, în această categorie, deoarece sunt foarte scumpe de utilizat în căutarea fasciculului, deși mă aștept ca acest lucru să se schimbe în viitor.

Nu cred că cercetarea care implică o precizie îmbunătățită și o putere de calcul mai mare este inutilă. Am mai văzut modelul „primul lent, dar sigur, apoi rapid”. Ideea este că până când îmbunătățirea este suficient de rapidă, nu poate fi folosită.

Următorii cinci ani

Există multe probleme deschise și complexe în recunoașterea vorbirii. Printre ei:

  • Extinderea capabilităților în noi zone, noi accentuări și vorbire cu raport semnal-zgomot scăzut.
  • Injectarea de mai mult context în procesul de recunoaștere.
  • Diarizarea și separarea surselor.
  • Indicator de erori semantice și metode inovatoare de evaluare a recunoaștetorilor.
  • Latență scăzută și algoritmi eficienți.

Procesul de recunoaștere constă în faptul că sistemul de recunoaștere, pe baza unei comparații a informațiilor a posteriori referitoare la fiecare obiect sau fenomen primit la intrarea sistemului cu o descriere a priori a claselor, ia o decizie cu privire la dacă acest obiect (fenomen) aparține uneia dintre clase. Regula care atribuie fiecărui obiect un anumit nume de clasă se numește regulă de decizie. În literatura de specialitate consacrată recunoașterii tiparelor s-a stabilit opinia că esența problemei recunoașterii constă în determinarea regulilor de decizie, găsirea în spațiul trăsăturii unor asemenea granițe (limite decisive), aderând la care trăsătura spațiază într-un mod optim, de exemplu, din punctul de vedere al minimizării erorilor de recunoaștere, sunt împărțite în zone corespunzătoare claselor. Astfel, se spune că în găsirea unor astfel de reguli decisive pe bază descrieri date orele este problema recunoașterii.

La determinarea regulilor de decizie (limite decisive în spațiul caracteristicilor), în funcție de cantitatea de informații inițiale a priori, se iau în considerare următoarele situații:

1. Cantitatea de informații inițiale este suficientă pentru a determina regulile decisive prin analiza și prelucrarea lor directă (sisteme de recunoaștere fără pregătire, vezi Fig. 1.4).

2. Cantitatea de informații inițiale nu este suficientă pentru a determina regulile de decizie pe baza prelucrării lor directe și, prin urmare, este implementată o procedură de instruire (sisteme de recunoaștere a învățării, vezi Fig. 1.5).

În situațiile 1 și 2, sarcina de a găsi reguli de decizie se bazează pe faptul că se cunoaște alfabetul claselor de obiecte și dicționarul a priori al caracteristicilor destinate descrierilor acestora. Luăm în considerare și o situație în care dicționarul de caracteristici este cunoscut, dar alfabetul claselor este necunoscut. În același timp, însă, se definește un anumit set de reguli, conform cărora, pe baza procedurii de autoînvățare, se găsește alfabetul necesar al claselor. Apoi se determină regulile de decizie (sisteme de autoînvățare, vezi Fig. 1.6).

Din punct de vedere istoric, primele studii teoretice și lucrări aplicative în domeniul recunoașterii s-au bazat pe faptul că spațiul caracteristic este cunoscut, iar alfabetul de clasă este, de asemenea, cunoscut. În aceste condiții, problema recunoașterii poate fi într-adevăr interpretată ca o problemă de determinare, într-un sens, a celor mai bune limite de decizie (reguli de decizie). În zilele noastre, la construirea dispozitivelor de recunoaștere, există adesea o situație în care sunt cunoscute atât alfabetul de clasă, cât și dicționarul de caracteristici. Cu toate acestea, în cazul general, la construirea unor sisteme reale de recunoaștere care necesită dezvoltarea unor instrumente speciale de măsurare și a unor complexe întregi de măsurare, din păcate, nu este necesar să presupunem că alfabetul claselor și dicționarul de caracteristici sunt cunoscute a priori, din păcate.

Scopul sistemelor de recunoaștere este obținerea informațiilor necesare pentru a lua anumite decizii cu privire la apartenența unui obiect (fenomen) necunoscut la o anumită clasă. Este exact cazul sistemelor de diagnostic medical și tehnic, explorare geologică, prognoză meteorologică, criminalistică, sisteme de recunoaștere a țintelor etc. Prin urmare, sistemele de recunoaștere, făcând parte dintr-un sistem de control (automat sau automatizat), trebuie construite ținând cont de asigurarea cea mai eficientă utilizare a întregului set de soluții fezabile. Acest fapt impune următoarele restricții privind construcția sistemelor de recunoaștere.

1. În egală măsură, creșterea eficienței deciziilor luate ar trebui să fie asociată cu gradul de detaliu al definiției sau scopului sau naturii obiectului sau fenomenului recunoscut. Gradul de detaliu este determinat de numărul de clase în care sunt împărțite multe obiecte sau fenomene. Deci, dacă sistemul de control are m diverse solutii, apoi în alfabetul de clase al sistemului de recunoaștere, ținând cont de cele de mai sus, este indicat să se asigure m+1 clase. Atunci, dacă obiectul recunoscut aparține clasei Ω 1, se ia decizia l 1, dacă din clasa Ω 2 - decizie h etc., dacă obiectul aparține clasei Ω m +1, nu se ia nicio decizie.

2. Eficacitatea deciziilor luate de sistemul de control, toate celelalte lucruri fiind egale (inclusiv, desigur, cu un anumit alfabet de clase) depinde de acuratețea determinării dacă un obiect sau fenomen recunoscut aparține clasei corespunzătoare. Acuratețea definiției sau a erorii de recunoaștere cu o descriere a priori dată a claselor este determinată de dimensiunea și conținutul de informații al spațiului caracteristic, volumul și calitatea informațiilor a posteriori despre valorile caracteristicilor (parametrilor) care caracterizează obiectul recunoscut. Cu alte cuvinte, extinderea alfabetului claselor, care crește gradul de detaliu în determinarea scopului sau naturii obiectului (fenomenului) recunoscut, în timp ce dicționarul de caracteristici rămâne neschimbat, crește eroarea de recunoaștere.

Fie trei clase de obiecte Ω 1, Ω 2 și Ω 3 date prin distribuții f 1 (x), f 2 (x), f 3 (x) cu probabilități anterioare de apariție a obiectelor din clasele corespunzătoare P(Ω 1) =P(Ω 2)=P (Ω 3) = P, precum și pierderile c 11 = c 22 = c 33 = 0 și c 12 = c 21 = c 13 = c 31 = c 23 = c 32 = c.

În fig. 2.1 prezintă legile de distribuție. Risc mediu (bayesian) (vezi § 4.2)

Să presupunem acum că s-a decis combinarea obiectelor aparținând claselor Ω 1 și Ω 2 într-o clasă Ω 4, a cărei descriere

Riscul mediu în acest caz, presupunând că limita b rămâne neschimbată, va fi

Dintr-o comparație a valorilor Rã 1 și Rã 2, este clar că Rã l >Rã 2 cu cantitatea

În consecință, pentru un anumit spațiu de caracteristici și alte condiții egale, reducerea numărului de clase duce la

Orez. 2.1

pentru a reduce erorile de recunoaștere și, invers, odată cu creșterea numărului de clase ale sistemului de recunoaștere, pentru a menține la un anumit nivel sau chiar a reduce riscul mediu (probabilitatea deciziilor eronate), este necesară extinderea dicționarului. de semne (desigur, toate celelalte lucruri fiind egale). În același timp, extinderea spațiului de caracteristici pentru a reduce erorile de recunoaștere este asociată cu o creștere a numărului de instrumente tehnice de măsurare, fiecare dintre acestea asigurând determinarea caracteristicii sau grupului de caracteristici corespunzătoare. Acest lucru, la rândul său, necesită costuri crescute pentru construirea unui sistem de recunoaștere. De regulă, anumite restricții sunt impuse cu privire la valoarea costurilor în condiții reale.

Astfel, dorința de a utiliza cât mai eficient setul de soluții posibile ale sistemului de control duce la necesitatea creșterii alfabetului claselor la m+1. Cu toate acestea, limitarea firească a resurselor alocate construcției de instrumente de măsurare pentru un sistem de recunoaștere sau un sistem de recunoaștere în ansamblu duce la faptul că pe măsură ce alfabetul claselor crește, erorile de recunoaștere cresc, iar acest lucru reduce eficiența utilizării posibilelor soluții. . Doar un anumit compromis între dimensiunea alfabetului claselor și volumul dicționarului de lucru al caracteristicilor sistemului, bazat pe datele inițiale privind setul de soluții posibile și cantitatea de resurse alocate pentru crearea echipamentelor de măsurare care implementează dicționarul de caracteristici, face posibilă rezolvarea problemei construirii unui sistem de recunoaștere într-un mod optim.

Deci, în cazul general, atunci când construiești sisteme de recunoaștere, trebuie să faci față următoarei situații. Se creează un anumit sistem de control care implementează unul sau altul control în funcție de rezultatele evaluării, proprietățile esențiale, natura, scopul obiectului sau fenomenului și recunoașterea acestuia. Sistemul de control are un număr finit de soluții. Componenta eficienței controlului care depinde de funcționarea sistemului de recunoaștere este determinată de doi factori. Primul factor este legat de gradul de detaliu în recunoașterea obiectelor sau fenomenelor, cea mai mare valoare ceea ce va fi cazul dacă numărul de clase cuprins în alfabetul claselor sistemului de recunoaștere este egal cu numărul de soluții posibile (plus una - ultima clasă, ale cărei obiecte nu sunt recunoscute). Al doilea factor este acuratețea rezolvării problemei de recunoaștere. Desigur, cu cât este mai mare, cu atât este mai puțin probabil să se ia o decizie care nu corespunde caracteristicilor unui obiect sau fenomen dat. De exemplu, pentru a aplica o strategie de tratament care nu este adecvată pentru boală atunci când se utilizează un sistem de diagnostic medical; abuz acest remediu contracarare în cazul utilizării unui sistem de recunoaștere a țintei etc. Cu toate acestea, pentru un dicționar de caracteristici dat, creșterea alfabetului claselor reduce acuratețea rezolvării problemei de recunoaștere. În general, o creștere a dicționarului de caracteristici este asociată cu dezvoltarea de noi sau cu utilizarea echipamentelor de măsurare existente, ceea ce presupune o creștere a costurilor de construire a unui sistem de recunoaștere.

Astfel, esența problemei de recunoaștere este dezvoltarea unui astfel de alfabet de clase și a unui dicționar de caracteristici care, în condiții resurse limitate pentru a construi un sistem de recunoaștere oferă eficienta maxima un sistem de control care ia decizia corespunzătoare în funcție de rezultatele rezolvării problemei de recunoaștere. În acest caz, desigur, prin alegerea unui dicționar de caracteristici și definirea alfabetului claselor, ar trebui să găsim cele mai bune reguli de decizie care decid granițele dintre clase. Cu toate acestea, în cazul general, aceasta nu este problema recunoașterii, la fel cum sarcina de a determina regulile optime de decizie care oferă cea mai mare acuratețe de recunoaștere în condițiile unui anumit alfabet de clase și a unui dicționar de caracteristici nu este importantă și uneori nu e complicat. Mai mult, la construcție sisteme logice algoritmi de recunoaștere care folosesc fie algoritmi de recunoaștere bazați pe metode de algebră logică, fie sisteme structurale (lingvistice) (vezi capitolul 8), regulile de decizie nu sunt deloc definite.

Astfel, nu există temeiuri suficiente pentru a considera justă hotărârea că problema recunoașterii constă în determinarea regulilor decisive (limitelor decisive).

Sfârșitul lucrării -

Acest subiect aparține secțiunii:

Caracteristici generale ale problemei recunoașterii obiectelor și fenomenelor

V a Skripkin.. metode de recunoaștere.. caracteristici generale ale problemei recunoașterii obiectelor și fenomenelor..

Dacă aveți nevoie de material suplimentar pe această temă, sau nu ați găsit ceea ce căutați, vă recomandăm să utilizați căutarea în baza noastră de date de lucrări:

Ce vom face cu materialul primit:

Dacă acest material ți-a fost util, îl poți salva pe pagina ta de pe rețelele sociale:

Toate subiectele din această secțiune:

Descrierea calitativă a sarcinii de recunoaștere i
Recunoașterea imaginilor (obiecte, semnale, situații, fenomene sau procese) este poate cea mai comună sarcină pe care o persoană trebuie să o rezolve aproape în fiecare secundă de la prima până la ultima.

Sarcinile principale ale construirii sistemelor de recunoaștere
Exemplul discutat în § 1.1 indică această recunoaștere obiecte complexe iar fenomenele necesită creaţie sisteme speciale recunoaștere – complex sisteme dinamice, sos

Sisteme de recunoaștere expert
Clasificarea considerată a sistemelor de recunoaștere și principiile funcționării acestora reflectă starea curentaîntrebare. Toate tipurile de sisteme de recunoaștere se bazează pe formalizări stricte

Declarația problemei recunoașterii
Să fie dat un set de obiecte sau fenomene Ω=(w1 ..., ..., wz), precum și o mulțime de soluții posibile L=(l1, ..., lk), care poate

Metoda de rezolvare a problemei recunoașterii
Formularea luată în considerare a problemei de recunoaștere ne permite să determinăm succesiunea sarcinilor care apar la dezvoltarea unui sistem de recunoaștere, să propunem formulările acestora și eventual

Sisteme de recunoaștere fără pregătire
Construirea sistemelor de recunoaștere fără pregătire este posibilă dacă există informații a priori inițiale complete, care sunt un set de: 1) informații despre natura

Sisteme de recunoaștere a învățării
Utilizarea metodelor de învățare pentru a construi sisteme de recunoaștere este necesară în cazurile în care informațiile inițiale complete a priori nu sunt disponibile. Volumul său ne permite să subdivizăm

Sisteme de recunoaștere prin auto-învățare
În practică, uneori trebuie să se confrunte cu nevoia de a construi dispozitive de recunoaștere în condiții în care fie este imposibil de clasificat obiectele, fie dintr-un motiv sau altul.

Câteva informații din teoria deciziilor statistice
Să luăm în considerare principalele rezultate ale teoriei deciziilor statistice folosind următorul exemplu. Fie mulțimea de obiecte să fie împărțită în clasele Ω1 și Ω2 și pentru

criteriul Bayes
Criteriul Bayes este o regulă conform căreia strategia de decizie este aleasă astfel încât să se asigure un minim de risc mediu. Utilizarea criteriului Bayes este recomandabilă în

Criteriul Minimax
La construirea sistemelor de recunoaștere sunt posibile situații în care probabilitățile a priori de apariție a obiectelor din clasele corespunzătoare sunt necunoscute. Minimizați valoarea medie a riscului

Testul Neyman-Pearson
La construirea unor sisteme de recunoaștere, nu numai probabilitățile a priori de apariție a obiectelor din clasele corespunzătoare pot fi necunoscute, ci și matricea de plată (1.7). In similar

Procedura de decizie secvențială
Anterior, se presupunea că decizia dacă un obiect recunoscut w aparține clasei corespunzătoare Ωi, i=l, ..., m, se ia după măsurarea întregii populații.

Regularizarea sarcinii de recunoaștere
În conformitate cu strategia Bayes, dacă un obiect recunoscut are o valoare de atribut măsurată x = x0, atunci

Dicționar de lucru al semnelor
În § 5.1 unul dintre metode posibile selectarea spațiului caracteristic al sistemului de recunoaștere, asigurând, în limita resurselor alocate, valoarea maximă a criteriului ka

Evaluarea comparativă a caracteristicilor
Am discutat destul mai sus metode generale selectarea unui set de caracteristici care sunt adecvate și accesibile pentru a fi utilizate la construirea unui sistem de recunoaștere. Cu toate acestea, în practică

Reprezentând numere și bază
O funcție booleană este considerată dată dacă este posibil să se specifice valorile de adevăr ale acestei funcții pentru toate combinațiile posibile ale valorilor de adevăr ale elementelor sale. Masa care

Restaurarea unei funcții booleene dintr-un număr reprezentativ
Să luăm în considerare metode care ne permit să trecem de la specificarea unei funcții booleene sub forma unui număr reprezentativ la exprimarea explicită prin elemente. Forma normală disjunctivă (DNF).

Dependența și independența enunțurilor
Condiții de independență. Deoarece fiecare funcție booleană poate avea două valori de adevăr, n funcții booleene pot forma 2n combinații de valori de adevăr. Potrivit def.

Ecuații booleene
Rezolvarea multor probleme legate de recunoașterea obiectelor poate fi redusă la găsirea de soluții la boolean ecuații algebrice cu una (sau mai multe) necunoscute. Un exemplu de boolean

Înlocuirea variabilelor
Conceptul de schimbare a variabilelor în algebra logică este similar cu conceptul de schimbare a variabilelor din algebra obișnuită. Dacă A, B, C, ... sunt afirmații elementare și se face o schimbare a variabilelor, atunci

Rezolvarea problemelor de recunoaștere logică
În sistemele de recunoaștere logică, clasele și atributele obiectelor sunt considerate variabile logice. Pentru a sublinia această trăsătură, pentru a desemna clase și caracteristici, introduceți

Rezolvarea problemelor de recunoaștere cu un număr mare de elemente
Aplicarea metodelor evidențiate în paragrafele anterioare pentru construirea unei baze reduse și rezolvarea problemelor logice este limitată semnificativ de cantitatea de memorie a computerului și de viteza acestora. T

Algoritm pentru construirea unei baze reduse
În § 7.1 a fost arătat cum se utilizează un computer, pe baza redusă b´ [A1, A2, ...Ω1, Ω2,...], pentru a găsi

Recunoașterea obiectelor în condițiile de camuflaj al acestora
Mascarea este una dintre principalele metode de reducere a eficacității recunoașterii inamicului în gama generală de contramăsuri. Rezolvarea problemei camuflajului necesită implicarea, cu

Recunoașterea în condiții de opoziție
Să luăm în considerare problema recunoașterii obiectelor în condițiile în care inamicul poate împiedica atât identificarea trăsăturilor individuale ale obiectelor, cât și conștient să-și schimbe tactica în raport cu

Algoritmi de recunoaștere bazați pe calculul scorurilor
Algoritmii de recunoaștere logică discutați mai sus, într-un număr de cazuri, nu permit să se obțină o decizie clară dacă obiectul recunoscut aparține unei anumite clase. YU.

Caracteristici generale ale metodelor de recunoaștere structurală
În multe cazuri, informații a posteriori despre obiecte sau fenomene recunoscute sunt conținute în înregistrările semnalelor corespunzătoare (electrocardiograme, encefalograme reflectate de la ținte).

Elemente de bază ale aparatului de metode de recunoaștere structurală
Când se vorbește despre un mijloc de descriere a obiectelor în termeni de elemente nederivate și relațiile lor, se folosește conceptul de limbaj. Regulile acestui limbaj, care determină cum se construiește un obiect din nematerial

Implementarea procesului de recunoaștere pe baza metodelor structurale
Pentru a recunoaște un obiect necunoscut pe baza metodelor structurale, este necesar în primul rând să-i găsim elementele nederivate și relațiile dintre ele și apoi să folosim sintactici.

Enunțarea problemei de optimizare a procesului de recunoaștere
În primul rând, vom arăta că, odată cu creșterea numărului de caracteristici utilizate în recunoaștere, crește și probabilitatea de a recunoaște corect obiectele necunoscute. Ver

Algoritm pentru controlul procesului de recunoaștere
Conceptele luate în considerare fac posibilă construirea unui algoritm de control al procesului de recunoaștere sub forma unei reguli de căutare secvențială a soluțiilor, asigurând dezvoltarea unui plan optim

Abordări particulare ale luării deciziilor în recunoaștere
Rezolvarea problemei de optimizare a recunoașterii în formularea considerată necesită disponibilitatea anumitor date. Atunci când acestea sunt absente, trebuie să folosiți abordări private pentru pr

Abordarea algebrică a problemei recunoașterii
Algoritmii de recunoaștere sunt discutați mai sus: algoritmi determiniști bazați pe trasarea unei granițe decisive în spațiul caracteristicilor (limita care separă clasele și reprezintă

Eficiența sistemelor de recunoaștere probabilistică
Pentru a evalua eficacitatea sistemelor de recunoaștere probabilistică bazate pe modelare matematică, puteți utiliza metoda de testare statistică. Pentru a efectua astfel de teste

Eficiența sistemelor de recunoaștere logică
Când construim sisteme de recunoaștere logică, trebuie să ne confruntăm cu o situație în care valorile de adevăr ale elementelor A1..., An, exprimând caracteristicile obiectelor

Imagine, clasă - o grupare de clasificare într-un sistem de clasificare care unește (evidențiază) un anumit grup de obiecte după un anumit criteriu.

Percepția imaginativă a lumii este una dintre proprietățile misterioase ale creierului viu, care permite să înțelegem fluxul nesfârșit de informații percepute și să mențină orientarea în oceanul de date disparate despre lumea exterioară. Când percepem lumea exterioară, clasificăm întotdeauna senzațiile percepute, adică le împărțim în grupuri de fenomene similare, dar nu identice. De exemplu, în ciuda diferenței semnificative, un grup include toate literele A, scrise cu scrieri de mână diferite, sau toate sunetele care corespund aceleiași note, luate în orice octavă și pe orice instrument, iar operatorul care controlează un obiect tehnic pentru întreg multe state obiectul reacționează cu aceeași reacție. Este caracteristic că pentru a formula un concept despre un grup de percepții ale unei anumite clase, este suficient să te familiarizezi cu un număr mic de reprezentanți ai acesteia. Copilului i se poate arăta o scrisoare o singură dată, astfel încât să poată găsi această scrisoare într-un text scris cu fonturi diferite sau să o recunoască, chiar dacă este scrisă într-o formă deformată în mod deliberat. Această proprietate a creierului ne permite să formulăm un astfel de concept ca imagine.

Imaginile au o proprietate caracteristică, care se manifestă prin faptul că familiarizarea cu un număr finit de fenomene din același set face posibilă recunoașterea cât de mult doriți. număr mare reprezentanții săi. Exemple de imagini pot fi: râu, mare, lichid, muzică de Ceaikovski, poezie de Mayakovsky etc. Un anumit set de stări ale unui obiect de control poate fi considerat și ca imagine, iar acest întreg set de stări se caracterizează prin faptul că că pentru a atinge un scop dat, același impact asupra unui obiect . Imaginile au proprietăți obiective caracteristice în sensul că diferiți oameni, instruiți pe material de observație diferit, clasifică în cea mai mare parte aceleași obiecte în același mod și independent unul de celălalt. Această obiectivitate a imaginilor este cea care permite oamenilor din întreaga lume să se înțeleagă.

Capacitatea de a percepe lumea exterioară sub formă de imagini permite recunoașterea cu o anumită fiabilitate a unui număr infinit de obiecte pe baza familiarizării cu un număr finit al acestora, iar natura obiectivă a proprietății principale a imaginilor permite modelarea procesul de recunoaștere a acestora. Fiind o reflectare a realității obiective, conceptul de imagine este la fel de obiectiv ca și realitatea însăși și, prin urmare, poate fi el însuși obiect de studiu special.

În literatura de specialitate dedicată problemei recunoașterii modelelor de învățare (PR), conceptul de clasă este adesea introdus în locul conceptului de imagine.

Problema recunoașterii modelelor de învățare (PRT)

Una dintre cele mai interesante proprietăți ale creierului uman este capacitatea sa de a răspunde set infinit stări ale mediului extern cu un număr finit de reacţii. Poate că tocmai această proprietate a permis omului să atingă cea mai înaltă formă de existență a materiei vii, exprimată în capacitatea de a gândi, adică de a reflecta în mod activ lumea obiectivă sub formă de imagini, concepte, judecăți etc. Prin urmare, problema a ORR a apărut în studiul proprietăților fiziologice ale creierului .

Să luăm în considerare un exemplu de probleme din domeniul ODO.


Orez. 3.1.

Există 12 imagini prezentate aici și ar trebui să selectați funcții care vă pot ajuta să distingeți triada stângă de imagini de cea dreaptă. Rezolvarea acestor probleme necesită modelarea completă a gândirii logice.

În general, problema recunoașterii modelelor constă din două părți: antrenament și recunoaștere. Antrenamentul se realizează prin afișarea obiectelor individuale care indică apartenența lor la una sau la alta imagine. Ca urmare a antrenamentului, sistemul de recunoaștere trebuie să dobândească capacitatea de a răspunde cu aceleași reacții la toate obiectele aceleiași imagini și cu reacții diferite la toate obiectele din imagini diferite. Este foarte important ca procesul de învățare să fie finalizat doar prin afișarea unui număr finit de obiecte fără alte solicitări. Obiectele de învățare pot fi fie imagini sau alte imagini vizuale (litere), fie diferite fenomene ale lumii exterioare, de exemplu, sunete, stări corporale în timpul unui diagnostic medical, starea unui obiect tehnic în sistemele de control etc. Este important. că numai obiectele în sine şi apartenenţa lor la imagine. Antrenamentul este urmat de procesul de recunoaștere a noilor obiecte, care caracterizează acțiunile unui sistem deja antrenat. Automatizarea acestor proceduri este problema recunoașterii modelelor de predare. În cazul în care o persoană o rezolvă sau o inventează ea însăși și apoi impune mașinii o regulă de clasificare, problema recunoașterii este parțial rezolvată, deoarece persoana preia partea principală și principală a problemei (antrenament).

Problema predării recunoașterii modelelor este interesantă atât din punct de vedere aplicat, cât și din punct de vedere fundamental. Din punct de vedere aplicativ, rezolvarea acestei probleme este importantă în primul rând pentru că deschide posibilitatea automatizării multor procese care până acum au fost asociate doar cu activitatea creierului viu. Semnificația fundamentală a problemei este strâns legată de întrebarea care apare din ce în ce mai mult în legătură cu dezvoltarea ideilor în cibernetică: ce poate și ce nu poate face o mașină în mod fundamental? În ce măsură capabilitățile unei mașini pot fi apropiate de cele ale unui creier viu? În special, poate o mașină să dezvolte capacitatea de a adopta o capacitate umană de a efectua anumite acțiuni în funcție de situațiile care apar în mediu? Până acum, a devenit clar doar că dacă o persoană își poate realiza mai întâi abilitățile și apoi o descrie, adică să indice de ce efectuează acțiuni ca răspuns la fiecare stare a mediului extern sau cum (după ce regulă) se combină obiecte individuale în imagini, atunci o astfel de abilitate poate fi transferată la o mașină fără dificultăți fundamentale. Dacă o persoană are o abilitate, dar nu o poate explica, atunci există o singură modalitate de a transfera abilitățile pe o mașină - predarea prin exemple.

Gama de probleme care pot fi rezolvate cu ajutorul sistemelor de recunoaștere este extrem de largă. Aceasta include nu numai sarcini de recunoaștere a imaginilor vizuale și auditive, ci și sarcini de recunoaștere procese complexeși fenomene care apar, de exemplu, la alegerea unor acțiuni adecvate de către conducătorul unei întreprinderi sau la alegerea managementului optim al operațiunilor tehnologice, economice, de transport sau militare. În fiecare dintre aceste sarcini sunt analizate anumite fenomene, procese și stări ale lumii exterioare, care sunt denumite mai jos obiecte de observație. Înainte de a începe să analizați orice obiect, trebuie să obțineți într-un fel anumite informații ordonate despre acesta. Astfel de informații reprezintă caracteristicile obiectelor, afișarea lor pe o varietate de organe perceptive ale sistemului de recunoaștere.

Dar fiecare obiect de observație ne poate afecta diferit, în funcție de condițiile de percepție. De exemplu, orice scrisoare, chiar dacă este scrisă în același mod, poate fi, în principiu, deplasată în orice mod în raport cu organele perceptoare. În plus, obiectele aceleiași imagini pot fi destul de diferite unele de altele și, în mod natural, au efecte diferite asupra organelor perceptive.

Fiecare mapare a unui obiect pe organele perceptive ale sistemului de recunoaștere, indiferent de poziția sa față de aceste organe, este de obicei numită o imagine a obiectului, iar seturile de astfel de imagini, unite prin unele proprietăți comune, sunt imagini.

La rezolvarea problemelor de control folosind metode de recunoaștere a modelelor, termenul „stare” este folosit în locul termenului „imagine”. Stat- aceasta este o anumită formă de afișare a caracteristicilor curente (sau instantanee) măsurate ale obiectului observat. Setul de stări determină situația. Conceptul de „situație” este analog conceptului de „imagine”. Dar această analogie nu este completă, deoarece nu orice imagine poate fi numită o situație, deși fiecare situație poate fi numită o imagine.

O situație este de obicei numită un anumit set de stări obiect complex, fiecare dintre acestea fiind caracterizat de aceleași caracteristici sau similare ale obiectului. De exemplu, dacă un anumit obiect de control este considerat ca obiect de observație, atunci situația combină astfel de stări ale acestui obiect în care ar trebui aplicate aceleași acțiuni de control. Dacă obiectul de observație este un joc de război, atunci situația combină toate stările de joc care necesită, de exemplu, o lovitură puternică a tancurilor cu sprijin aerian.

Alegerea descrierii inițiale a obiectelor este una dintre sarcinile centrale ale problemei ODO. Dacă descrierea inițială (spațiul caracteristicilor) este aleasă cu succes, sarcina de recunoaștere se poate dovedi a fi banală și, invers, o descriere inițială aleasă fără succes poate duce fie la o prelucrare ulterioară a informațiilor foarte complexă, fie la nicio soluție. De exemplu, dacă se rezolvă problema recunoașterii obiectelor care diferă ca culoare, iar semnalele primite de la senzorii de greutate sunt alese ca descriere inițială, atunci problema recunoașterii nu poate fi rezolvată, în principiu.

Revizuire metode existente recunoasterea formelor

L.P. Popova , ȘI DESPRE. Datiev

Abilitatea de a „recunoaște” este considerată principala proprietate a ființelor umane, precum și a altor organisme vii. Recunoașterea modelelor este o ramură a ciberneticii care dezvoltă principii și metode de clasificare, precum și identificarea obiectelor, fenomenelor, proceselor, semnalelor, situațiilor - toate acele obiecte care pot fi descrise printr-un set finit de semne sau proprietăți care caracterizează obiectul. .

O imagine este o descriere a unui obiect. Imaginile au o proprietate caracteristică, care se manifestă prin faptul că familiarizarea cu un număr finit de fenomene din același set face posibilă recunoașterea unui număr arbitrar de mare a reprezentanților săi.

În teoria recunoașterii modelelor, se pot distinge două direcții principale:

    studiul abilităților de recunoaștere deținute de ființele umane și de alte organisme vii;

    dezvoltarea teoriei și a metodelor de construire a dispozitivelor destinate să rezolve probleme individuale de recunoaștere a modelelor în anumite domenii de aplicare.

În plus, articolul descrie problemele, principiile și metodele de implementare a sistemelor de recunoaștere a imaginilor asociate cu dezvoltarea celei de-a doua direcții. A doua parte a articolului discută metodele rețelelor neuronale de recunoaștere a modelelor, care pot fi atribuite primei direcții a teoriei recunoașterii modelelor.

Probleme de construire a sistemelor de recunoaștere a imaginilor

Problemele care apar la construirea sistemelor automate de recunoaștere a modelelor pot fi de obicei clasificate în mai multe domenii principale. Prima dintre ele este legată de prezentarea datelor inițiale obținute ca rezultate de măsurare pentru obiectul de recunoscut problema de sensibilitate. Fiecare valoare măsurată este o „caracteristică a unei imagini sau a unui obiect Să presupunem, de exemplu, că imaginile sunt caractere alfanumerice, în acest caz, o retină de măsurare, similară cu cea prezentată în Fig utilizat în senzor Dacă retina constă din n-elemente, atunci rezultatele măsurătorii pot fi reprezentate ca un vector de măsurare sau un vector de imagine. ,

unde fiecare element xi, ia, de exemplu, valoarea 1 dacă prin i-a celulă retina trece imaginea simbolului, iar valoarea este 0 în caz contrar.

Să ne uităm la Fig. 2(b). În acest caz, imaginile servesc funcții continue(tipul semnalelor sonore) variabilă t. Dacă măsurarea valorilor funcției este efectuată în puncte discrete t1,t2, ..., tn, atunci vectorul imagine poate fi format luând x1= f(t1),x2=f(t2),... , xn = f(tn).

Figura 1. Măsurarea retinei

A doua problemă a recunoașterii modelului este asociată cu izolarea caracteristicilor sau proprietăților din datele sursă obținute și cu reducerea dimensiunii vectorilor de model. Această problemă este adesea definită ca o problemă preprocesare și selecție de caracteristici.

Caracteristicile clasei de imagini sunt proprietăți caracteristice, comun tuturor imaginilor din această clasă. Caracteristicile care caracterizează diferențele dintre clasele individuale pot fi interpretate ca trăsături interclase. Caracteristicile intraclase, comune tuturor claselor luate în considerare, nu conțin informații utile din punct de vedere al recunoașterii și pot să nu fie luate în considerare. Selectarea caracteristicilor este considerată una dintre sarcinile importante asociate cu construcția sistemelor de recunoaștere. Dacă rezultatele măsurătorilor ne permit să obținem un set complet de caracteristici distinctive pentru toate clasele, recunoașterea și clasificarea efectivă a imaginilor nu va cauza dificultăți deosebite. Recunoașterea automată va fi apoi redusă la un simplu proces de potrivire sau proceduri precum scanarea tabelului. În majoritatea problemelor practice de recunoaștere, totuși, determinarea setului complet de caracteristici distinctive se dovedește a fi extrem de dificilă, dacă nu imposibilă. De obicei, este posibil să extragi unele dintre caracteristicile discriminatorii din datele originale și să le folosești pentru a simplifica procesul de recunoaștere automată a modelelor. În special, dimensiunea vectorilor de măsurare poate fi redusă folosind transformări care minimizează pierderea de informații.

A treia problemă asociată cu construcția sistemelor de recunoaștere a modelelor este găsirea procedurilor de decizie optime necesare identificării și clasificării. Odată ce datele colectate despre modelele care trebuie recunoscute sunt reprezentate de puncte sau vectori de măsurare în spațiul modelului, lăsați mașina să descopere cărei clase de modele corespund acestor date. Fie ca mașina să fie proiectată pentru a distinge clasele M, notate w1, w2, ... ..., wm. În acest caz, spațiul imaginii poate fi considerat a fi format din M regiuni, fiecare dintre acestea conținând puncte corespunzătoare imaginilor dintr-o clasă. În acest caz, sarcina de recunoaștere poate fi considerată ca construirea granițelor zonelor de decizie care separă M clase pe baza vectorilor de măsurare înregistrați. Fie definite aceste limite, de exemplu, prin funcțiile de decizie d1(x), d2(x),..., dm(x). Aceste funcții, numite și funcții discriminante, sunt funcții scalare și cu o singură valoare ale imaginii lui x. Dacă di (x) > dj (x), atunci imaginea x aparține clasei w1. Cu alte cuvinte, dacă i-a funcție de decizie di(x) are cea mai mare valoare, atunci o ilustrare semnificativă a unei astfel de scheme clasificare automată, pe baza implementării procesului decizional, este prezentată în Fig. 2 (în diagrama „GR” este generatorul de funcții de decizie).

Figura 2. Schema de clasificare automată.

Funcțiile decisive pot fi obținute în mai multe moduri. În cazurile în care există informații complete a priori despre imaginile recunoscute, funcțiile de decizie pot fi determinate exact pe baza acestor informații. Dacă sunt disponibile doar informații calitative cu privire la imagini, se pot face presupuneri rezonabile cu privire la forma funcțiilor decisive. În acest din urmă caz, limitele zonelor de soluție se pot abate semnificativ de la cele adevărate și, prin urmare, este necesară crearea unui sistem capabil să obțină un rezultat satisfăcător printr-o serie de ajustări succesive.

Obiectele (imaginile) care urmează să fie recunoscute și clasificate folosind un sistem automat de recunoaștere a modelelor trebuie să aibă un set de caracteristici măsurabile. Când pentru un întreg grup de imagini rezultatele măsurătorilor corespunzătoare se dovedesc a fi similare, aceste obiecte sunt considerate ca aparținând aceleiași clase. Scopul sistemului de recunoaștere a modelelor este de a determina, pe baza informațiilor colectate, o clasă de obiecte cu caracteristici similare cu cele măsurate în obiectele care sunt recunoscute. Corectitudinea recunoașterii depinde de cantitatea de informații discriminatorii conținute în caracteristicile măsurate și de eficacitatea utilizării acestor informații.

      Metode de bază pentru implementarea sistemelor de recunoaștere a modelelor

Recunoașterea modelelor se referă la problema construirii și aplicării operațiilor formale asupra reprezentărilor numerice sau simbolice ale obiectelor din lumea reală sau ideală, ale căror rezultate reflectă relațiile de echivalență dintre aceste obiecte. Relațiile de echivalență exprimă apartenența obiectelor evaluate la orice clase, considerate ca unități semantice independente.

La construirea algoritmilor de recunoaștere, clasele de echivalență pot fi specificate de un cercetător care își folosește propriile reprezentări semnificative sau folosește Informații suplimentare despre asemănările și diferențele dintre obiecte în contextul problemei care se rezolvă. Apoi vorbesc despre „recunoașterea cu un profesor”. Altfel, i.e. Când un sistem automatizat rezolvă o problemă de clasificare fără a utiliza informații externe de instruire, vorbim de clasificare automată sau „recunoaștere nesupravegheată”. Majoritatea algoritmilor de recunoaștere a modelelor necesită utilizarea unei puteri de calcul foarte semnificative, care poate fi furnizată doar de tehnologia computerizată de înaltă performanță.

Diverși autori (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V., Tu R., J. V. Gonzalez, P. Winston, K. Fu, Ya.Z Tsypkin etc.) oferă o tipologie diferită de recunoaștere a modelelor. Unii autori fac distincție între metode parametrice, neparametrice și euristice, alții identifică grupuri de metode bazate pe școli și tendințe stabilite istoric în acest domeniu.

În același timp, tipologiile cunoscute nu țin cont de o caracteristică foarte semnificativă, care reflectă specificul modului de reprezentare a cunoștințelor despre o disciplină folosind orice algoritm formal de recunoaștere a modelelor. D.A. Pospelov identifică două modalități principale de prezentare a cunoștințelor:

    Reprezentare intensională – sub forma unei diagrame a conexiunilor dintre atribute (trăsături).

    Reprezentare extensivă – folosind fapte specifice (obiecte, exemple).

De remarcat că existența tocmai a acestor două grupe de metode de recunoaștere: cele care operează cu semne și cele care operează cu obiecte, este profund firească. Din acest punct de vedere, nici una dintre aceste metode, luate separat de cealaltă, nu ne permite să ne formăm o reflectare adecvată a domeniului subiectului. Între aceste metode există o relație de complementaritate în sensul lui N. Bohr, prin urmare, sistemele de recunoaștere promițătoare ar trebui să asigure implementarea ambelor metode, și nu doar a uneia dintre ele.

Astfel, clasificarea metodelor de recunoaștere propusă de D.A Pospelov se bazează pe tiparele fundamentale care stau la baza modului uman de cunoaștere în general, ceea ce îl plasează într-o poziție cu totul specială (privilegiată) față de alte clasificări, care pe acest fundal par mai ușoare și. artificial.

Metode intensionale

O trăsătură distinctivă a metodelor intensionale este că ele folosesc elemente de operații atunci când construiesc și aplică algoritmi de recunoaștere a modelelor. diverse caracteristici semnele și conexiunile lor. Astfel de elemente pot fi valori individuale sau intervale de valori ale caracteristicilor, valori medii și variații, matrice de relații de caracteristici etc., asupra cărora se efectuează acțiuni, exprimate în formă analitică sau constructivă. În același timp, obiectele din aceste metode nu sunt considerate unități informaționale integrale, ci acționează ca indicatori pentru evaluarea interacțiunii și comportamentului atributelor lor.

Grupul de metode intensionale pentru recunoașterea modelelor este extins, iar împărțirea sa în subclase este într-o anumită măsură condiționată:

– metode bazate pe estimări ale densităților de distribuție a valorilor caracteristicilor

– metode bazate pe ipoteze despre clasa funcţiilor de decizie

– metode logice

– metode lingvistice (structurale).

Metode bazate pe estimări ale densităților de distribuție a valorilor caracteristicilor. Aceste metode de recunoaștere a modelelor sunt împrumutate din teoria clasică a deciziilor statistice, în care obiectele de studiu sunt considerate ca realizări ale unei variabile aleatoare multidimensionale distribuite în spațiul caracteristic conform unor legi. Ele se bazează pe o schemă bayesiană de luare a deciziilor care face apel la probabilitățile a priori ale obiectelor aparținând unei anumite clase recunoscute și la densitățile de distribuție condiționată a valorilor vectorului caracteristic. Aceste metode se rezumă la determinarea raportului de probabilitate în diferite zone ale spațiului caracteristic multidimensional.

Un grup de metode bazate pe estimarea densităților de distribuție a valorilor caracteristicilor este direct legat de metodele de analiză discriminantă. Abordarea bayesiană a luării deciziilor este una dintre cele mai dezvoltate așa-numite metode parametrice din statistica modernă, pentru care expresia analitică a legii distribuției (în acest caz, legea normală) este considerată cunoscută și doar un număr mic de parametri ( vectori de valori medii și matrice de covarianță) trebuie să fie estimați.

Acest grup include și metoda de calcul a raportului de probabilitate pentru caracteristicile independente. Această metodă, cu excepția presupunerii independenței caracteristicilor (care în realitate nu este aproape niciodată satisfăcută), nu presupune cunoașterea tip functional legea distributiei. Poate fi clasificată ca metodă neparametrică.

Alte metode neparametrice, utilizate atunci când forma curbei densității distribuției este necunoscută și nu se pot face deloc presupuneri cu privire la natura acesteia, ocupă o poziție specială. Printre acestea se numără binecunoscuta metodă a histogramelor multidimensionale, metoda „k-nearest neighbors”, metoda distanței euclidiene, metoda funcțiilor potențiale etc., o generalizare a cărei generalizare este metoda numită „Estimări Parzen”. Aceste metode operează în mod formal cu obiectele ca structuri integrale, dar în funcție de tipul sarcinii de recunoaștere, ele pot acționa atât sub formă intențională, cât și extensivă.

Metodele neparametrice analizează numărul relativ de obiecte care se încadrează în volume multidimensionale date și utilizează diverse funcții ale distanței dintre obiectele din setul de antrenament și obiectele recunoscute. Pentru caracteristicile cantitative, când numărul lor este mult mai mic decât dimensiunea eșantionului, operațiunile cu obiecte joacă un rol intermediar în estimarea densităților de distribuție locală a probabilităților condiționate, iar obiectele nu poartă încărcătura semantică a unităților informaționale independente. În același timp, când numărul de semne este proporțional sau mai mult număr a obiectelor studiate, iar semnele sunt de natură calitativă sau dihotomică, atunci nu se poate vorbi despre estimări locale ale densităților distribuției probabilităților. În acest caz, obiectele din metodele neparametrice specificate sunt considerate ca unități informaționale independente (fapte empirice integrale) și aceste metode capătă sensul evaluării asemănărilor și diferențelor obiectelor studiate.

Astfel, aceleași operații tehnologice ale metodelor neparametrice, în funcție de condițiile problemei, au sens fie din estimări locale ale densităților de distribuție a probabilității a valorilor caracteristicilor, fie estimări ale asemănării și diferențelor obiectelor.

În contextul reprezentării intenționale a cunoștințelor, aici este considerată prima latură a metodelor neparametrice, ca estimări ale densităților distribuției probabilităților. Mulți autori observă că, în practică, metodele neparametrice, cum ar fi estimatorii Parzen, funcționează bine. Principalele dificultăți în utilizarea acestor metode sunt necesitatea de a reține întregul eșantion de antrenament pentru a calcula estimări ale densităților locale de distribuție a probabilității și sensibilitatea ridicată la nereprezentativitatea eșantionului de antrenament.

Metode bazate pe ipoteze despre clasa funcțiilor de decizie.În acest grup de metode se consideră cunoscută forma generală a funcției de decizie și se precizează funcționalitatea calității acesteia. Pe baza acestei funcționale, se caută cea mai bună aproximare a funcției de decizie în secvența de antrenament. Cele mai comune sunt reprezentările funcțiilor de decizie sub formă de polinoame liniare și neliniare generalizate. Calitatea funcțională a regulii de decizie este de obicei asociată cu eroarea de clasificare.

Principalul avantaj al metodelor bazate pe ipoteze despre clasa funcțiilor de decizie este claritatea formulării matematice a problemei de recunoaștere ca problemă de căutare a unui extremum. Soluția la această problemă este adesea obținută folosind niște algoritmi de gradient. Varietatea metodelor din acest grup este explicată prin gama largă de funcționale de calitate a regulilor de decizie și algoritmi de căutare extremum utilizați. O generalizare a algoritmilor luați în considerare, care includ, în special, algoritmul lui Newton, algoritmii de tip perceptron etc., este metoda de aproximare stocastică. Spre deosebire de metodele de recunoaștere parametrică, succesul utilizării acestui grup de metode nu depinde atât de mult de discrepanța dintre ideile teoretice despre legile distribuției obiectelor în spațiul caracteristic și realitatea empirică. Toate operațiunile sunt subordonate unui singur scop principal - găsirea extremului calității funcționale a regulii de decizie. În același timp, rezultatele metodelor parametrice și considerate pot fi similare. După cum se arată mai sus, metodele parametrice pentru cazul distribuțiilor normale ale obiectelor din clase diferite cu matrice de covarianță egală conduc la funcții de decizie liniare. De asemenea, rețineți că algoritmii pentru selectarea caracteristicilor informative în modelele de diagnostic liniare pot fi interpretați ca versiuni speciale ale algoritmilor de gradient pentru căutarea extremelor.

Capabilitatile algoritmilor de cautare a gradient extremum, in special in grupul regulilor de decizie liniara, au fost destul de bine studiate. Convergența acestor algoritmi a fost dovedită numai în cazul în care clasele de obiecte recunoscute sunt afișate în spațiul caracteristicilor prin structuri geometrice compacte. Cu toate acestea, dorința de a obține o calitate suficientă a regulii de decizie poate fi adesea satisfăcută cu ajutorul algoritmilor care nu au o demonstrație matematică strictă a convergenței soluției la un extremum global.

Astfel de algoritmi includ un grup mare de proceduri de programare euristică care reprezintă direcția modelării evolutive. Modelarea evolutivă este o metodă bionică împrumutată din natură. Se bazează pe utilizarea unor mecanisme cunoscute de evoluție pentru a înlocui procesul de modelare semnificativă a unui obiect complex cu modelarea fenomenologică a evoluției acestuia.

Un reprezentant binecunoscut al modelării evolutive în recunoașterea modelelor este metoda de contabilizare de grup a argumentelor (MGUA). Baza GMDH este principiul auto-organizării, iar algoritmii GMDH reproduc schema selecției în masă. În algoritmii GMDH, membrii unui polinom generalizat sunt sintetizați și selectați într-un mod special, care este adesea numit polinomul Kolmogorov-Gabor. Această sinteză și selecție se realizează cu o complexitate crescândă și este imposibil de prezis în prealabil ce formă finală va avea polinomul generalizat. În primul rând, sunt de obicei luate în considerare combinații simple pe perechi de caracteristici inițiale, din care sunt compilate ecuații ale funcțiilor de decizie, de obicei nu mai mari de ordinul doi. Fiecare ecuație este analizată ca o funcție de decizie independentă, iar valorile parametrilor ecuațiilor compilate sunt găsite într-un fel sau altul folosind eșantionul de antrenament. Apoi, din setul rezultat de funcții de decizie, sunt selectate unele dintre cele mai bune. Calitatea funcțiilor de decizie individuale este verificată pe un eșantion de control (test), care este uneori numit principiul adăugării externe. Funcțiile de decizie parțiale selectate sunt considerate în continuare ca variabile intermediare care servesc drept argumente inițiale pentru o sinteză similară a noilor funcții de decizie etc. Procesul unei astfel de sinteze ierarhice continuă până la atingerea extremului criteriului de calitate al funcției de decizie, care în practică. se manifestă prin deteriorarea acestei calităţi atunci când se încearcă mărirea în continuare a ordinii termenilor polinomiali în raport cu caracteristicile originale.

Principiul auto-organizării care stă la baza GMDH se numește auto-organizare euristică, deoarece întregul proces se bazează pe introducerea de completări externe, selectate euristic. Rezultatul unei decizii poate depinde în mod semnificativ de aceste euristici. Modelul de diagnostic rezultat depinde de modul în care obiectele sunt împărțite în eșantioane de antrenament și testare, de modul în care este determinat criteriul de calitate a recunoașterii, de câte variabile sunt trecute în următorul rând de selecție etc.

Caracteristicile indicate ale algoritmilor GMDH sunt, de asemenea, caracteristice altor abordări ale modelării evolutive. Dar să remarcăm aici încă un aspect al metodelor luate în considerare. Aceasta este esența lor semnificativă. Folosind metode bazate pe ipoteze despre clasa funcțiilor de decizie (evolutive și gradiente), este posibil să se construiască modele de diagnosticare de mare complexitate și să se obțină rezultate practic acceptabile. În același timp, atingerea scopurilor practice în acest caz nu este însoțită de extragerea de noi cunoștințe despre natura obiectelor recunoscute. Posibilitatea extragerii acestor cunoștințe, în special cunoștințe despre mecanismele de interacțiune a atributelor (trăsăturilor), este aici fundamental limitată de structura dată a unei astfel de interacțiuni, fixată în forma selectată a funcțiilor de decizie. Prin urmare, cel mai mult care se poate spune după construirea unui anumit model de diagnostic este să enumerați combinații de caracteristici și caracteristicile însele incluse în modelul rezultat. Dar semnificația combinațiilor care reflectă natura și structura distribuțiilor obiectelor studiate rămâne adesea nedezvăluită în cadrul acestei abordări.

Metode booleene. Metodele logice de recunoaștere a modelelor se bazează pe aparatul algebrei logice și permit operarea cu informații conținute nu numai în caracteristicile individuale, ci și în combinații de valori ale caracteristicilor. În aceste metode, valorile oricărui atribut sunt considerate evenimente elementare.

În cea mai generală formă, metodele logice pot fi caracterizate ca un tip de căutare printr-un eșantion de antrenament de tipare logice și formarea unui anumit sistem de reguli de decizie logică (de exemplu, sub forma conjuncțiilor de evenimente elementare), fiecare dintre care are propria greutate. grup metode logice este divers și include metode de diferite complexitate și profunzime de analiză. Pentru caracteristicile dihotomice (booleene), sunt populare așa-numitele clasificatoare asemănătoare arborelui, metoda de testare fără margini, algoritmul „Bark” și altele. Mai mult metode complexe se bazează pe formalizarea metodelor inductive ale lui D.S. Mill. Formalizarea se realizează prin construirea unei teorii cvasi-axiomatice și se bazează pe logica multi-sortată cu mai multe valori cu cuantificatori pe tupluri de lungime variabilă.

Algoritmul „Kora”, ca și alte metode logice de recunoaștere a modelelor, necesită o muncă destul de mare, deoarece este necesară o căutare completă la selectarea conjuncțiilor. Prin urmare, atunci când se folosesc metode logice, se impune cerințe mari asupra organizării eficiente a procesului de calcul, iar aceste metode funcționează bine cu dimensiuni relativ mici ale spațiului caracteristic și numai pe computere puternice.

Metode lingvistice (sintactice sau structurale). Metodele lingvistice de recunoaștere a modelelor se bazează pe utilizarea unor gramatici speciale care generează limbaje, cu ajutorul cărora poate fi descris un set de proprietăți ale obiectelor recunoscute. Gramatica se referă la regulile de construire a obiectelor din aceste elemente nederivate.

Dacă descrierea imaginilor se face folosind elemente nederivate (subimagini) și relațiile lor, atunci se folosește o abordare lingvistică sau sintactică folosind principiul generalității proprietăților pentru a construi sisteme de recunoaștere automată. O imagine poate fi descrisă folosind o structură ierarhică de subimagini, similară cu structura sintactică limba. Această împrejurare face posibilă aplicarea teoriei limbajelor formale la rezolvarea problemelor de recunoaștere a imaginilor. Se presupune că o gramatică a imaginii conține seturi finite de elemente numite variabile, elemente nederivate și reguli de substituție. Natura regulilor de substituție determină tipul de gramatică. Printre cele mai studiate gramatici putem remarca gramaticile regulate, fără context și ale componentelor directe. Punctele cheie ale acestei abordări sunt selecția elementelor nederivate ale imaginii, combinarea acestor elemente și relațiile care le conectează în gramatici ale imaginii și, în final, implementarea proceselor de analiză și recunoaștere în limbajul adecvat. Această abordare este utilă în special atunci când se lucrează cu imagini care fie nu pot fi descrise prin măsurători numerice, fie sunt atât de complexe încât caracteristicile lor locale nu pot fi identificate și trebuie să apelăm la proprietățile globale ale obiectelor.

De exemplu, E.A. Butakov, V.I. Ostrovsky, I.L. Fadeev propune următoarea structură de sistem pentru procesarea imaginii (Fig. 3), folosind o abordare lingvistică, în care fiecare dintre blocurile funcționale este un software (microprogram) complex (modul) care implementează funcțiile corespunzătoare.

Figura 3. Schema bloc a dispozitivului de recunoaștere

Încercările de aplicare a metodelor lingvisticii matematice la problema analizei imaginii duc la necesitatea rezolvării unui număr de probleme asociate cu maparea structurii bidimensionale a unei imagini pe lanțuri unidimensionale ale unui limbaj formal.

Metode de extensie

În metodele acestui grup, spre deosebire de direcția intensională, fiecărui obiect studiat i se acordă, într-o măsură mai mare sau mai mică, o semnificație diagnostică independentă. La baza lor, aceste metode sunt apropiate de abordarea clinică, care consideră oamenii nu ca un lanț de obiecte clasificate după un indicator sau altul, ci ca sisteme integrale, fiecare dintre acestea fiind individual și având o valoare diagnostică specială. O astfel de atitudine atentă față de obiectele cercetării nu permite excluderea sau pierderea informațiilor despre fiecare obiect individual, ceea ce se întâmplă atunci când se folosesc metode de direcție intențională care folosesc obiecte doar pentru a detecta și înregistra modele de comportament ale atributelor lor.

Principalele operații în recunoașterea modelelor folosind metodele discutate sunt operațiunile de determinare a asemănărilor și diferențelor obiectelor. Obiectele din grupul specificat de metode joacă rolul de precedente de diagnosticare. Mai mult, în funcție de condițiile unei sarcini specifice, rolul unui precedent individual poate varia în cea mai largă gamă: de la principal și determinant până la participarea foarte indirectă la procesul de recunoaștere. La rândul lor, condițiile problemei pot necesita participarea diverse cantitati precedente de diagnostic: de la câte unul în fiecare clasă recunoscută până la dimensiunea completă a eșantionului, precum și diferite metode de calculare a măsurilor de similitudine și diferență între obiecte. Aceste cerințe explică împărțirea ulterioară a metodelor extensiale în subclase:

    metoda de comparare cu prototipul;

    metoda k-nearest neighbors;

    colective de reguli de decizie.

Metoda de comparare cu prototipul. Aceasta este cea mai simplă metodă de recunoaștere extensivă. Este folosit, de exemplu, atunci când clasele recunoscute sunt afișate în spațiul caracteristicilor prin grupări geometrice compacte. În acest caz, de obicei, centrul grupării geometrice a clasei (sau obiectul cel mai apropiat de centru) este selectat ca punct prototip.

Pentru a clasifica un obiect necunoscut, se găsește cel mai apropiat prototip de acesta, iar obiectul aparține aceleiași clase cu acest prototip. Evident, nu sunt generate imagini de clasă generalizate în această metodă.

Diferite tipuri de distanțe pot fi utilizate ca măsură a proximității. Adesea, pentru caracteristicile dihotomice, se folosește distanța Hamming, care în acest caz este egală cu pătratul distanței euclidiene. În acest caz, regula de decizie pentru clasificarea obiectelor este echivalentă cu o funcție de decizie liniară.

Acest fapt trebuie remarcat în mod deosebit. Demonstrează clar legătura dintre prototip și reprezentarea atributelor informații despre structura datelor. Folosind reprezentarea de mai sus, se poate considera, de exemplu, orice scară de măsurare tradițională, care este o funcție liniară a valorilor caracteristicilor dihotomice, ca un prototip de diagnostic ipotetic. La rândul său, dacă analiza structurii spațiale a claselor recunoscute ne permite să tragem o concluzie despre compactitatea lor geometrică, atunci este suficient să înlocuim fiecare dintre aceste clase cu un prototip, care este de fapt echivalent cu un model de diagnostic liniar.

În practică, desigur, situația este adesea diferită de exemplul idealizat descris. Un cercetător care intenționează să aplice o metodă de recunoaștere bazată pe comparație cu clasele de diagnostic prototip se confruntă cu probleme dificile. Aceasta este, în primul rând, alegerea măsurii de proximitate (metrică), care poate schimba semnificativ configurația spațială a distribuției obiectelor. Și în al doilea rând, problema independenta este analiza structurilor multidimensionale ale datelor experimentale. Ambele probleme sunt deosebit de acute pentru cercetător în condiții de dimensionalitate ridicată a spațiului caracteristic, caracteristică problemelor reale.

Metoda k-cei mai apropiati vecini. Metoda k-nearest neighbors pentru rezolvarea problemelor de analiză discriminantă a fost propusă pentru prima dată în 1952. Este după cum urmează.

Când se clasifică un obiect necunoscut, se găsește număr dat(k) cel mai apropiat din punct de vedere geometric de el în spațiul caracteristic al altor obiecte (cei mai apropiati vecini) cu apartenența deja cunoscută la clase de recunoscut. Decizia de a atribui un obiect necunoscut unei anumite clase de diagnostic este luată prin analizarea informațiilor despre această afiliere cunoscută a vecinilor săi cei mai apropiați, de exemplu, folosind o simplă numărare a voturilor.

Inițial, metoda k-nearest neighbors a fost considerată o metodă neparametrică pentru estimarea raportului de probabilitate. Pentru această metodă, s-au obținut estimări teoretice ale eficacității sale în comparație cu clasificatorul bayesian optim. Sa dovedit că probabilitățile de eroare asimptotică pentru metoda k-nearest neighbors depășesc erorile regulii lui Bayes de cel mult două ori.

După cum sa menționat mai sus, în problemele reale este adesea necesar să se opereze cu obiecte care sunt descrise de un număr mare de caracteristici calitative (dihotomice). În acest caz, dimensiunea spațiului caracteristic este proporțională cu sau depășește volumul eșantionului studiat. În astfel de condiții, este convenabil să se interpreteze fiecare obiect al eșantionului de antrenament ca un clasificator liniar separat. Apoi, aceasta sau acea clasă de diagnosticare nu este reprezentată de un prototip, ci de un set de clasificatoare liniare. Interacțiunea combinată a clasificatorilor liniari are ca rezultat în cele din urmă o suprafață liniară pe bucăți care separă clasele recunoscute în spațiul caracteristicilor. Tipul suprafeței divizoare, constând din bucăți de hiperplane, poate fi variat și depinde de poziția relativă a agregatelor clasificate.

Se poate folosi și o altă interpretare a mecanismelor de clasificare folosind regula k-nearest neighbors. Se bazează pe ideea existenței anumitor variabile latente, abstracte sau legate de o anumită transformare la spațiul caracteristic original. Dacă în spațiul variabilelor latente distanțele perechi dintre obiecte sunt aceleași ca și în spațiul caracteristicilor originale, iar numărul acestor variabile este semnificativ mai mic decât numărul de obiecte, atunci interpretarea metodei k-nearest neighbors poate să fie luate în considerare din punctul de vedere al comparării estimărilor neparametrice ale densităților de distribuție de probabilitate condiționată. Viziunea variabilelor latente prezentate aici este apropiată în natură de viziunea dimensionalității adevărate și a altor vederi utilizate în diferite tehnici de reducere a dimensionalității.

Când se utilizează metoda k-nearest neighbors pentru recunoașterea modelelor, cercetătorul trebuie să decidă problema complexa alegerea unei metrici pentru a determina proximitatea obiectelor diagnosticate. Această problemă în condiții de dimensionalitate ridicată a spațiului caracteristic este extrem de agravată din cauza complexității suficiente a acestei metode, care devine semnificativă chiar și pentru calculatoarele performante. Prin urmare, aici, la fel ca în metoda de comparare cu un prototip, este necesar să se rezolve problema creativă a analizei structurii multidimensionale a datelor experimentale pentru a minimiza numărul de obiecte reprezentând clase de diagnostic.

Algoritmi pentru calcularea ratingurilor (votare). Principiul de funcționare al algoritmilor de calcul de evaluare (ABO) este de a calcula prioritatea (scorurile de similaritate) care caracterizează „proximitatea” obiectelor recunoscute și de referință conform unui sistem de ansambluri de caracteristici, care este un sistem de subseturi ale unui set dat de caracteristici. .

Spre deosebire de toate metodele discutate anterior, algoritmii pentru calcularea estimărilor operează cu descrieri de obiecte într-un mod fundamental nou. Pentru acești algoritmi, obiectele există simultan în subspații foarte diferite ale spațiului caracteristic. Clasa ABO duce ideea utilizării caracteristicilor la concluzia sa logică: deoarece nu se știe întotdeauna care combinații de caracteristici sunt cele mai informative, atunci în ABO gradul de similitudine al obiectelor este calculat prin compararea tuturor combinațiilor posibile sau specifice de caracteristici incluse în descrierile obiectelor.

Reguli colective de decizie. Regula de decizie folosește o schemă de recunoaștere pe două niveluri. La primul nivel funcționează algoritmi de recunoaștere privat, ale căror rezultate sunt combinate la al doilea nivel în blocul de sinteză. Cele mai comune metode de astfel de unificare se bazează pe identificarea domeniilor de competență ale unui anumit algoritm. Cel mai simplu mod găsirea ariilor de competență constă într-o împărțire a priori a spațiului de atribute pe baza considerentelor profesionale ale unei anumite științe (de exemplu, stratificarea eșantionului în funcție de un anumit atribut). Apoi, pentru fiecare dintre zonele selectate, se construiește propriul algoritm de recunoaștere. O altă metodă se bazează pe utilizarea analizei formale pentru a determina zonele locale ale spațiului caracteristic ca vecinătăți ale obiectelor recunoscute pentru care a fost dovedit succesul unui anumit algoritm de recunoaștere.

Cel mai abordare generală pentru a construi un bloc de sinteză, consideră indicatorii rezultați ai anumitor algoritmi ca caracteristici inițiale pentru construirea unei noi reguli de decizie generalizate. În acest caz, pot fi utilizate toate metodele de mai sus de direcții intenționale și extensiale în recunoașterea modelelor. Eficienți pentru rezolvarea problemei creării unui set de reguli de decizie sunt algoritmii logici de tip „Kora” și algoritmii pentru calcularea estimărilor (ABO), care stau la baza așa-numitei abordări algebrice, care oferă studiul și descrierea constructivă a algoritmi de recunoaștere, în cadrul cărora se încadrează toate tipurile existente de algoritmi.

Metode de rețea neuronală

Metodele rețelelor neuronale sunt metode bazate pe utilizarea diferitelor tipuri de rețele neuronale (NN). Principalele domenii de aplicare a diferitelor rețele neuronale pentru recunoașterea modelelor și imaginilor:

    aplicație pentru extragerea caracteristicilor sau caracteristicilor cheie ale imaginilor date,

    clasificarea imaginilor în sine sau a caracteristicilor deja extrase din acestea (în primul caz, extragerea caracteristicilor cheie are loc implicit în cadrul rețelei),

    rezolvarea problemelor de optimizare.

Rețele neuronale multistrat. Arhitectura unei rețele neuronale multistrat (MNN) constă din straturi conectate secvențial, unde neuronul fiecărui strat este conectat cu intrările sale la toți neuronii stratului anterior și ieșirile celui următor.

Cea mai simplă aplicație a unei rețele neuronale cu un singur strat (numită memorie auto-asociativă) este antrenarea rețelei pentru a reconstrui imaginile alimentate. Prin introducerea unei imagini de testare ca intrare și calculând calitatea imaginii reconstruite, puteți evalua cât de bine a recunoscut rețeaua imaginea de intrare. Proprietățile pozitive ale acestei metode sunt că rețeaua poate restaura imagini distorsionate și zgomotoase, dar nu este potrivită pentru scopuri mai serioase.

MNN este, de asemenea, utilizat pentru clasificarea directă a imaginii - fie imaginea în sine, fie un set de caracteristici cheie extrase anterior ale imaginii este furnizat ca intrare la ieșire, neuronul cu activitate maximă indică apartenența la clasa recunoscută (Fig. 4). Dacă această activitate este sub un anumit prag, atunci se consideră că imaginea transmisă nu aparține niciunei dintre clasele cunoscute. Procesul de învățare stabilește corespondența imaginilor furnizate intrării cu apartenența la o anumită clasă. Aceasta se numește învățare supravegheată. Această abordare este bună pentru sarcinile de control al accesului grup mic persoane Această abordare asigură că rețeaua compară direct imaginile în sine, dar odată cu creșterea numărului de cursuri, timpul de pregătire și funcționare a rețelei crește exponențial. Prin urmare, pentru sarcini precum căutarea persoana asemanatoareîntr-o bază de date mare, necesită extragerea unui set compact de caracteristici cheie pe care să căutați.

Abordarea de clasificare folosind caracteristicile de frecvențăîntreaga imagine, descrisă în . A fost utilizată o rețea neuronală cu un singur strat bazată pe neuroni cu valori multiple.

Aplicarea unei rețele neuronale pentru clasificarea imaginilor este prezentată atunci când intrarea în rețea primește rezultatele descompunerii imaginii folosind metoda componentelor principale.

În MNN clasic, conexiunile neuronale interstrat sunt complet conectate, iar imaginea este reprezentată ca un vector unidimensional, deși este bidimensional. Arhitectura rețelei neuronale convoluționale își propune să depășească aceste deficiențe. A folosit câmpuri locale de receptor (oferă conectivitate bidimensională locală a neuronilor), ponderi comune (oferă detectarea anumitor caracteristici oriunde în imagine) și organizarea ierarhică cu subeșantionare spațială. Rețeaua neuronală convoluțională (CNN) oferă rezistență parțială la schimbările de scară, deplasări, rotații și distorsiuni.

MNN-urile sunt, de asemenea, folosite pentru a detecta obiecte de un anumit tip. Pe lângă faptul că orice MNN instruit poate, într-o oarecare măsură, să determine dacă imaginile aparțin claselor „lor”, poate fi antrenat special pentru a detecta în mod fiabil anumite clase. În acest caz, clasele de ieșire vor fi clase care aparțin și nu aparțin tipului de imagine dat. Un detector de rețea neuronală a fost folosit pentru a detecta o imagine a feței în imaginea de intrare. Imaginea a fost scanată de o fereastră de 20x20 pixeli, care a fost alimentată la intrarea rețelei, care decide dacă o anumită zonă aparține clasei de fețe. Instruirea a fost efectuată folosind atât exemple pozitive (diverse imagini ale fețelor), cât și exemple negative (imagini care nu sunt fețe). Pentru a crește fiabilitatea detectării, s-a folosit o echipă de rețele neuronale, antrenate cu greutăți inițiale diferite, în urma cărora rețelele neuronale au făcut erori în diferite moduri, iar decizia finală s-a luat prin votul întregii echipe.

Figura 5. Componentele principale (fețe proprii) și descompunerea imaginii în componente principale

O rețea neuronală este, de asemenea, utilizată pentru a extrage caracteristicile cheie ale imaginii, care sunt apoi utilizate pentru clasificarea ulterioară. În , este prezentată o metodă de implementare a rețelei neuronale a metodei de analiză a componentelor principale. Esența metodei de analiză a componentelor principale este obținerea de coeficienți decorați la maximum care caracterizează imaginile de intrare. Acești coeficienți sunt numiți componente principale și sunt utilizați pentru compresia statistică a imaginii, în care un număr mic de coeficienți sunt utilizați pentru a reprezenta întreaga imagine. O rețea neuronală cu un strat ascuns care conține N neuroni (care este mult mai mică decât dimensiunea imaginii), antrenată folosind metoda de backpropagation pentru a restabili imaginea de ieșire alimentată la intrare, generează coeficienții primelor N componente principale la ieșire a neuronilor ascunși, care sunt utilizați pentru comparație. De obicei, se folosesc de la 10 la 200 de componente principale. Pe măsură ce numărul unei componente crește, reprezentativitatea acesteia scade foarte mult și nu are sens să folosiți componente cu numere mari. Când se utilizează funcții de activare neliniară ale elementelor neuronale, este posibilă descompunerea neliniară în componente principale. Neliniaritatea permite ca variațiile în datele de intrare să fie reflectate cu mai multă acuratețe. Aplicând analiza componentelor principale la descompunerea imaginilor feței, obținem componente principale numite fețe proprii, care sunt, de asemenea, caracterizate prin proprietate utilă– există componente care reflectă în principal caracteristici esențiale ale unei persoane precum genul, rasa, emoțiile. Când sunt restaurate, componentele au un aspect asemănător feței, primele reflectând cel mai mult forma generala fețe, acestea din urmă – diverse mici diferențe între fețe (Fig. 5). Această metodă este potrivită pentru căutare imagini similare indivizi în baze de date mari. Este prezentată și posibilitatea reducerii în continuare a dimensiunii componentelor principale folosind NN. Evaluând calitatea reconstrucției imaginii de intrare, puteți determina foarte precis apartenența acesteia la clasa de fețe.

Rețele neuronale de ordin înalt. Rețelele neuronale de ordin înalt (HANN) diferă de MNN prin faptul că au un singur strat, dar intrările neuronilor primesc și termeni de ordin înalt, care sunt produsul a două sau mai multe componente ale vectorului de intrare. Astfel de rețele pot forma, de asemenea, suprafețe de divizare complexe.

Rețele neuronale Hopfield. Hopfield NN (HNS) este cu un singur strat și complet conectat (nu există conexiuni între neuroni pe ei înșiși), ieșirile sale sunt conectate la intrări. Spre deosebire de MNS, NSC este relaxare - i.e. fiind setat la starea inițială, funcționează până când ajunge într-o stare stabilă, care va fi valoarea sa de ieșire. Pentru a căuta un minim global în legătură cu problemele de optimizare, se folosesc modificări stocastice ale NSC.

Utilizarea NSH ca memorie asociativă vă permite să restaurați cu acuratețe imaginile pentru care este pregătită rețeaua atunci când o imagine distorsionată este alimentată la intrare. În acest caz, rețeaua își va „aminti” imaginea cea mai apropiată (în sensul unei energii minime locale) și, astfel, o va recunoaște. O astfel de funcționare poate fi reprezentată și ca aplicarea secvențială a memoriei auto-asociative descrisă mai sus. Spre deosebire de memoria auto-asociativă, NSC va restabili perfect cu acuratețe imaginea. Pentru a evita interferențele minime și pentru a crește capacitatea rețelei, utilizați diverse metode.

Rețele neuronale Kohonen auto-organizate. Rețelele neuronale Kohonen auto-organizate (KONN) asigură ordonarea topologică a spațiului imaginii de intrare. Ele permit o mapare topologic continuă a unui spațiu de intrare n-dimensional într-un spațiu de ieșire m-dimensional, m<

Cognitron. Arhitectura lui Cognitron este similară cu structura cortexului vizual, are o organizare ierarhică multistrat în care neuronii dintre straturi sunt conectați doar local. Învățat prin învățare competitivă (fără profesor). Fiecare strat al creierului implementează diferite niveluri de generalizare; stratul de intrare este sensibil la modele simple, cum ar fi liniile, și orientarea lor în anumite zone ale domeniului vizual, în timp ce răspunsul altor straturi este mai complex, abstract și independent de poziția modelului. Funcții similare sunt implementate în cognitron prin modelarea organizării cortexului vizual.

Neocognitron este o dezvoltare ulterioară a ideii de cognitron și reflectă mai precis structura sistemului vizual, vă permite să recunoașteți imaginile indiferent de transformările, rotațiile, distorsiunile și schimbările de scară ale acestora.

Cognitron este un instrument puternic de recunoaștere a imaginii, dar necesită costuri de calcul mari, care în prezent sunt de neatins.

Metodele rețelelor neuronale considerate oferă recunoaștere rapidă și fiabilă a imaginii, dar atunci când se folosesc aceste metode, apar probleme în recunoașterea obiectelor tridimensionale. Cu toate acestea, această abordare are multe avantaje.

      Concluzie

În prezent, există un număr destul de mare de sisteme de recunoaștere automată a modelelor pentru diferite sarcini aplicate.

Recunoașterea modelelor prin metode formale ca direcție științifică fundamentală este inepuizabilă.

Metodele matematice de prelucrare a imaginii au o mare varietate de aplicații: știință, tehnologie, medicină, sfera socială. În viitor, rolul recunoașterii modelelor în viața umană va crește și mai mult.

Metodele rețelelor neuronale oferă recunoaștere rapidă și fiabilă a imaginii. Această abordare are o mulțime de avantaje și este una dintre cele mai promițătoare.

Literatură

    D.V. Brilyuk, V.V. Starovoitov. Metode de rețea neuronală pentru recunoașterea imaginilor // /

    Kuzin L.T. Fundamentele ciberneticii: Fundamentele modelelor cibernetice. T.2. - M.: Energie, 1979. - 584 p.

    Peregudov F.I., Tarasenko F.P. Introducere în analiza sistemelor: Manual. – M.: Şcoala superioară, 1997. - 389 p.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Bazele teoretice ale tehnologiei informației. - M.: Energie, 1979. - 511 p.

    Tu J., Gonzalez R. Principiile recunoașterii modelelor. /Trans. din engleza - M.: Mir, 1978. - 410 p.

    Winston P. Inteligența artificială. /Trans. din engleza - M.: Mir, 1980. - 520 p.

    Fu K. Metode structurale în recunoașterea modelelor: Tradus din engleză. - M.: Mir, 1977. - 320 p.

    Tsypkin Ya.Z. Fundamentele teoriei informației a identificării. - M.: Nauka, 1984. - 520 p.

    Pospelov G.S. Inteligența artificială stă la baza noii tehnologii informaționale. - M.: Nauka, 1988. - 280 p.

    Yu. Lifshits, Metode statistice de recunoaștere a modelelor ///modern/07modernnote.pdf

    Bohr N. Fizica atomică și cunoașterea umană. /Tradus din engleză - M.: Mir, 1961. - 151 p.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Procesarea imaginilor pe calculator.1987.-236p.

    Duda R., Hart P. Recunoașterea modelelor și analiza scenei. /Tradus din engleză - M.: Mir, 1978. - 510 p.

    Ducele V.A. Psihodiagnostic computerizat. - Sankt Petersburg: Frăție, 1994. - 365 p.

    Aizenberg I. N., Aizenberg N. N. și Krivosheev G. A. Neuroni binari universali și multivalori: algoritmi de învățare, aplicații pentru procesarea și recunoașterea imaginilor. Note de curs în Inteligența artificială – Machine Learning și Data Mining în Pattern Recognition, 1999, pp. 21-35.

    Ranganath S. și Arun K. Recunoașterea feței folosind caracteristici de transformare și rețele neuronale. Pattern Recognition 1997, Vol. 30, pp. 1615-1622.

    Golovko V.A. Neurointeligență: teorie și aplicații. Cartea 1. Organizarea și antrenamentul rețelelor neuronale cu conexiuni directe și de feedback - Brest: BPI, 1999, - 260 p.

    Vetter T. și Poggio T. Clasele de obiecte liniare și sinteza imaginii dintr-un singur exemplu de imagine. Tranzacții IEEE privind analiza modelelor și inteligența mașinilor 1997, voi. 19, pp. 733-742.

    Golovko V.A. Neurointeligență: teorie și aplicații. Cartea 2. Autoorganizarea, toleranța la erori și aplicarea rețelelor neuronale - Brest: BPI, 1999, - 228 p.

    Lawrence S., Giles C. L., Tsoi A. C. și Back A. D. Recunoașterea feței: O abordare a rețelei neuronale convoluționale. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24.

    Wasserman F. Tehnologia neurocalculatoarelor: Teorie și practică, 1992 – 184 p.

    Rowley, H. A., Baluja, S. și Kanade, T. Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, voi. 20, pp. 23-37.

    Valentin D., Abdi H., O"Toole A. J. și Cottrell G. W. Connectionist Models of face processing: a survey. IN: Pattern Recognition 1994, Vol. 27, pp. 1209-1230.

    Document

    Ei alcătuiesc algoritmi recunoaştereimagini. Metoderecunoaştereimagini După cum am menționat mai sus... nu există nicio realitate există„ecosisteme în general”, și exista numai individuale... concluzii din acest detaliat revizuiremetoderecunoaştere am prezentat in...

  1. Revizuirea metodelor de identificare a persoanelor pe baza imaginilor faciale, luând în considerare caracteristicile recunoașterii vizuale

    Revizuire

    ... recunoaştere de către o persoană de obiecte cu contrast redus, incl. persoane Dat revizuire uzual metode ... Existăîntreaga linie metode ... cale, ca urmare a cercetării, o platformă de dezvoltare metodărecunoaştere ...

  2. Numit după Glazkova Valentina Vladimirovna CERCETAREA ȘI DEZVOLTAREA METODELOR DE CONSTRUCȚIE DE INSTRUMENTE SOFTWARE PENTRU CLASIFICAREA DOCUMENTELOR DE HIPERTEXT MULTI-TEME Specialitatea 05

    Rezumat al disertației

    Documente hipertext. Capitolul prevede revizuireexistentmetode soluții la problema luată în considerare, descriere... prin tăierea celor mai puțin relevante clase // Matematică metoderecunoaştereimagini: a 13-a Conferință panrusă. Regiunea Leningrad...

  3. Slide 0 Prezentare generală a sarcinilor de bioinformatică legate de analiza și prelucrarea textelor genetice

    Lectura

    ADN și secvențe de proteine. Revizuire sarcini de bioinformatică ca sarcini... semnale necesită utilizarea de moderne metoderecunoaştereimagini, abordări statistice și... cu densitate scăzută a genelor. Existent programele de predicție genetică nu sunt...

Pagina 2


Când se învață recunoașterea modelelor, unele imagini t și apartenența lor la imagine sunt cunoscute. Problema recunoașterii modelelor este de a construi un algoritm folosind o secvență de antrenament care determină valoarea lui y pentru orice mulțime din domeniul de definire al funcției.

Sistemul de recunoaștere, bazat pe datele procesului și influențele externe asupra acestui proces, evaluează situația producției și emite comenzi pentru controlul procesului. Strâns legată de problema recunoașterii modelelor este problema creării unor automate de învățare care ar trebui să poată evalua situația actuală și, pe baza acesteia, să ia cea mai bună decizie. Prin urmare, majoritatea sarcinilor pentru antrenamentul automatelor pot fi reduse la sarcinile de recunoaștere a modelelor de antrenament.

Există o mulțime de probleme cu adevărat mari și interesante la care lucrează mii de oameni de știință chiar acum. Aceasta este problema recunoașterii imaginilor, a procesării informațiilor, a problemelor lingvistice și multe altele.

Eficacitatea rezolvării unei probleme de recunoaștere este determinată în cele din urmă de cât de eficient este antrenat dispozitivul de recunoaștere în procedura de clasificare. Prin urmare, accentul principal în problema recunoașterii modelelor este pe sarcina recunoașterii învățării.

Pare logic să studiem arhitecturile care corespund înțelegerii noastre despre organizarea și funcționarea creierului. Creierul uman oferă dovezi existente că o soluție la problema recunoașterii modelelor este posibilă. Pare rezonabil să emulăm creierul dacă vrem să-i reproducem funcționarea. Cu toate acestea, contraargumentul este istoricul zborului; omul nu a putut să coboare de pe pământ până când a încetat să imite mișcările aripilor și zborul păsărilor.

Utilizarea principiilor topografice ne permite să creăm cea mai rapidă și mai încăpătoare memorie de calculator. Memoria de hologramă caută informațiile necesare conform legilor de asociere, care este caracteristică memoriei umane. Holografia poate rezolva problema recunoașterii modelelor, cu care cibernetica se luptă de mulți ani. Dacă o hologramă este prezentată cu un grup de obiecte, aceasta va răspunde instantaneu (prin identificare) celor dintre ele ale căror imagini le stochează. Mai mult, cu cât obiectul este mai complex, cu atât holograma îl recunoaște mai fiabil.

Capitolul al patrulea conturează bazele teoriei sistemelor de auto-organizare discrete. Se determină o măsură cantitativă a auto-organizării și auto-învățarii, se studiază comportamentul automatelor aleatoare și al automatelor care funcționează în condiții de influențe externe aleatorii. O atenție deosebită este acordată problemei recunoașterii modelelor și teoriei unei clase de dispozitive (așa-numitele a-perceptroni) concepute pentru a rezolva această problemă. Sunt luate în considerare unele aspecte ale modelării reflexelor condiționate, precum și procesele de învățare a recunoașterii semnificației și a dezvoltării de noi concepte.

În fig. Figura 12.11 prezintă un exemplu în care litera A majusculă este selectată ca imagine. Este ușor de observat că dacă se menține capacitatea de memorie corespunzătoare, după mai multe etape de relaxare, din litere puternic distorsionate apare o imagine clară, înregistrată inițial în memorie. prin zgomot. Aceasta este tocmai relația dintre memoria asociativă de tipul descris mai sus și problema recunoașterii imaginilor. În prezent, nu există o idee precisă despre modul în care modelul de sticlă spin al memoriei asociative prezentat mai sus ar putea fi generalizat și extins pentru a se aplica la problema complexă a recunoașterii imaginilor rotite sau deplasate. Ca exemplu de imagine din Fig. 12.11, litera A, întoarsă cu susul în jos, nu ar fi recunoscută, deoarece chiar și deplasarea unei imagini nedistorsionate de mai multe noduri de rețea (raster) transformă recunoașterea acesteia într-o problemă, a cărei soluție depășește capacitățile asociative ale modelului Hopfydd. . Viitorul va arăta dacă această clasă de probleme poate fi rezolvată și cu ajutorul dispozitivelor de stocare asociative.

Complexitatea problemelor de mediu necesită prelucrarea unor cantități mari de date. Cercetarea este necesară pentru a facilita interpretarea și utilizarea înțeleaptă a informațiilor acumulate. Lucrările în domeniul inteligenței artificiale legate de problema recunoașterii modelelor pot oferi o asistență semnificativă în acest sens. Cele mai recente realizări ale tehnologiei microprocesoarelor și microcomputerelor încep să fie utilizate în proiectarea instrumentelor de măsurare inteligente. Este necesar să se acorde atenție organizării, acumulării și colectării datelor de mediu.

După cum vedem, conceptul de simetrie capătă un sens cu adevărat global. Cu toate acestea, putem merge și mai departe și atragem atenția asupra faptului că, în mare, avem de-a face cu simetrie ori de câte ori rezolvăm problema recunoașterii modelelor, problema diagnosticului.

Recunoașterea modelelor este una dintre formele de procesare a informațiilor care provin de la un sistem sau obiect. Clasele se caracterizează prin faptul că obiectele care le aparțin au unele aspecte comune (asemănări), de exemplu, sunt caracterizate de aceeași structură a operatorului funcțional. Acel lucru comun care unește obiectele într-o clasă se numește de obicei imagine. Problema construirii unei descrieri matematice a unui obiect sau a unui sistem din punctul de vedere al problemei recunoașterii modelelor poate fi abordată în două moduri. Una dintre abordări este aceea că operatorul funcțional FHS însuși acționează ca imaginea care trebuie identificată. Pe de altă parte, în locul operatorului funcțional Ф, se construiește un dispozitiv de recunoaștere cibernetică care prezice comportamentul sistemului în același mod ca și operatorul funcțional corespunzător.

Din cele de mai sus, este evident că există mulți algoritmi de identificare a caracteristicilor în procesul de prelucrare preliminară a informațiilor; numărul lor crește constant și rapid, deoarece alegerea metodelor de rezolvare a unei anumite probleme este în mare măsură determinată de natura problemei în sine. Succesul întregului studiu asupra problemei recunoașterii modelelor este determinat de cât de bine este realizată etapa de extracție a caracteristicilor. Punctul de vedere a câștigat recunoaștere generală conform căruia noi realizări majore în acest domeniu ar trebui așteptate tocmai în etapa extragerii caracteristicilor în timpul prelucrării preliminare a informațiilor.

Eu personal cred că această interpretare oferă ciberneticianului modern cheia unui studiu mai profund al problemei memoriei, despre care este discutată într-o altă secțiune a acestei cărți. Mai mult, deși Leibniz nu a reușit să creeze o logică relativistă, opiniile sale filozofice asupra problemei percepției (care este una dintre cele mai importante probleme din cibernetică) au fost cu aproximativ trei secole înaintea erei sale. La urma urmei, abia odată cu apariția lucrării lui Whitehead în secolul nostru a fost fundamentată opinia conform căreia un obiect, care nu posedă conștiință în sine, este capabil să reacționeze într-un anumit sens la evenimentele asociate cu el. În cele din urmă, este deosebit de caracteristic faptul că în studiile sale asupra tuturor acestor conexiuni, Leibniz s-a poziționat pe pozițiile fundamentale ale teoriei cercetării operaționale. El era mult mai puțin interesat de interpretarea cauzei și efectul relațiilor decât de cea dinamică și credea că o parte este o expresie a întregului și nu pur și simplu conținută în ea. Această abordare este în bună concordanță cu problemele Gestalt din psihologia modernă, cu abordarea rezolvării tuturor problemelor ciberneticii industriale din poziția de unitate organică, precum și cu cercetarea cibernetică modernă în problema recunoașterii modelelor.