Probleme deschise în recunoașterea vorbirii. Prelegere în Yandex. Revizuirea metodelor existente de recunoaștere a modelelor. Managementul ca sarcină inversă identificării și prognozării

Problema recunoașterii modelelor se rezumă la două sarcini: antrenament și recunoaștere. Prin urmare, înainte de a formula sarcina de a preda recunoașterea modelelor, să clarificăm care este sensul recunoașterii lor.

Cea mai simplă opțiune de recunoaștere este cerere strictă pentru a căuta un obiect într-o bază de date pe baza caracteristicilor acestuia, care este implementat în sistemele de regăsire a informațiilor. În acest caz, fiecărui câmp îi corespunde o caracteristică (scara descriptivă), iar valoarea câmpului corespunde valorii caracteristicii (gradarea scalei descriptive). Dacă există înregistrări în baza de date, Toate valorile câmpurilor specificate din care exact potrivesc cu valorile specificate în cererea de căutare, apoi aceste înregistrări sunt preluate în raport, în caz contrar, înregistrarea nu este preluată.

Mai mult opțiuni complexe recunoașterea este cerere neclară cu informații incomplete, când în cererea de căutare nu sunt specificate toate caracteristicile obiectelor căutate, deoarece nu toate sunt cunoscute şi interogare neclară cu zgomot, când nu sunt cunoscute toate caracteristicile unui obiect, iar unele sunt considerate cunoscute în mod eronat. În aceste cazuri, toate obiectele care au cel puțin o potrivire caracteristică sunt extrase din baza de date, iar în raport obiectele sunt sortate (clasificate) în ordinea descrescătoare a numărului de caracteristici potrivite. În acest caz, atunci când se determină rangul unui obiect într-o listă sortată, se consideră că toate caracteristicile au aceeași „greutate” și se ia în considerare numai numărul lor.

  • - în primul rând, de fapt, semnele au greutate diferită, adică aceeași conectare diferit gradul este caracteristic diferitelor obiecte;
  • - în al doilea rând, s-ar putea să ne intereseze nu atât obiectele în sine, extrase din baza de date a precedentelor pentru interogări, cât și clasificarea interogării în sine, i.e. atribuirea acesteia unei anumite categorii, de ex. la asta sau la asta generalizat imaginea clasei.

Dacă implementarea interogărilor stricte și chiar neclare nu provoacă dificultăți deosebite, atunci recunoașterea ca identificare cu imagini generalizate ale claselor, luând în considerare diferențele de pondere a caracteristicilor, ridică o anumită problemă.

Instruirea se realizează prin prezentarea în sistem a obiectelor individuale descrise în limbajul semnelor, indicând apartenența acestora la una sau la alta clasă. În același timp, însăși apartenența la clase este comunicată sistemului de către o persoană - un Profesor (expert).

Ca rezultat al instruirii, sistemul de recunoaștere ar trebui să dobândească capacitatea de a:

  • 1. Relaționați obiectele cu clasele cărora le aparțin (identificați corect obiectele).
  • 2. Nu atribuiți obiecte unor clase cărora nu le aparțin (neidentificarea obiectelor este greșită).

Aceasta este problema recunoașterii modelelor de predare și constă în următoarele:

  • 1. În dezvoltare model matematic, prevăzând: generalizarea imaginilor unor obiecte specifice și formarea imaginilor generalizate ale claselor; calculul greutăților caracteristicilor; determinarea gradului de similitudine a anumitor obiecte cu clase și clasarea claselor în funcție de gradul de asemănare cu un anumit obiect, incluzând atât similaritatea pozitivă, cât și cea negativă.
  • 2. În completarea acestui model cu informații specifice care caracterizează un anumit domeniu.
  • Tutorial

Mi-am dorit de multă vreme să scriu un articol general care să conțină elementele de bază ale recunoașterii imaginilor, un fel de ghid pentru metode de bază, spunându-ți când să le folosești, ce probleme rezolvă, ce se poate face seara în genunchi și la ce este mai bine să nu te gândești fără să ai o echipă de 20 de oameni.

Am scris câteva articole despre recunoașterea optică de mult timp, așa că oamenii îmi scriu de câteva ori pe lună diverse persoane cu întrebări pe această temă. Uneori ai senzația că trăiești cu ei lumi diferite. Pe de o parte, înțelegi că persoana este cel mai probabil un profesionist într-un subiect conexe, dar știe foarte puține despre metodele de recunoaștere optică. Și cel mai enervant este că încearcă să aplice o metodă dintr-un domeniu apropiat de cunoaștere, ceea ce este logic, dar nu funcționează complet în Recunoașterea imaginilor, dar nu înțelege acest lucru și este foarte jignit dacă începi să-i spui ceva din chiar bazele. Și având în vedere că a spune de la elementele de bază necesită mult timp, ceea ce adesea nu este disponibil, devine și mai trist.

Acest articol este destinat astfel încât o persoană care nu a lucrat niciodată cu metode de recunoaștere a imaginilor să poată, în 10-15 minute, să-și creeze în cap o anumită imagine de bază a lumii care corespunde subiectului și să înțeleagă în ce direcție să sape. Multe dintre tehnicile descrise aici sunt aplicabile procesării radar și audio.
Voi începe cu câteva principii pe care începem întotdeauna să le spunem unui potențial client sau unei persoane care dorește să înceapă să facă Recunoaștere optică:

  • Când rezolvați o problemă, mergeți întotdeauna de la cel mai simplu. Este mult mai ușor să pui o etichetă pe o persoană portocale decât să urmărești o persoană, evidențiind-o în cascade. Este mult mai ușor să iei camera de pe Rezoluție înaltă decât să dezvolte un algoritm de super-rezoluție.
  • O formulare strictă a problemei în metodele de recunoaștere optică este ordine de mărime mai importantă decât în ​​problemele de programare a sistemului: unul cuvânt de prisos poate adăuga 50% din muncă la specificațiile tehnice.
  • Nu există soluții universale pentru problemele de recunoaștere. Nu puteți crea un algoritm care pur și simplu „recunoaște orice inscripție”. Un semn pe stradă și o foaie de text sunt obiecte fundamental diferite. Probabil se poate face algoritm general(exemplu bun de la Google), dar va necesita multă muncă echipa mareși constau din zeci de subrutine diferite.
  • OpenCV este o biblie care are multe metode și poate rezolva 50% din aproape orice problemă, dar OpenCV este doar o mică parte din ceea ce se poate face de fapt. Într-un studiu, concluziile au fost scrise: „Problema nu poate fi rezolvată folosind metode OpenCV, prin urmare este de nerezolvat”. Încercați să evitați acest lucru, nu fi leneș și evaluați cu sobru sarcina curentă de la zero de fiecare dată, fără a utiliza șabloane OpenCV.
Este foarte greu să dai vreuna sfat universal, sau spuneți-ne cum să creați un fel de structură în jurul căreia puteți construi o soluție la probleme arbitrare viziune computerizată. Scopul acestui articol este de a structura ceea ce poate fi folosit. Voi încerca să-l sparg metode existenteîn trei grupe. Primul grup este filtrarea preliminară și pregătirea imaginii. Al doilea grup este procesarea logică a rezultatelor de filtrare. Al treilea grup este reprezentat de algoritmii de luare a deciziilor bazați pe procesare logică. Granițele dintre grupuri sunt foarte arbitrare. Pentru a rezolva o problemă, nu este întotdeauna necesar să folosiți metode din toate grupurile uneori sunt suficiente, uneori chiar și una.

Lista metodelor prezentată aici nu este completă. Vă sugerez să adăugați metode critice în comentarii pe care nu le-am scris și să atribuiți fiecăruia câte 2-3 cuvinte însoțitoare.

Partea 1. Filtrarea

În acest grup am plasat metode care vă permit să selectați zonele de interes din imagini fără a le analiza. Cele mai multe dintre aceste metode aplică un fel de transformare unică tuturor punctelor din imagine. La nivel de filtrare nu se efectuează analize de imagine, dar punctele care trec filtrarea pot fi considerate zone cu caracteristici deosebite.
Binarizare după prag, selectarea zonei histogramei
Cea mai simplă transformare este binarizarea imaginii după prag. Pentru Imagini RGBși imagini în tonuri de gri, pragul este valoarea culorii. Există probleme ideale în care o astfel de transformare este suficientă. Să presupunem că doriți să selectați automat obiectele de pe o foaie albă de hârtie:




Alegerea pragului la care are loc binarizarea determină în mare măsură procesul de binarizare în sine. În acest caz, imaginea a fost binarizată de culoarea medie. De obicei, binarizarea se realizează folosind un algoritm care selectează adaptiv un prag. Un astfel de algoritm poate fi alegerea așteptării sau a modului. Sau puteți selecta cel mai mare vârf din histogramă.

Binarizarea poate oferi foarte rezultate interesante atunci când lucrăm cu histograme, inclusiv în situația în care considerăm o imagine nu în RGB, ci în HSV. De exemplu, segmentați culorile de interes. Pe acest principiu, puteți construi atât un detector de etichete, cât și un detector de piele umană.
Filtrare clasică: Fourier, filtru trece jos, filtru trece înalt
Metodele clasice de filtrare radar și procesare a semnalului pot fi aplicate cu succes la o varietate de sarcini de recunoaștere a modelelor. Metoda traditionalaîn radar, care nu este aproape niciodată folosit în imagini în formă pură, este transformata Fourier (mai precis, FFT). Una dintre puținele excepții în care este utilizată transformata Fourier unidimensională este compresia imaginii. Pentru analiza imaginilor, o transformare unidimensională nu este de obicei suficientă, trebuie să utilizați o transformare bidimensională mult mai intensivă.

Puțini oameni o calculează, de obicei, este mult mai rapid și mai ușor de utilizat convoluția zonei de interes cu un filtru gata făcut, reglat pentru frecvențe înalte (HPF) sau joase (LPF). Această metodă, desigur, nu permite analiza spectrului, dar în sarcina specifica Procesarea video necesită de obicei nu analiză, ci rezultate.


Cel mai exemple simple filtre care implementează sublinierea frecvențe joase(filtru Gaussian) și frecvențe înalte (filtru Gabor).
Pentru fiecare punct de imagine, se selectează o fereastră și se înmulțește cu un filtru de aceeași dimensiune. Rezultatul unei astfel de convoluții este o nouă valoare de punct. La implementarea filtrelor low-pass și high-pass, se obțin imagini de următorul tip:



Wavelets
Dar ce se întâmplă dacă folosim o funcție caracteristică arbitrară pentru convoluția cu semnalul? Apoi se va numi „Transformarea Wavelet”. Această definiție a waveleturilor nu este corectă, dar în mod tradițional, în multe echipe, analiza wavelet este căutarea unui model arbitrar într-o imagine folosind convoluția cu un model al acestui model. Există un set de funcții clasice utilizate în analiza wavelet. Acestea includ wavelet Haar, Morlet wavelet, mexican hat wavelet etc. Primitivele Haar, despre care au existat mai multe dintre articolele mele anterioare (,), se referă la astfel de funcții pentru spațiul bidimensional.


Mai sus sunt 4 exemple de wavelets clasice. wavelet Haar tridimensional, wavelet Meyer bidimensional, wavelet Mexican Hat, wavelet Daubechies. Un exemplu bun Utilizarea unei interpretări extinse a wavelets este problema găsirii unei străluciri în ochi, pentru care wavelet este strălucirea în sine:

Waletele clasice sunt de obicei folosite pentru sau pentru clasificarea lor (care vor fi descrise mai jos).
Corelație
După o interpretare atât de liberă a waveleturilor din partea mea, merită menționată corelația reală care stă la baza acestora. La filtrarea imaginilor aceasta instrument indispensabil. O aplicație clasică este corelarea unui flux video pentru a găsi schimbări sau fluxuri optice. Cel mai simplu detector de schimbare este, într-un fel, un corelator de diferență. Acolo unde imaginile nu se corelau, era mișcare.

Funcții de filtrare
O clasă interesantă de filtre este filtrarea funcțiilor. Acestea sunt filtre pur matematice care vă permit să detectați simplu functie matematica pe imagine (linie dreaptă, parabolă, cerc). Se construiește o imagine acumulată în care pentru fiecare punct imaginea originală sunt desenate multe funcții care o generează. Cea mai clasică transformare este transformarea Hough pentru linii. În această transformare, pentru fiecare punct (x;y), se trasează o mulțime de puncte (a;b) ale dreptei y=ax+b pentru care egalitatea este adevărată. Obtii poze frumoase:


(primul plus este pentru cel care este primul care găsește o captură în imagine și această definiție și explică-o, al doilea plus este pentru cel care este primul care spune ceea ce este afișat aici)
Transformarea Hough vă permite să găsiți orice funcții parametrizabile. De exemplu cercuri. Există o transformare modificată care vă permite să căutați orice . Matematicienii sunt îngrozitor de pasionați de această transformare. Dar la procesarea imaginilor, din păcate, nu funcționează întotdeauna. Viteză de operare foarte mică, sensibilitate foarte mare la calitatea binarizării. Chiar și în situații ideale, am preferat să mă mulțumesc cu alte metode.
Un analog al transformării Hough pentru linii drepte este transformarea Radon. Se calculează prin FFT, care dă un câștig de performanță într-o situație în care sunt multe puncte. În plus, poate fi aplicat unei imagini nebinarizate.
Filtrarea conturului
O clasă separată de filtre este filtrarea marginilor și a conturului. Contururile sunt foarte utile atunci când dorim să trecem de la lucrul cu o imagine la lucrul cu obiectele din imaginea respectivă. Când un obiect este destul de complex, dar bine distins, atunci adesea singura cale lucrul cu acesta înseamnă să-i evidențiezi contururile. Există o serie de algoritmi rezolvarea problemei circuite de filtrare:

Cel mai adesea este folosit Canny, care funcționează bine și a cărui implementare este în OpenCV (Sobel este și el acolo, dar caută mai rău contururi).



Alte filtre
Mai sus sunt filtrele ale căror modificări ajută la rezolvarea a 80-90% din probleme. Dar, pe lângă ele, există filtre mai rare folosite în sarcinile locale. Există zeci de astfel de filtre, nu le voi enumera pe toate. Interesante sunt filtrele iterative (de exemplu), precum și transformările ridgelet și curvlet, care sunt o fuziune a filtrării și analizei wavelet clasice în domeniul transformării radonului. Transformarea fasciculului funcționează frumos la marginea transformării wavelet și a analizei logice, permițându-vă să evidențiați contururile:

Dar aceste transformări sunt foarte specifice și adaptate pentru sarcini rare.

Partea 2. Procesarea logică a rezultatelor de filtrare

Filtrarea oferă un set de date potrivite pentru prelucrare. Dar de multe ori nu puteți pur și simplu să luați și să utilizați aceste date fără a le procesa. În această secțiune vor exista câteva metode clasice care vă permit să treceți de la o imagine la proprietățile obiectelor, sau la obiectele în sine.
Morfologie
Trecerea de la filtrare la logică, după părerea mea, este metodele morfologiei matematice (,). În esență, acestea sunt cele mai simple operațiuni de creștere și erodare a imaginilor binare. Aceste metode vă permit să eliminați zgomotul dintr-o imagine binară prin creșterea sau micșorarea elementelor existente. Există algoritmi de conturare bazați pe morfologie matematică, dar de obicei sunt utilizați un fel de algoritmi hibrizi sau algoritmi în combinație.
Analiza conturului
Algoritmii pentru obținerea limitelor au fost deja menționați în secțiunea privind filtrarea. Limitele rezultate sunt pur și simplu transformate în contururi. Pentru algoritmul Canny acest lucru se întâmplă automat pentru alți algoritmi este necesară o binarizare suplimentară. Puteți obține un contur pentru un algoritm binar, de exemplu, folosind algoritmul gândac.
Un contur este o caracteristică unică a unui obiect. Acest lucru vă permite adesea să identificați un obiect după conturul său. Există un aparat matematic puternic care vă permite să faceți acest lucru. Dispozitivul se numește analiză de contur (,).

Sincer să fiu, nu am reușit niciodată să aplic analiza conturului în probleme reale. Sunt necesare condiții prea ideale. Fie nu există graniță, fie este prea mult zgomot. Dar, dacă trebuie să recunoașteți ceva în conditii ideale- atunci analiza conturului este o opțiune minunată. Funcționează foarte repede, matematică frumoasă și logică clară.
Puncte speciale
Punctele speciale sunt caracteristici unice obiecte, care permit unui obiect să fie comparat cu el însuși sau cu clase similare de obiecte. Există câteva zeci de moduri de a identifica astfel de puncte. Unele metode identifică puncte speciale în cadrele adiacente, unele după o perioadă lungă de timp și când se schimbă iluminarea, unele vă permit să găsiți puncte speciale care rămân așa chiar și atunci când obiectul este rotit. Să începem cu metode care ne permit să găsim puncte speciale, care nu sunt atât de stabile, dar sunt calculate rapid, iar apoi vom merge într-o complexitate crescândă:
Clasa întâi. Puncte speciale care sunt stabile pe o perioadă de câteva secunde. Astfel de puncte sunt folosite pentru a ghida un obiect între cadrele video adiacente sau pentru a combina imagini de la camerele învecinate. Astfel de puncte includ maxime locale ale imaginii, colțuri din imagine (cel mai bun detector este, probabil, detectorul Charis), puncte la care se obține dispersia maximă, anumiți gradienți etc.
Clasa a doua. Puncte speciale care sunt stabile la schimbările de iluminare și mișcări mici ale obiectului. Astfel de puncte servesc în primul rând pentru formarea și clasificarea ulterioară a tipurilor de obiecte. De exemplu, un clasificator pentru pietoni sau un clasificator facial este produsul unui sistem construit exact pe astfel de puncte. Unele dintre waveletele menționate anterior pot fi baza pentru astfel de puncte. De exemplu, primitive Haar, căutați evidențieri, căutați alte funcții specifice. Aceste puncte le includ pe cele găsite prin metoda histogramei gradienților direcționali (HOG).
Clasa a treia. Puncte stabile.Știu doar două metode care oferă stabilitate completă și despre modificările lor. Aceasta și . Ele vă permit să găsiți puncte speciale chiar și atunci când rotiți imaginea. Calcularea unor astfel de puncte durează mai mult în comparație cu alte metode, dar timpul este destul de limitat. Din păcate, aceste metode sunt brevetate. Deși, în Rusia este imposibil să patentezi algoritmi, așa că pentru piata interna foloseste-l.

Partea 3. Antrenament

A treia parte a poveștii va fi dedicată metodelor care nu funcționează direct cu imaginea, dar care vă permit să luați decizii. În principal diverse metode învățare automatăși luarea deciziilor. Recent, Yandyx a postat pe Habr pe acest subiect, este foarte selecție bună. Iată-l în versiunea text. Pentru un studiu serios al subiectului, vă recomand cu căldură să le urmăriți. Aici voi încerca să subliniez câteva metode principale utilizate în mod specific în recunoașterea modelelor.
În 80% din situații, esența învățării în sarcina de recunoaștere este următoarea:
Există un eșantion de testare care conține mai multe clase de obiecte. Să fie prezența/absența unei persoane din fotografie. Pentru fiecare imagine există un set de caracteristici care au fost evidențiate de anumite caracteristici, fie că este Haar, HOG, SURF sau un wavelet. Algoritmul de învățare trebuie să construiască un model astfel încât să poată analiza o nouă imagine și să decidă ce obiect se află în imagine.
Cum se face? Fiecare dintre imaginile de testare este un punct în spațiul caracteristic. Coordonatele sale sunt greutatea fiecăreia dintre caracteristicile din imagine. Fie semnele noastre: „Prezența ochilor”, „Prezența unui nas”, „Prezența a două mâini”, „Prezența urechilor”, etc... Vom evidenția toate aceste semne folosind detectoarele noastre existente, care sunt antrenate pe părți ale corpului asemănătoare omului Pentru o persoană într-un astfel de spațiu, punctul corect ar fi . Pentru maimuță, punct pentru cal. Clasificatorul este antrenat folosind un eșantion de exemple. Dar nu toate fotografiile au arătat mâini, altele nu aveau ochi, iar în a treia, maimuța avea un nas uman din cauza unei erori de clasificare. Un clasificator uman antrenat partiţionează automat spaţiul caracteristicilor astfel încât să spună: dacă prima caracteristică se află în intervalul 0,5 În esență, scopul clasificatorului este de a desena zone în spațiul caracteristic care sunt caracteristice obiectelor de clasificare. Iată cum va arăta o aproximare secvențială a răspunsului pentru unul dintre clasificatori (AdaBoost) în spațiul bidimensional:


Există o mulțime de clasificatori. Fiecare dintre ele funcționează mai bine într-o anumită sarcină. Sarcina de a selecta un clasificator pentru o anumită sarcină este în mare măsură o artă. Iată câteva poze frumoase pe această temă.
Caz simplu, separare unidimensională
Să ne uităm la un exemplu de cel mai simplu caz de clasificare, când spațiul caracteristic este unidimensional și trebuie să separăm 2 clase. Situația apare mai des decât ați crede: de exemplu, când trebuie să distingeți două semnale sau să comparați un model cu un eșantion. Să avem un eșantion de antrenament. Aceasta produce o imagine în care axa X este măsura asemănării, iar axa Y este numărul de evenimente cu o astfel de măsură. Când obiectul dorit este similar cu el însuși, se obține un gaussian stâng. Când nu arată așa - cel potrivit. Valoarea lui X=0,4 separă eșantioanele astfel încât o decizie greșită minimizează probabilitatea de a lua orice decizie greșită. Căutarea unui astfel de separator este sarcina clasificării.


O mică notă. Criteriul care minimizează eroarea nu va fi întotdeauna optim. Următorul grafic este un grafic al unui sistem real de recunoaștere a irisului. Pentru un astfel de sistem, criteriul este ales pentru a minimiza probabilitatea admiterii false a unei persoane neautorizate în instalație. Această probabilitate se numește „eroare de tip I”, „probabilitate de alarmă falsă”, „pozitiv fals”. În literatura de limba engleză „Rata de acces fals”.
) AdaBusta este unul dintre cele mai comune clasificatoare. De exemplu, cascada Haar este construită pe ea. Utilizat de obicei atunci când este necesară clasificarea binară, dar nimic nu împiedică antrenamentul pentru un număr mai mare de clase.
SVM ( , , , ) Unul dintre cei mai puternici clasificatori, care are multe implementări. Practic, la sarcinile de învățare pe care le-am întâlnit, a funcționat similar cu Adabusta. Este considerat destul de rapid, dar antrenamentul lui este mai dificil decât al lui Adabusta și necesită alegerea miezului potrivit.

Există, de asemenea, rețele neuronale și regresie. Dar pentru a le clasifica pe scurt și a arăta cum diferă, avem nevoie de un articol mult mai lung decât acesta.
________________________________________________
Sper că am reușit să ofer o privire de ansamblu rapidă asupra metodelor utilizate fără a mă scufunda în matematică și descriere. Poate asta va ajuta pe cineva. Deși, desigur, articolul este incomplet și nu există niciun cuvânt despre lucrul cu imagini stereo, nici despre LSM cu filtru Kalman, nici despre abordarea adaptivă Bayes.
Dacă vă place articolul, voi încerca să fac o a doua parte cu o selecție de exemple despre cum sunt rezolvate problemele existente de ImageRecognition.

Și, în sfârșit

Ce să citești?
1) Odată mi-a plăcut foarte mult cartea „Digital Image Processing” de B. Yane, care este scrisă simplu și clar, dar în același timp se dă aproape toată matematica. Bun pentru familiarizarea cu metodele existente.
2) Un clasic al genului este R. Gonzalez, R. Woods „Digital Image Processing”. Din anumite motive, mi-a fost mai greu decât primul. Mult mai puțină matematică, dar mai multe metode și imagini.
3) „Prelucrarea și analiza imaginilor în probleme de vedere computerizată” - scrisă pe baza unui curs predat la una din catedrele de Fizică și Tehnologie. Există o mulțime de metode și descrierile lor detaliate. Dar, după părerea mea, cartea are două mari dezavantaje: cartea este puternic axată pe pachetul de software care vine cu ea, de prea multe ori descrierea unei metode simple se transformă într-o junglă matematică, din care este greu de realizat; deriva diagrama structurală a metodei. Dar autorii au creat un site web convenabil unde este prezentat aproape tot conținutul - wiki.technicalvision.ru Adaugă etichete

Revizuirea metodelor existente de recunoaștere a modelelor

L.P. Popova , ȘI DESPRE. Datiev

Abilitatea de a „recunoaște” este considerată principala proprietate a ființelor umane, precum și a altor organisme vii. Recunoașterea modelelor este o ramură a ciberneticii care dezvoltă principii și metode de clasificare, precum și identificarea obiectelor, fenomenelor, proceselor, semnalelor, situațiilor - toate acele obiecte care pot fi descrise printr-un set finit de semne sau proprietăți care caracterizează obiectul. .

O imagine este o descriere a unui obiect. Imaginile au o proprietate caracteristică, care se manifestă prin faptul că familiarizarea cu un număr finit de fenomene din același set face posibilă recunoașterea unui număr arbitrar de mare a reprezentanților săi.

În teoria recunoașterii modelelor, se pot distinge două direcții principale:

    studiul abilităților de recunoaștere deținute de ființele umane și de alte organisme vii;

    dezvoltarea teoriei și a metodelor de construire a dispozitivelor destinate să rezolve probleme individuale de recunoaștere a modelelor în anumite domenii de aplicare.

În plus, articolul descrie problemele, principiile și metodele de implementare a sistemelor de recunoaștere a imaginilor asociate cu dezvoltarea celei de-a doua direcții. A doua parte a articolului discută metodele rețelelor neuronale de recunoaștere a modelelor, care pot fi atribuite primei direcții a teoriei recunoașterii modelelor.

Probleme de construire a sistemelor de recunoaștere a imaginilor

Problemele care apar la construirea sistemelor automate de recunoaștere a modelelor pot fi de obicei clasificate în mai multe domenii principale. Prima dintre ele este legată de prezentarea datelor inițiale obținute ca rezultate de măsurare pentru obiectul de recunoscut problema de sensibilitate. Fiecare valoare măsurată este o „caracteristică a unei imagini sau a unui obiect Să presupunem, de exemplu, că imaginile sunt caractere alfanumerice, în acest caz, o retină de măsurare, similară cu cea prezentată în Fig utilizat în senzor Dacă retina constă din n-elemente, atunci rezultatele măsurătorii pot fi reprezentate ca un vector de măsurare sau un vector de imagine. ,

unde fiecare element xi, ia, de exemplu, valoarea 1 dacă imaginea unui simbol trece prin celula i-a retiniană, iar valoarea 0 în caz contrar.

Să ne uităm la Fig. 2(b). În acest caz, imaginile sunt funcții continue (cum ar fi semnalele sonore) ale variabilei t. Dacă măsurarea valorilor funcției este efectuată în puncte discrete t1,t2, ..., tn, atunci vectorul imagine poate fi format luând x1= f(t1),x2=f(t2),... , xn = f(tn).

Figura 1. Măsurarea retinei

A doua problemă a recunoașterii modelului este asociată cu izolarea caracteristicilor sau proprietăților din datele sursă obținute și cu reducerea dimensiunii vectorilor de model. Această problemă este adesea definită ca o problemă preprocesare și selecție de caracteristici.

Caracteristicile unei clase de imagini sunt proprietăți caracteristice comune tuturor imaginilor unei clase date. Caracteristicile care caracterizează diferențele dintre clasele individuale pot fi interpretate ca trăsături interclase. Caracteristicile intraclase, comune tuturor claselor luate în considerare, nu conțin informații utile din punct de vedere al recunoașterii și pot să nu fie luate în considerare. Selectarea caracteristicilor este considerată una dintre sarcinile importante asociate cu construcția sistemelor de recunoaștere. Dacă rezultatele măsurătorilor ne permit să obținem un set complet de caracteristici distinctive pentru toate clasele, recunoașterea și clasificarea efectivă a imaginilor nu va cauza dificultăți deosebite. Recunoașterea automată va fi apoi redusă la un simplu proces de potrivire sau proceduri precum scanarea tabelului. În majoritatea problemelor practice de recunoaștere, totuși, determinarea setului complet de caracteristici distinctive se dovedește a fi extrem de dificilă, dacă nu imposibilă. De obicei, este posibil să extragi unele dintre caracteristicile discriminatorii din datele originale și să le folosești pentru a simplifica procesul de recunoaștere automată a modelelor. În special, dimensiunea vectorilor de măsurare poate fi redusă folosind transformări care minimizează pierderea de informații.

A treia problemă asociată cu construcția sistemelor de recunoaștere a modelelor este găsirea procedurilor de decizie optime necesare identificării și clasificării. Odată ce datele colectate despre modelele care trebuie recunoscute sunt reprezentate de puncte sau vectori de măsurare în spațiul modelului, lăsați mașina să descopere cărei clase de modele corespund acestor date. Fie ca mașina să fie proiectată pentru a distinge clasele M, notate w1, w2, ... ..., wm. În acest caz, spațiul imaginii poate fi considerat a fi format din M regiuni, fiecare dintre acestea conținând puncte corespunzătoare imaginilor dintr-o clasă. În acest caz, sarcina de recunoaștere poate fi considerată ca construirea granițelor zonelor de decizie care separă M clase pe baza vectorilor de măsurare înregistrați. Fie definite aceste limite, de exemplu, prin funcțiile de decizie d1(x), d2(x),..., dm(x). Aceste funcții, numite și funcții discriminante, sunt funcții scalare și cu o singură valoare ale imaginii lui x. Dacă di (x) > dj (x), atunci imaginea x aparține clasei w1. Cu alte cuvinte, dacă funcția i-a de decizie di(x) are cea mai mare valoare, atunci în Fig. 2 (în diagrama „GR” este generatorul de funcții de decizie).

Figura 2. Schema de clasificare automată.

Funcțiile decisive pot fi obținute în mai multe moduri. În cazurile în care există informații complete a priori despre imaginile recunoscute, funcțiile de decizie pot fi determinate exact pe baza acestor informații. Dacă sunt disponibile doar informații calitative cu privire la imagini, se pot face presupuneri rezonabile cu privire la forma funcțiilor decisive. În acest din urmă caz, limitele zonelor de soluție se pot abate semnificativ de la cele adevărate și, prin urmare, este necesară crearea unui sistem capabil să obțină un rezultat satisfăcător printr-o serie de ajustări succesive.

Obiectele (imaginile) care urmează să fie recunoscute și clasificate folosind un sistem automat de recunoaștere a modelelor trebuie să aibă un set de caracteristici măsurabile. Când pentru un întreg grup de imagini rezultatele măsurătorilor corespunzătoare se dovedesc a fi similare, aceste obiecte sunt considerate ca aparținând aceleiași clase. Scopul sistemului de recunoaștere a modelelor este de a determina, pe baza informațiilor colectate, o clasă de obiecte cu caracteristici similare cu cele măsurate în obiectele care sunt recunoscute. Corectitudinea recunoașterii depinde de cantitatea de informații discriminatorii conținute în caracteristicile măsurate și de eficacitatea utilizării acestor informații.

      Metode de bază pentru implementarea sistemelor de recunoaștere a modelelor

Recunoașterea modelelor se referă la problema construirii și aplicării operațiilor formale asupra reprezentărilor numerice sau simbolice ale obiectelor din lumea reală sau ideală, ale căror rezultate reflectă relațiile de echivalență dintre aceste obiecte. Relațiile de echivalență exprimă apartenența obiectelor evaluate la orice clase, considerate ca unități semantice independente.

La construirea algoritmilor de recunoaștere, clasele de echivalență pot fi specificate de un cercetător care își folosește propriile idei semnificative sau folosește informații suplimentare externe despre asemănările și diferențele dintre obiecte în contextul problemei care se rezolvă. Apoi vorbesc despre „recunoașterea cu un profesor”. Altfel, i.e. Când un sistem automatizat rezolvă o problemă de clasificare fără a utiliza informații externe de instruire, vorbim de clasificare automată sau „recunoaștere nesupravegheată”. Majoritatea algoritmilor de recunoaștere a modelelor necesită utilizarea unei puteri de calcul foarte semnificative, care poate fi furnizată doar de tehnologia computerizată de înaltă performanță.

Diverși autori (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., Dmitriev V., Tu R., J. V. Gonzalez, P. Winston, K. Fu, Ya.Z Tsypkin etc.) oferă o tipologie diferită de recunoaștere a modelelor. Unii autori fac distincție între metode parametrice, neparametrice și euristice, alții identifică grupuri de metode bazate pe școli și tendințe stabilite istoric în acest domeniu.

În același timp, tipologiile cunoscute nu țin cont de o caracteristică foarte semnificativă, care reflectă specificul modului de reprezentare a cunoștințelor despre o disciplină folosind orice algoritm formal de recunoaștere a modelelor. D.A. Pospelov identifică două modalități principale de prezentare a cunoștințelor:

    Reprezentare intensională – sub forma unei diagrame a conexiunilor dintre atribute (trăsături).

    Reprezentare extensivă – folosind fapte specifice (obiecte, exemple).

De remarcat că existența tocmai a acestor două grupe de metode de recunoaștere: cele care operează cu semne și cele care operează cu obiecte, este profund firească. Din acest punct de vedere, nici una dintre aceste metode, luate separat de cealaltă, nu ne permite să ne formăm o reflectare adecvată a domeniului subiectului. Între aceste metode există o relație de complementaritate în sensul lui N. Bohr, prin urmare, sistemele de recunoaștere promițătoare ar trebui să asigure implementarea ambelor metode, și nu doar a uneia dintre ele.

Astfel, clasificarea metodelor de recunoaștere propusă de D.A Pospelov se bazează pe tiparele fundamentale care stau la baza modului uman de cunoaștere în general, ceea ce îl plasează într-o poziție cu totul specială (privilegiată) față de alte clasificări, care pe acest fundal par mai ușoare și. artificial.

Metode intensionale

O trăsătură distinctivă a metodelor intensionale este aceea că ele utilizează diverse caracteristici ale caracteristicilor și conexiunile lor ca elemente ale operațiilor atunci când construiesc și aplică algoritmi de recunoaștere a modelelor. Astfel de elemente pot fi valori individuale sau intervale de valori ale caracteristicilor, valori medii și variații, matrice de relații de caracteristici etc., asupra cărora se efectuează acțiuni, exprimate în formă analitică sau constructivă. În același timp, obiectele din aceste metode nu sunt considerate unități informaționale integrale, ci acționează ca indicatori pentru evaluarea interacțiunii și comportamentului atributelor lor.

Grupul de metode intensionale pentru recunoașterea modelelor este extins, iar împărțirea sa în subclase este într-o anumită măsură condiționată:

– metode bazate pe estimări ale densităților de distribuție a valorilor caracteristicilor

– metode bazate pe ipoteze despre clasa funcţiilor de decizie

– metode logice

– metode lingvistice (structurale).

Metode bazate pe estimări ale densităților de distribuție a valorilor caracteristicilor. Aceste metode de recunoaștere a modelelor sunt împrumutate din teoria clasică a deciziilor statistice, în care obiectele de studiu sunt considerate ca realizări ale unei variabile aleatoare multidimensionale distribuite în spațiul caracteristic conform unor legi. Ele se bazează pe o schemă bayesiană de luare a deciziilor care face apel la probabilitățile a priori ale obiectelor aparținând unei anumite clase recunoscute și la densitățile de distribuție condiționată a valorilor vectorului caracteristic. Aceste metode se rezumă la determinarea raportului de probabilitate în diferite zone ale spațiului caracteristic multidimensional.

Un grup de metode bazate pe estimarea densităților de distribuție a valorilor caracteristicilor este direct legat de metodele de analiză discriminantă. Abordarea bayesiană a luării deciziilor este una dintre cele mai dezvoltate așa-numite metode parametrice din statistica modernă, pentru care expresia analitică a legii distribuției (în acest caz, legea normală) este considerată cunoscută și doar un număr mic de parametri ( vectori de valori medii și matrice de covarianță) trebuie să fie estimați.

Acest grup include și metoda de calcul a raportului de probabilitate pentru caracteristicile independente. Această metodă, cu excepția ipotezei independenței caracteristicilor (care în realitate nu este aproape niciodată îndeplinită), nu presupune cunoașterea formei funcționale a legii distribuției. Poate fi clasificată ca metodă neparametrică.

Alte metode neparametrice, utilizate atunci când forma curbei densității distribuției este necunoscută și nu se pot face deloc presupuneri cu privire la natura acesteia, ocupă o poziție specială. Printre acestea se numără binecunoscuta metodă a histogramelor multidimensionale, metoda „k-nearest neighbors”, metoda distanței euclidiene, metoda funcțiilor potențiale etc., o generalizare a cărei generalizare este metoda numită „Estimări Parzen”. Aceste metode operează în mod formal cu obiectele ca structuri integrale, dar în funcție de tipul sarcinii de recunoaștere, ele pot acționa atât sub formă intențională, cât și extensivă.

Metodele neparametrice analizează numărul relativ de obiecte care se încadrează în volume multidimensionale date și utilizează diverse funcții ale distanței dintre obiectele din setul de antrenament și obiectele recunoscute. Pentru caracteristicile cantitative, când numărul lor este mult mai mic decât dimensiunea eșantionului, operațiunile cu obiecte joacă un rol intermediar în estimarea densităților de distribuție locală a probabilităților condiționate, iar obiectele nu poartă încărcătura semantică a unităților informaționale independente. În același timp, atunci când numărul de caracteristici este proporțional sau mai mare decât numărul de obiecte studiate, iar caracteristicile sunt de natură calitativă sau dihotomică, atunci nu se poate vorbi despre estimări locale ale densităților distribuției probabilităților. În acest caz, obiectele din metodele neparametrice specificate sunt considerate ca unități informaționale independente (fapte empirice integrale) și aceste metode capătă sensul evaluării asemănărilor și diferențelor obiectelor studiate.

Astfel, aceleași operații tehnologice ale metodelor neparametrice, în funcție de condițiile problemei, au sens fie din estimări locale ale densităților de distribuție a probabilității a valorilor caracteristicilor, fie estimări ale asemănării și diferențelor obiectelor.

În contextul reprezentării intenționale a cunoștințelor, aici este considerată prima latură a metodelor neparametrice, ca estimări ale densităților distribuției probabilităților. Mulți autori observă că, în practică, metodele neparametrice, cum ar fi estimatorii Parzen, funcționează bine. Principalele dificultăți în utilizarea acestor metode sunt necesitatea de a reține întregul eșantion de antrenament pentru a calcula estimări ale densităților locale de distribuție a probabilității și sensibilitatea ridicată la nereprezentativitatea eșantionului de antrenament.

Metode bazate pe ipoteze despre clasa funcțiilor de decizie.În acest grup de metode se consideră cunoscută forma generală a funcției de decizie și se precizează funcționalitatea calității acesteia. Pe baza acestei funcționale, se caută cea mai bună aproximare a funcției de decizie în secvența de antrenament. Cele mai comune sunt reprezentările funcțiilor de decizie sub formă de polinoame liniare și neliniare generalizate. Calitatea funcțională a regulii de decizie este de obicei asociată cu eroarea de clasificare.

Principalul avantaj al metodelor bazate pe ipoteze despre clasa funcțiilor de decizie este claritatea formulării matematice a problemei de recunoaștere ca problemă de căutare a unui extremum. Soluția la această problemă este adesea obținută folosind niște algoritmi de gradient. Varietatea metodelor din acest grup este explicată prin gama largă de funcționale de calitate a regulilor de decizie și algoritmi de căutare extremum utilizați. O generalizare a algoritmilor luați în considerare, care includ, în special, algoritmul lui Newton, algoritmii de tip perceptron etc., este metoda de aproximare stocastică. Spre deosebire de metodele de recunoaștere parametrică, succesul utilizării acestui grup de metode nu depinde atât de mult de discrepanța dintre ideile teoretice despre legile distribuției obiectelor în spațiul caracteristic și realitatea empirică. Toate operațiunile sunt subordonate unui singur scop principal - găsirea extremului calității funcționale a regulii de decizie. În același timp, rezultatele metodelor parametrice și luate în considerare pot fi similare. După cum se arată mai sus, metodele parametrice pentru cazul distribuțiilor normale ale obiectelor din clase diferite cu matrice de covarianță egală conduc la funcții de decizie liniare. De asemenea, rețineți că algoritmii pentru selectarea caracteristicilor informative în modelele de diagnostic liniare pot fi interpretați ca versiuni speciale ale algoritmilor de gradient pentru căutarea extremelor.

Capabilitatile algoritmilor de cautare a gradient extremum, in special in grupul regulilor de decizie liniara, au fost destul de bine studiate. Convergența acestor algoritmi a fost dovedită numai în cazul în care clasele de obiecte recunoscute sunt afișate în spațiul caracteristicilor prin structuri geometrice compacte. Cu toate acestea, dorința de a obține o calitate suficientă a regulii de decizie poate fi adesea satisfăcută cu ajutorul algoritmilor care nu au o demonstrație matematică strictă a convergenței soluției la un extremum global.

Astfel de algoritmi includ un grup mare de proceduri de programare euristică care reprezintă direcția modelării evolutive. Modelarea evolutivă este o metodă bionică împrumutată din natură. Se bazează pe utilizarea unor mecanisme cunoscute de evoluție pentru a înlocui procesul de modelare semnificativă a unui obiect complex cu modelarea fenomenologică a evoluției acestuia.

Un reprezentant binecunoscut al modelării evolutive în recunoașterea modelelor este metoda de contabilizare de grup a argumentelor (MGUA). Baza GMDH este principiul auto-organizării, iar algoritmii GMDH reproduc schema selecției în masă. În algoritmii GMDH, membrii unui polinom generalizat sunt sintetizați și selectați într-un mod special, care este adesea numit polinomul Kolmogorov-Gabor. Această sinteză și selecție se realizează cu o complexitate crescândă și este imposibil de prezis în prealabil ce formă finală va avea polinomul generalizat. În primul rând, sunt de obicei luate în considerare combinații simple pe perechi de caracteristici inițiale, din care sunt compilate ecuații ale funcțiilor de decizie, de obicei nu mai mari de ordinul doi. Fiecare ecuație este analizată ca o funcție de decizie independentă, iar valorile parametrilor ecuațiilor compilate sunt găsite într-un fel sau altul folosind eșantionul de antrenament. Apoi, din setul rezultat de funcții de decizie, sunt selectate unele dintre cele mai bune. Calitatea funcțiilor de decizie individuale este verificată pe un eșantion de control (test), care este uneori numit principiul adăugării externe. Funcțiile de decizie parțiale selectate sunt considerate în continuare ca variabile intermediare care servesc drept argumente inițiale pentru o sinteză similară a noilor funcții de decizie etc. Procesul unei astfel de sinteze ierarhice continuă până la atingerea extremului criteriului de calitate al funcției de decizie, care în practică. se manifestă prin deteriorarea acestei calităţi atunci când se încearcă mărirea în continuare a ordinii termenilor polinomiali în raport cu caracteristicile originale.

Principiul auto-organizării care stă la baza GMDH se numește auto-organizare euristică, deoarece întregul proces se bazează pe introducerea de completări externe, selectate euristic. Rezultatul unei decizii poate depinde în mod semnificativ de aceste euristici. Modelul de diagnostic rezultat depinde de modul în care obiectele sunt împărțite în eșantioane de antrenament și testare, de modul în care este determinat criteriul de calitate a recunoașterii, de câte variabile sunt trecute în următorul rând de selecție etc.

Caracteristicile indicate ale algoritmilor GMDH sunt, de asemenea, caracteristice altor abordări ale modelării evolutive. Dar să remarcăm aici încă un aspect al metodelor luate în considerare. Aceasta este esența lor semnificativă. Folosind metode bazate pe ipoteze despre clasa funcțiilor de decizie (evolutive și gradiente), este posibil să se construiască modele de diagnosticare de mare complexitate și să se obțină rezultate practic acceptabile. În același timp, atingerea scopurilor practice în acest caz nu este însoțită de extragerea de noi cunoștințe despre natura obiectelor recunoscute. Posibilitatea extragerii acestor cunoștințe, în special cunoștințe despre mecanismele de interacțiune a atributelor (trăsăturilor), este aici fundamental limitată de structura dată a unei astfel de interacțiuni, fixată în forma selectată a funcțiilor de decizie. Prin urmare, cel mai mult care se poate spune după construirea unui anumit model de diagnostic este să enumerați combinații de caracteristici și caracteristicile însele incluse în modelul rezultat. Dar semnificația combinațiilor care reflectă natura și structura distribuțiilor obiectelor studiate rămâne adesea nedezvăluită în cadrul acestei abordări.

Metode booleene. Metodele logice de recunoaștere a modelelor se bazează pe aparatul algebrei logice și permit operarea cu informații conținute nu numai în caracteristicile individuale, ci și în combinații de valori ale caracteristicilor. În aceste metode, valorile oricărui atribut sunt considerate evenimente elementare.

În cea mai generală formă, metodele logice pot fi caracterizate ca un tip de căutare printr-un eșantion de antrenament de tipare logice și formarea unui anumit sistem de reguli de decizie logică (de exemplu, sub forma conjuncțiilor de evenimente elementare), fiecare dintre care are propria greutate. Grupul de metode logice este divers și include metode de diferite complexitate și profunzime de analiză. Pentru caracteristicile dihotomice (booleene), sunt populare așa-numitele clasificatoare asemănătoare arborelui, metoda de testare fără margini, algoritmul „Bark” și altele. Metodele mai complexe se bazează pe formalizarea metodelor inductive ale lui D.S. Mill. Formalizarea se realizează prin construirea unei teorii cvasi-axiomatice și se bazează pe logica multi-sortată cu mai multe valori cu cuantificatori pe tupluri de lungime variabilă.

Algoritmul „Kora”, ca și alte metode logice de recunoaștere a modelelor, necesită o muncă destul de mare, deoarece este necesară o căutare completă la selectarea conjuncțiilor. Prin urmare, atunci când se folosesc metode logice, se impune cerințe mari asupra organizării eficiente a procesului de calcul, iar aceste metode funcționează bine cu dimensiuni relativ mici ale spațiului caracteristic și numai pe computere puternice.

Metode lingvistice (sintactice sau structurale). Metodele lingvistice de recunoaștere a modelelor se bazează pe utilizarea unor gramatici speciale care generează limbaje, cu ajutorul cărora poate fi descris un set de proprietăți ale obiectelor recunoscute. Gramatica se referă la regulile de construire a obiectelor din aceste elemente nederivate.

Dacă descrierea imaginilor se face folosind elemente nederivate (subimagini) și relațiile lor, atunci se folosește o abordare lingvistică sau sintactică folosind principiul generalității proprietăților pentru a construi sisteme de recunoaștere automată. O imagine poate fi descrisă folosind o structură ierarhică de subimagini, similară structurii sintactice a limbajului. Această împrejurare face posibilă aplicarea teoriei limbajelor formale la rezolvarea problemelor de recunoaștere a imaginilor. Se presupune că o gramatică a imaginii conține seturi finite de elemente numite variabile, elemente nederivate și reguli de substituție. Natura regulilor de substituție determină tipul de gramatică. Printre cele mai studiate gramatici putem remarca gramaticile regulate, fără context și ale componentelor directe. Punctele cheie ale acestei abordări sunt selecția elementelor nederivate ale imaginii, combinarea acestor elemente și relațiile care le conectează în gramatici ale imaginii și, în final, implementarea proceselor de analiză și recunoaștere în limbajul adecvat. Această abordare este utilă în special atunci când se lucrează cu imagini care fie nu pot fi descrise prin măsurători numerice, fie sunt atât de complexe încât caracteristicile lor locale nu pot fi identificate și trebuie să apelăm la proprietățile globale ale obiectelor.

De exemplu, E.A. Butakov, V.I. Ostrovsky, I.L. Fadeev propune următoarea structură de sistem pentru procesarea imaginii (Fig. 3), folosind o abordare lingvistică, în care fiecare dintre blocurile funcționale este un software (microprogram) complex (modul) care implementează funcțiile corespunzătoare.

Figura 3. Schema bloc a dispozitivului de recunoaștere

Încercările de aplicare a metodelor lingvisticii matematice la problema analizei imaginii duc la necesitatea rezolvării unui număr de probleme asociate cu maparea structurii bidimensionale a unei imagini pe lanțuri unidimensionale ale unui limbaj formal.

Metode de extensie

În metodele acestui grup, spre deosebire de direcția intensională, fiecărui obiect studiat i se acordă, într-o măsură mai mare sau mai mică, o semnificație diagnostică independentă. La baza lor, aceste metode sunt apropiate de abordarea clinică, care consideră oamenii nu ca un lanț de obiecte clasificate după un indicator sau altul, ci ca sisteme integrale, fiecare dintre acestea fiind individual și având o valoare diagnostică specială. O astfel de atitudine atentă față de obiectele cercetării nu permite excluderea sau pierderea informațiilor despre fiecare obiect individual, ceea ce se întâmplă atunci când se folosesc metode de direcție intențională care folosesc obiecte doar pentru a detecta și înregistra modele de comportament ale atributelor lor.

Principalele operații în recunoașterea modelelor folosind metodele discutate sunt operațiunile de determinare a asemănărilor și diferențelor obiectelor. Obiectele din grupul specificat de metode joacă rolul de precedente de diagnosticare. Mai mult, în funcție de condițiile unei sarcini specifice, rolul unui precedent individual poate varia în limitele cele mai largi: de la cea principală și determinantă până la participarea foarte indirectă la procesul de recunoaștere. La rândul lor, condițiile problemei pot necesita participarea unui număr diferit de precedente de diagnosticare pentru o soluție de succes: de la unul în fiecare clasă recunoscută până la dimensiunea completă a eșantionului, precum și diferite metode de calculare a măsurilor de similitudine și diferență între obiecte. . Aceste cerințe explică împărțirea ulterioară a metodelor extensiale în subclase:

    metoda de comparare cu prototipul;

    metoda k-nearest neighbors;

    colective de reguli de decizie.

Metoda de comparare cu prototipul. Aceasta este cea mai simplă metodă de recunoaștere extensivă. Este folosit, de exemplu, atunci când clasele recunoscute sunt afișate în spațiul caracteristicilor prin grupări geometrice compacte. În acest caz, de obicei, centrul grupării geometrice a clasei (sau obiectul cel mai apropiat de centru) este selectat ca punct prototip.

Pentru a clasifica un obiect necunoscut, se găsește cel mai apropiat prototip de acesta, iar obiectul aparține aceleiași clase cu acest prototip. Evident, nu sunt generate imagini de clasă generalizate în această metodă.

Diferite tipuri de distanțe pot fi utilizate ca măsură a proximității. Adesea, pentru caracteristicile dihotomice, se folosește distanța Hamming, care în acest caz este egală cu pătratul distanței euclidiene. În acest caz, regula de decizie pentru clasificarea obiectelor este echivalentă cu o funcție de decizie liniară.

Acest fapt trebuie remarcat în mod deosebit. Demonstrează clar legătura dintre prototip și reprezentarea atributelor informații despre structura datelor. Folosind reprezentarea de mai sus, se poate considera, de exemplu, orice scară de măsurare tradițională, care este o funcție liniară a valorilor caracteristicilor dihotomice, ca un prototip de diagnostic ipotetic. La rândul său, dacă analiza structurii spațiale a claselor recunoscute ne permite să tragem o concluzie despre compactitatea lor geometrică, atunci este suficient să înlocuim fiecare dintre aceste clase cu un prototip, care este de fapt echivalent cu un model de diagnostic liniar.

În practică, desigur, situația este adesea diferită de exemplul idealizat descris. Un cercetător care intenționează să aplice o metodă de recunoaștere bazată pe comparație cu clasele de diagnostic prototip se confruntă cu probleme dificile. Aceasta este, în primul rând, alegerea măsurii de proximitate (metrică), care poate schimba semnificativ configurația spațială a distribuției obiectelor. Și, în al doilea rând, o problemă independentă este analiza structurilor multidimensionale ale datelor experimentale. Ambele probleme sunt deosebit de acute pentru cercetător în condiții de dimensionalitate ridicată a spațiului caracteristic, caracteristică problemelor reale.

Metoda k-cei mai apropiati vecini. Metoda k-nearest neighbors pentru rezolvarea problemelor de analiză discriminantă a fost propusă pentru prima dată în 1952. Este după cum urmează.

La clasificarea unui obiect necunoscut, se găsește un număr dat (k) de cel mai apropiat din punct de vedere geometric de acesta în spațiul caracteristicilor altor obiecte (cei mai apropiati vecini) cu apartenența deja cunoscută la clase recunoscute. Decizia de a atribui un obiect necunoscut unei anumite clase de diagnostic este luată prin analizarea informațiilor despre această afiliere cunoscută a vecinilor săi cei mai apropiați, de exemplu, folosind o simplă numărare a voturilor.

Inițial, metoda k-nearest neighbors a fost considerată o metodă neparametrică pentru estimarea raportului de probabilitate. Pentru această metodă, s-au obținut estimări teoretice ale eficacității sale în comparație cu clasificatorul bayesian optim. S-a dovedit că probabilitățile de eroare asimptotică pentru metoda k-nearest neighbors depășesc erorile regulii lui Bayes de cel mult două ori.

După cum sa menționat mai sus, în problemele reale este adesea necesar să se opereze cu obiecte care sunt descrise de un număr mare de caracteristici calitative (dihotomice). În acest caz, dimensiunea spațiului caracteristic este proporțională cu sau depășește volumul eșantionului studiat. În astfel de condiții, este convenabil să se interpreteze fiecare obiect al eșantionului de antrenament ca un clasificator liniar separat. Apoi, aceasta sau acea clasă de diagnosticare este reprezentată nu de un prototip, ci de un set de clasificatoare liniare. Interacțiunea combinată a clasificatorilor liniari are ca rezultat în cele din urmă o suprafață liniară pe bucăți care separă clasele recunoscute în spațiul caracteristicilor. Tipul suprafeței divizoare, constând din bucăți de hiperplane, poate fi variat și depinde de poziția relativă a agregatelor clasificate.

Se poate folosi și o altă interpretare a mecanismelor de clasificare folosind regula k-nearest neighbors. Se bazează pe ideea existenței anumitor variabile latente, abstracte sau legate de o anumită transformare la spațiul caracteristic original. Dacă în spațiul variabilelor latente distanțele perechi dintre obiecte sunt aceleași ca și în spațiul caracteristicilor originale, iar numărul acestor variabile este semnificativ mai mic decât numărul de obiecte, atunci interpretarea metodei k-nearest neighbors poate să fie luate în considerare din punctul de vedere al comparării estimărilor neparametrice ale densităților de distribuție de probabilitate condiționată. Viziunea variabilelor latente prezentate aici este apropiată în natură de viziunea dimensionalității adevărate și a altor vederi utilizate în diferite tehnici de reducere a dimensionalității.

Când se utilizează metoda k-nearest neighbors pentru recunoașterea modelelor, cercetătorul trebuie să rezolve problema dificilă a alegerii unei metrici pentru a determina proximitatea obiectelor diagnosticate. Această problemă în condiții de dimensionalitate ridicată a spațiului caracteristic este extrem de agravată din cauza complexității suficiente a acestei metode, care devine semnificativă chiar și pentru calculatoarele performante. Prin urmare, aici, la fel ca în metoda de comparare cu un prototip, este necesar să se rezolve problema creativă a analizei structurii multidimensionale a datelor experimentale pentru a minimiza numărul de obiecte reprezentând clase de diagnostic.

Algoritmi pentru calcularea ratingurilor (votare). Principiul de funcționare al algoritmilor de calcul de evaluare (ABO) este de a calcula prioritatea (scorurile de similaritate) care caracterizează „proximitatea” obiectelor recunoscute și de referință conform unui sistem de ansambluri de caracteristici, care este un sistem de subseturi ale unui set dat de caracteristici. .

Spre deosebire de toate metodele discutate anterior, algoritmii pentru calcularea estimărilor operează cu descrieri de obiecte într-un mod fundamental nou. Pentru acești algoritmi, obiectele există simultan în subspații foarte diferite ale spațiului caracteristic. Clasa ABO duce ideea utilizării caracteristicilor la concluzia sa logică: deoarece nu se știe întotdeauna care combinații de caracteristici sunt cele mai informative, atunci în ABO gradul de similitudine al obiectelor este calculat prin compararea tuturor combinațiilor posibile sau specifice de caracteristici incluse în descrierile obiectelor.

Reguli colective de decizie. Regula de decizie folosește o schemă de recunoaștere pe două niveluri. La primul nivel funcționează algoritmi de recunoaștere privat, ale căror rezultate sunt combinate la al doilea nivel în blocul de sinteză. Cele mai comune metode de astfel de unificare se bazează pe identificarea domeniilor de competență ale unui anumit algoritm. Cel mai simplu mod de a găsi domenii de competență este de a împărți a priori spațiul atributelor pe baza considerațiilor profesionale ale unei anumite științe (de exemplu, stratificarea eșantionului în funcție de un anumit atribut). Apoi, pentru fiecare dintre zonele selectate, se construiește propriul algoritm de recunoaștere. O altă metodă se bazează pe utilizarea analizei formale pentru a determina zonele locale ale spațiului caracteristic ca vecinătăți ale obiectelor recunoscute pentru care a fost dovedit succesul unui anumit algoritm de recunoaștere.

Cea mai generală abordare a construirii unui bloc de sinteză consideră indicatorii rezultați ai anumitor algoritmi ca caracteristici inițiale pentru construirea unei noi reguli de decizie generalizate. În acest caz, pot fi utilizate toate metodele de mai sus de direcții intenționale și extensiale în recunoașterea modelelor. Eficienți pentru rezolvarea problemei creării unui set de reguli de decizie sunt algoritmii logici de tip „Kora” și algoritmii pentru calcularea estimărilor (ABO), care stau la baza așa-numitei abordări algebrice, care oferă studiul și descrierea constructivă a algoritmi de recunoaștere, în cadrul cărora se încadrează toate tipurile existente de algoritmi.

Metode de rețea neuronală

Metodele rețelelor neuronale sunt metode bazate pe utilizarea diferitelor tipuri de rețele neuronale (NN). Principalele domenii de aplicare a diferitelor rețele neuronale pentru recunoașterea modelelor și imaginilor:

    aplicație pentru extragerea caracteristicilor sau caracteristicilor cheie ale imaginilor date,

    clasificarea imaginilor în sine sau a caracteristicilor deja extrase din acestea (în primul caz, extragerea caracteristicilor cheie are loc implicit în cadrul rețelei),

    rezolvarea problemelor de optimizare.

Rețele neuronale multistrat. Arhitectura unei rețele neuronale multistrat (MNN) constă din straturi conectate secvențial, unde neuronul fiecărui strat este conectat cu intrările sale la toți neuronii stratului anterior și ieșirile celui următor.

Cea mai simplă aplicație a unei rețele neuronale cu un singur strat (numită memorie auto-asociativă) este antrenarea rețelei pentru a reconstrui imaginile alimentate. Prin introducerea unei imagini de testare ca intrare și calculând calitatea imaginii reconstruite, puteți evalua cât de bine a recunoscut rețeaua imaginea de intrare. Proprietățile pozitive ale acestei metode sunt că rețeaua poate restaura imagini distorsionate și zgomotoase, dar nu este potrivită pentru scopuri mai serioase.

MNN este, de asemenea, utilizat pentru clasificarea directă a imaginii - fie imaginea în sine, fie un set de caracteristici cheie extrase anterior ale imaginii este furnizat ca intrare la ieșire, neuronul cu activitate maximă indică apartenența la clasa recunoscută (Fig. 4). Dacă această activitate este sub un anumit prag, atunci se consideră că imaginea transmisă nu aparține niciunei dintre clasele cunoscute. Procesul de învățare stabilește corespondența imaginilor furnizate intrării cu apartenența la o anumită clasă. Aceasta se numește învățare supravegheată. Această abordare este bună pentru sarcinile de control al accesului ale unui grup mic de oameni. Această abordare asigură că rețeaua compară direct imaginile în sine, dar odată cu creșterea numărului de cursuri, timpul de pregătire și funcționare a rețelei crește exponențial. Prin urmare, sarcini precum găsirea unei persoane similare într-o bază de date mare necesită extragerea unui set compact de caracteristici cheie pe care să se bazeze căutarea.

O abordare a clasificării folosind caracteristicile de frecvență ale întregii imagini este descrisă în. A fost utilizată o rețea neuronală cu un singur strat bazată pe neuroni cu valori multiple.

Aplicarea unei rețele neuronale pentru clasificarea imaginilor este prezentată atunci când intrarea în rețea primește rezultatele descompunerii imaginii folosind metoda componentelor principale.

În MNN clasic, conexiunile neuronale interstrat sunt complet conectate, iar imaginea este reprezentată ca un vector unidimensional, deși este bidimensional. Arhitectura rețelei neuronale convoluționale își propune să depășească aceste deficiențe. A folosit câmpuri locale de receptor (oferă conectivitate bidimensională locală a neuronilor), ponderi comune (oferă detectarea anumitor caracteristici oriunde în imagine) și organizarea ierarhică cu subeșantionare spațială. Rețeaua neuronală convoluțională (CNN) oferă rezistență parțială la schimbările de scară, deplasări, rotații și distorsiuni.

MNN-urile sunt, de asemenea, folosite pentru a detecta obiecte de un anumit tip. Pe lângă faptul că orice MNN instruit poate, într-o oarecare măsură, să determine dacă imaginile aparțin claselor „lor”, poate fi antrenat special pentru a detecta în mod fiabil anumite clase. În acest caz, clasele de ieșire vor fi clase care aparțin și nu aparțin tipului de imagine dat. Un detector de rețea neuronală a fost folosit pentru a detecta o imagine a feței în imaginea de intrare. Imaginea a fost scanată de o fereastră de 20x20 pixeli, care a fost alimentată la intrarea rețelei, care decide dacă o anumită zonă aparține clasei de fețe. Instruirea a fost efectuată folosind atât exemple pozitive (diverse imagini ale fețelor), cât și exemple negative (imagini care nu sunt fețe). Pentru a crește fiabilitatea detectării, s-a folosit o echipă de rețele neuronale, antrenate cu greutăți inițiale diferite, în urma cărora rețelele neuronale au făcut erori în diferite moduri, iar decizia finală s-a luat prin votul întregii echipe.

Figura 5. Componentele principale (fețe proprii) și descompunerea imaginii în componente principale

O rețea neuronală este, de asemenea, utilizată pentru a extrage caracteristicile cheie ale imaginii, care sunt apoi utilizate pentru clasificarea ulterioară. În , este prezentată o metodă de implementare a rețelei neuronale a metodei de analiză a componentelor principale. Esența metodei de analiză a componentelor principale este obținerea de coeficienți decorați la maximum care caracterizează imaginile de intrare. Acești coeficienți sunt numiți componente principale și sunt utilizați pentru compresia statistică a imaginii, în care un număr mic de coeficienți sunt utilizați pentru a reprezenta întreaga imagine. O rețea neuronală cu un strat ascuns care conține N neuroni (care este mult mai mică decât dimensiunea imaginii), antrenată folosind metoda de backpropagation pentru a restabili imaginea de ieșire alimentată la intrare, generează coeficienții primelor N componente principale la ieșire a neuronilor ascunși, care sunt utilizați pentru comparație. De obicei, se folosesc de la 10 la 200 de componente principale. Pe măsură ce numărul unei componente crește, reprezentativitatea acesteia scade foarte mult și nu are sens să folosiți componente cu numere mari. Când se utilizează funcții de activare neliniară ale elementelor neuronale, este posibilă descompunerea neliniară în componente principale. Neliniaritatea permite ca variațiile în datele de intrare să fie reflectate cu mai multă acuratețe. Aplicând analiza componentelor principale la descompunerea imaginilor faciale, obținem componente principale, numite fețe proprii, care au și o proprietate utilă - există componente care reflectă în principal caracteristici esențiale ale unei fețe precum genul, rasa, emoțiile. Când sunt reconstruite, componentele au un aspect asemănător feței, primele reflectând cea mai generală formă a feței, cele din urmă reprezentând diverse mici diferențe între fețe (Fig. 5). Această metodă este potrivită pentru a găsi imagini similare ale fețelor în baze de date mari. Este prezentată și posibilitatea reducerii în continuare a dimensiunii componentelor principale folosind NN. Evaluând calitatea reconstrucției imaginii de intrare, puteți determina foarte precis apartenența acesteia la clasa de fețe.

Rețele neuronale de ordin înalt. Rețelele neuronale de ordin înalt (HANN) diferă de MNN prin faptul că au un singur strat, dar intrările neuronilor primesc și termeni de ordin înalt, care sunt produsul a două sau mai multe componente ale vectorului de intrare. Astfel de rețele pot forma, de asemenea, suprafețe de divizare complexe.

Rețele neuronale Hopfield. Hopfield NN (HNS) este cu un singur strat și complet conectat (nu există conexiuni între neuroni pe ei înșiși), ieșirile sale sunt conectate la intrări. Spre deosebire de MNS, NSC este relaxare - i.e. fiind setat la starea inițială, funcționează până când ajunge într-o stare stabilă, care va fi valoarea sa de ieșire. Pentru a căuta un minim global în legătură cu problemele de optimizare, se folosesc modificări stocastice ale NSC.

Utilizarea NSH ca memorie asociativă vă permite să restaurați cu acuratețe imaginile pentru care este pregătită rețeaua atunci când o imagine distorsionată este alimentată la intrare. În acest caz, rețeaua își va „aminti” imaginea cea mai apropiată (în sensul unei energii minime locale) și, astfel, o va recunoaște. O astfel de funcționare poate fi reprezentată și ca aplicarea secvențială a memoriei auto-asociative descrisă mai sus. Spre deosebire de memoria auto-asociativă, NSC va restabili perfect cu acuratețe imaginea. Pentru a evita minimele de interferență și pentru a crește capacitatea rețelei, sunt utilizate diferite metode.

Rețele neuronale Kohonen auto-organizate. Rețelele neuronale Kohonen auto-organizate (KONN) asigură ordonarea topologică a spațiului imaginii de intrare. Ele permit o mapare topologic continuă a unui spațiu de intrare n-dimensional într-un spațiu de ieșire m-dimensional, m<

Cognitron. Arhitectura lui Cognitron este similară cu structura cortexului vizual, are o organizare ierarhică multistrat în care neuronii dintre straturi sunt conectați doar local. Învățat prin învățare competitivă (fără profesor). Fiecare strat al creierului implementează diferite niveluri de generalizare; stratul de intrare este sensibil la modele simple, cum ar fi liniile, și orientarea lor în anumite zone ale domeniului vizual, în timp ce răspunsul altor straturi este mai complex, abstract și independent de poziția modelului. Funcții similare sunt implementate în cognitron prin modelarea organizării cortexului vizual.

Neocognitron este o dezvoltare ulterioară a ideii de cognitron și reflectă mai precis structura sistemului vizual, vă permite să recunoașteți imaginile indiferent de transformările, rotațiile, distorsiunile și schimbările de scară ale acestora.

Cognitron este un instrument puternic de recunoaștere a imaginii, dar necesită costuri de calcul mari, care în prezent sunt de neatins.

Metodele rețelelor neuronale considerate oferă recunoaștere rapidă și fiabilă a imaginii, dar atunci când se folosesc aceste metode, apar probleme în recunoașterea obiectelor tridimensionale. Cu toate acestea, această abordare are multe avantaje.

      Concluzie

În prezent, există un număr destul de mare de sisteme de recunoaștere automată a modelelor pentru diferite sarcini aplicate.

Recunoașterea modelelor prin metode formale ca direcție științifică fundamentală este inepuizabilă.

Metodele matematice de prelucrare a imaginii au o mare varietate de aplicații: știință, tehnologie, medicină, sfera socială. În viitor, rolul recunoașterii modelelor în viața umană va crește și mai mult.

Metodele rețelelor neuronale oferă recunoaștere rapidă și fiabilă a imaginii. Această abordare are o mulțime de avantaje și este una dintre cele mai promițătoare.

Literatură

    D.V. Brilyuk, V.V. Starovoitov. Metode de rețea neuronală pentru recunoașterea imaginilor // /

    Kuzin L.T. Fundamentele ciberneticii: Fundamentele modelelor cibernetice. T.2. - M.: Energie, 1979. - 584 p.

    Peregudov F.I., Tarasenko F.P. Introducere în analiza sistemelor: Manual. – M.: Şcoala superioară, 1997. - 389 p.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Bazele teoretice ale tehnologiei informației. - M.: Energie, 1979. - 511 p.

    Tu J., Gonzalez R. Principiile recunoașterii modelelor. /Trans. din engleza - M.: Mir, 1978. - 410 p.

    Winston P. Inteligența artificială. /Trans. din engleza - M.: Mir, 1980. - 520 p.

    Fu K. Metode structurale în recunoașterea modelelor: Tradus din engleză. - M.: Mir, 1977. - 320 p.

    Tsypkin Ya.Z. Fundamentele teoriei informației a identificării. - M.: Nauka, 1984. - 520 p.

    Pospelov G.S. Inteligența artificială stă la baza noii tehnologii informaționale. - M.: Nauka, 1988. - 280 p.

    Yu. Lifshits, Metode statistice de recunoaștere a modelelor ///modern/07modernnote.pdf

    Bohr N. Fizica atomică și cunoașterea umană. /Tradus din engleză - M.: Mir, 1961. - 151 p.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Prelucrarea imaginilor pe calculator.1987.-236p.

    Duda R., Hart P. Recunoașterea modelelor și analiza scenei. /Tradus din engleză - M.: Mir, 1978. - 510 p.

    Ducele V.A. Psihodiagnostic computerizat. - Sankt Petersburg: Frăție, 1994. - 365 p.

    Aizenberg I. N., Aizenberg N. N. și Krivosheev G. A. Neuroni binari universali și multivalori: algoritmi de învățare, aplicații pentru procesarea și recunoașterea imaginilor. Note de curs în Inteligența artificială – Machine Learning și Data Mining în Pattern Recognition, 1999, pp. 21-35.

    Ranganath S. și Arun K. Recunoașterea feței folosind caracteristici de transformare și rețele neuronale. Pattern Recognition 1997, Vol. 30, pp. 1615-1622.

    Golovko V.A. Neurointeligență: teorie și aplicații. Cartea 1. Organizarea și antrenamentul rețelelor neuronale cu conexiuni directe și de feedback - Brest: BPI, 1999, - 260 p.

    Vetter T. și Poggio T. Clasele de obiecte liniare și sinteza imaginii dintr-un singur exemplu de imagine. Tranzacții IEEE privind analiza modelelor și inteligența mașinilor 1997, voi. 19, pp. 733-742.

    Golovko V.A. Neurointeligență: teorie și aplicații. Cartea 2. Autoorganizarea, toleranța la erori și aplicarea rețelelor neuronale - Brest: BPI, 1999, - 228 p.

    Lawrence S., Giles C. L., Tsoi A. C. și Back A. D. Recunoașterea feței: O abordare a rețelei neuronale convoluționale. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24.

    Wasserman F. Tehnologia neurocalculatoarelor: Teorie și practică, 1992 – 184 p.

    Rowley, H. A., Baluja, S. și Kanade, T. Neural Network-Based Face Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, voi. 20, pp. 23-37.

    Valentin D., Abdi H., O"Toole A. J. și Cottrell G. W. Connectionist Models of face processing: a survey. IN: Pattern Recognition 1994, Vol. 27, pp. 1209-1230.

    Document

    Ei alcătuiesc algoritmi recunoaştereimagini. Metoderecunoaştereimagini După cum am menționat mai sus... nu există nicio realitate există„ecosisteme în general”, și exista numai individuale... concluzii din acest detaliat revizuiremetoderecunoaştere am prezentat in...

  1. Revizuirea metodelor de identificare a persoanelor pe baza imaginilor faciale, luând în considerare caracteristicile recunoașterii vizuale

    Revizuire

    ... recunoaştere de către o persoană de obiecte cu contrast redus, incl. persoane Dat revizuire uzual metode ... Existăîntreaga linie metode ... cale, ca urmare a cercetării, o platformă de dezvoltare metodărecunoaştere ...

  2. Numit după Glazkova Valentina Vladimirovna CERCETAREA ȘI DEZVOLTAREA METODELOR DE CONSTRUCȚIE DE INSTRUMENTE SOFTWARE PENTRU CLASIFICAREA DOCUMENTELOR DE HIPERTEXT MULTI-TEME Specialitatea 05

    Rezumat al disertației

    Documente hipertext. Capitolul prevede revizuireexistentmetode soluții la problema luată în considerare, descriere... prin tăierea celor mai puțin relevante clase // Matematică metoderecunoaştereimagini: a 13-a Conferință panrusă. Regiunea Leningrad...

  3. Slide 0 Prezentare generală a sarcinilor de bioinformatică legate de analiza și prelucrarea textelor genetice

    Lectura

    ADN și secvențe de proteine. Revizuire sarcini de bioinformatică ca sarcini... semnale necesită utilizarea de moderne metoderecunoaştereimagini, abordări statistice și... cu densitate scăzută a genelor. Existent programele de predicție genetică nu sunt...

RECUNOAȘTEREA FEȚEI: O PROBLEMĂ ȘI O SOLUȚIE

Alexandr Morgunov

student la departamentul „Tehnologia informației” Universitatea Tehnică de Stat Don

Rusia, Rostov-pe-Don

Diana Mansurova

cercetător la FGANU NII Specvuzavtomatika,

Rusia, Rostov-pe-Don

Kay Tyurin

cercetător la FGANU NII Specvuzavtomatika,

Rusia, Rostov-pe-Don

ADNOTARE

Articolul descrie rezultatele unei analize comparative a metodelor și algoritmilor existenți pentru recunoașterea fețelor umane.

ABSTRACT

În această lucrare a fost luată în considerare problema recunoașterii feței umane. Au fost descrise și comparate diverse metode și algoritmi de recunoaștere a feței.

Cuvinte cheie: recunoaștere facială, învățare automată, viziune computerizată, rețele neuronale.

Cuvinte cheie: recunoaștere facială, învățare automată, viziune computerizată, rețele neuronale.

Recunoașterea obiectelor este o sarcină ușoară pentru oameni. Pentru că nu vedem lumea ca pe o colecție de părți separate, creierul nostru trebuie să combine cumva diferite surse de informații în modele utile. Sarcina recunoașterii automate a feței este de a extrage aceste trăsături semnificative dintr-o imagine, de a le transforma într-o reprezentare utilă și de a efectua un fel de clasificare.

Un proces de recunoaștere a feței bazat pe trăsături geometrice faciale este probabil cea mai intuitivă abordare a recunoașterii feței. Experimentele pe un set mare de date au arătat că caracteristicile geometrice singure nu pot oferi suficiente informații pentru recunoașterea feței.

Metoda, numită Eigenfaces, descrisă în lucrare, adoptă o abordare holistică a sarcinii de recunoaștere a feței. O imagine a feței este un punct dintr-un spațiu de imagine cu dimensiuni înalte, care este asociat cu o reprezentare din așa-numitul spațiu de dimensiuni joase, unde clasificarea devine o sarcină simplă. Subspațiul de dimensiuni reduse este găsit utilizând metoda analizei componentelor principale (PCA), care identifică axele cu variația maximă. Deși acest tip de transformare este optim din punct de vedere al reconstrucției, nu ia în considerare etichetele de clasă. Dacă varianța este generată dintr-o sursă externă (cum ar fi iluminarea), axele cu varianță maximă pot să nu conțină nicio informație distinctă, prin urmare clasificarea devine imposibilă. Prin urmare, în lucrarea pentru sarcina de recunoaștere a feței, a fost utilizată proiecția de clasă cu analiză discriminantă liniară. Ideea de bază a fost de a minimiza variația în cadrul clasei și, în același timp, de a maximiza varianța dintre clase.

Recent, mai multe metode de extragere a caracteristicilor locale au fost combinate. Pentru a evita multidimensionalitatea datelor de intrare, sunt descrise doar regiunile locale ale imaginii. Caracteristicile extrase sunt mai robuste împotriva ocluziei parțiale, a iluminării și a dimensiunii reduse a imaginii de intrare. Algoritmii care folosesc extracția locală a caracteristicilor sunt: ​​Gabor Wavelets, Discrete Cosin Transform și Local Binary Patterns. Întrebarea care este cea mai bună modalitate de a păstra informațiile spațiale atunci când se aplică o metodă de extracție locală a caracteristicilor este încă deschisă pentru cercetare, deoarece informațiile spațiale sunt potențial utile pentru rezolvarea problemei recunoașterii feței.

Metoda Eigenfaces realizează recunoașterea feței utilizând următorii pași:

Proiectarea tuturor exemplelor de instruire în subspațiul analizei componentelor principale;

Proiectarea imaginii solicitate în subspațiul analizei componentelor principale;

Găsirea celor mai apropiați vecini între imaginile de antrenament proiectate și imaginea de interogare proiectată.

Figura 1 prezintă un exemplu despre modul în care fețele sunt reprezentate de algoritmul Eigenfaces. Schema de culori jet a fost folosită pentru a arăta modul în care valorile tonurilor de gri sunt distribuite pe anumite fețe. Algoritmul codifică nu numai trăsăturile feței, ci și iluminarea imaginilor.

Figura 1. Reprezentarea fețelor prin algoritmul Eigenfaces în schema de culori a jetului

.

Datele feței au fost reconstruite dintr-o aproximare cu dimensiuni reduse. Figura 2 prezintă reconstrucții cu un număr diferit de componente de la 10 la 310.

Figura 2. Reconstrucții cu numere diferite de componente folosind algoritmul Eigenfaces

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Evident, 10 vectori proprii este un număr nesemnificativ pentru o bună reconstrucție a imaginii. 50 de vectori proprii pot contribui deja la codificarea trăsăturilor faciale importante. Este posibil să se obțină o reconstrucție bună cu aproximativ 300 de vectori proprii. Există reguli pentru selectarea numărului necesar de vectori proprii pentru un proces de recunoaștere a feței de succes, cu toate acestea, acestea depind foarte mult de datele de intrare.

Analiza componentelor principale (PCA), care stă la baza algoritmului Eigenfaces, găsește combinații liniare de caracteristici care maximizează varianța totală a datelor. În timp ce PCA este o modalitate bună de a reprezenta datele, nu ia în considerare clasele și o mulțime de informații utile se pot pierde în timpul transformărilor. Dacă dispersia datelor este generată de o sursă externă, cum ar fi lumina, componentele identificate de PCA pot să nu conțină informații clare. Ca urmare, datele proiectate sunt amestecate și clasificarea devine o sarcină imposibilă.

Analiza discriminantă liniară, care efectuează reducerea dimensionalității la nivel de clasă a datelor de intrare, a fost propusă de statisticianul Ronald Fisher, care a folosit-o cu succes pentru a clasifica culorile. Metoda găsește combinații liniare de caracteristici care separă cel mai bine mai multe clase de obiecte și, de asemenea, maximizează raportul dintre dispersia claselor disparate și strâns legate, în loc să maximizeze raportul general. Ideea simplă este că clasele similare ar trebui să fie strâns legate, în timp ce, în același timp, clasele diferite ar trebui să fie cât mai îndepărtate una dintre ele pentru a reprezenta date cu dimensiuni reduse. O abordare similară a fost propusă și de Belhamer, Hespana și Kriegman, care au aplicat analiza discriminantă unei probleme de recunoaștere a feței în .

Figura 3 prezintă un exemplu de algoritm Fisherfaces, care ilustrează așa-numitele fețe Fisher. Fiecare față Phisher are aceeași dimensiune ca imaginea originală, așa că poate fi afișată ca imagine.

Figura 3. Exemplu de algoritm Fisherfaces

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Algoritmul Fisherfaces folosește o matrice de transformare bazată pe clasă, deci nu ia în considerare iluminarea, la fel ca algoritmul Eigenfaces. În schimb, analiza discriminantă găsește trăsături faciale pentru a distinge între persoane. Este important de reținut că performanța algoritmului Fisherfaces este, de asemenea, foarte dependentă de datele de intrare. Dacă antrenați algoritmul Fisherfaces pe imagini foarte iluminate și apoi încercați să recunoașteți fețele în imagini slab iluminate, metoda va găsi probabil componentele greșite, deoarece aceste caracteristici pot să nu fie dominante în imaginile slab iluminate. Ceea ce este evident, deoarece algoritmul nu poate fi antrenat să recunoască iluminarea.

Algoritmul Fisherfaces permite reconstrucția imaginilor proiectate în același mod ca Eigenfaces. Dar datorită faptului că algoritmul identifică doar principalele caracteristici care fac posibilă distingerea obiectelor, nu se poate aștepta la o reconstrucție bună a imaginii originale. Pentru a vizualiza algoritmul Fisherfaces, imaginea originală este proiectată pe fiecare dintre fețele Fisher. Figura 4 prezintă o vizualizare a algoritmului Fisherfaces, care arată ce caracteristici descrie fiecare dintre fețele Fisher.

Figura 4. Fețe Fisher reconstruite

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Algoritmii Eigenfaces și Fisherfaces oferă un fel de abordare holistică pentru rezolvarea problemei recunoașterii feței. Reprezentați datele ca un vector undeva în spațiul imaginii multidimensionale. Se știe că dimensionalitatea înaltă este o proprietate proastă a datelor, așa că este definit un subspațiu cu dimensiuni reduse unde este probabil să fie stocată informații utile. Algoritmul Eigenfaces maximizează varianța generală, ceea ce poate duce la o problemă atunci când varianța este generată dintr-o sursă externă, deoarece componentele cu cea mai mare varianță dintre toate clasele nu sunt neapărat utile pentru clasificarea unui obiect. Prin urmare, pentru a păstra unele informații distincte, se utilizează analiza discriminantă liniară cu optimizarea descrisă în algoritmul Fisherfaces. Algoritmul Fisherfaces funcționează relativ bine, cel puțin pentru scenariul limitat de același nivel de iluminare a imaginii.

Dar, în realitate, parametrii ideali de iluminare în imagini nu pot fi garantați. Mai mult, dacă există o singură imagine per persoană, calculul covarianței pentru subspațiu și, prin urmare, recunoașterea, poate fi semnificativ incorect. Pentru baza de date publică AT&T, algoritmii Eigenfaces și Fisherfaces au o rată de recunoaștere de 96%, dar această rată este foarte dependentă (printre altele) de numărul de imagini de antrenament. Figura 5 prezintă ratele de recunoaștere ale algoritmilor Eigenfaces și Fisherfaces din baza de date AT&T open face, care este destul de ușor de recunoscut.

Figura 5. Nivelul de recunoaștere al algoritmilor Eigenfaces și Fisherfaces

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Figura arată că pentru a obține o rată de recunoaștere bună sunt necesare cel puțin 8 (+–1) imagini pentru fiecare persoană, iar algoritmul Fisherfaces nu ajută prea mult în acest caz.

Prin urmare, unele cercetări se concentrează pe extragerea caracteristicilor locale din imagini. Ideea nu este de a reprezenta întreaga imagine ca un vector multidimensional, ci de a descrie doar caracteristicile locale ale obiectului. Caracteristicile extrase astfel au o reprezentare cu dimensiuni reduse. Cu toate acestea, reprezentarea imaginilor de intrare suferă nu numai de indicatorii de iluminare, ci și de dimensiunea imaginii, deplasarea sau rotația acesteia. Prin urmare, descrierea locală trebuie să fie robustă la aceste tipuri de modificări. Metodologia modelului binar local are rădăcini în analiza texturii bidimensionale. Ideea principală a metodei este de a rezuma structurile locale de imagine prin compararea fiecărui pixel cu vecinii săi. Un pixel este luat ca centru și valorile vecinilor săi sunt convertite. Dacă intensitatea pixelului vecin este mai mare sau egală cu intensitatea pixelului central, atunci vecinul este marcat cu 1, în caz contrar 0. După transformare, se ia numărul binar rezultat (de exemplu, ca 0010011). Ca urmare, din 8 pixeli vecini se obțin 2 8 combinații posibile, numite modele binare locale (coduri LBP). Primul operator LBP descris în literatură a folosit o fereastră 3x3, un exemplu este prezentat în Figura 6.

Figura 6. Operator LBP

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Această abordare vă permite să capturați detalii fine în imagini. De fapt, autorii au reușit să concureze cu rezultate de ultimă generație în clasificarea texturii. S-a observat curând că dimensiunea fixă ​​a ferestrei nu poate codifica detalii de dimensiuni diferite. Prin urmare, operatorul a fost extins pentru a utiliza dimensiunea variabilă a ferestrei în funcționare. Ideea este de a alinia un număr arbitrar de vecini într-un cerc cu rază variabilă care ar capta modele binare locale, cum ar fi cele prezentate în Figura 7.

Figura 7. Diverse modele binare locale

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Acest operator este o extensie a codurilor LBP originale, așa că uneori este numit LBP extins. Dacă coordonatele punctelor de pe cerc nu corespund cu coordonatele imaginii, punctul este interpolat. Prin definiție, operatorul LBP este rezistent la transformările monotone în tonuri de gri. Acest lucru poate fi văzut în Figura 8, care prezintă imagini LBP ale imaginilor originale modificate artificial.

Figura 8. Robustitatea operatorului LBP la transformări monotone în nuanțe de gri

Sursa: Recunoaștere facială cu documentația OpenCV // OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Tot ce rămâne este să combine informațiile spațiale în modele de recunoaștere a feței. Abordarea propusă în lucrare este de a împărți imaginea LBP în m regiuni locale și de a extrage histograme din fiecare. După care, se obține un vector expandat spațial prin concatenarea histogramelor (nu combinarea). Astfel de histograme se numesc histograme de tip binar local.

Până în prezent, metodele și algoritmii bazați pe rețelele neuronale au mers cel mai departe, cum ar fi DeepFace și FaceNet. Lucrările grupului de geometrie vizuală și ale rețelelor neuronale convoluționale ușoare au avut, de asemenea, o mare contribuție la rezolvarea problemei recunoașterii feței. Rețelele neuronale sunt formate din multe compoziții de funcții sau straturi, urmate de o funcție de pierdere care determină cât de bine modelează rețeaua neuronală datele, adică cât de precis clasifică imaginea. Pentru a rezolva problema recunoașterii feței, un sistem care utilizează o rețea neuronală trebuie să găsească o față într-o imagine folosind una dintre multele metode existente. Apoi, sistemul generează date de intrare normalizate pentru rețeaua neuronală de la fiecare față găsită. Astfel de date sunt prea multidimensionale pentru a le transmite imediat clasificatorului. O rețea neuronală este folosită pentru a extrage caracteristicile principale pentru a oferi o reprezentare cu dimensiuni reduse a datelor care descriu o față. O astfel de reprezentare cu dimensiuni reduse a datelor poate fi deja utilizată eficient în clasificatoare.

De exemplu, algoritmul DeepFace folosește mai întâi modelarea feței 3D pentru a normaliza imaginea de intrare pentru a produce o vedere frontală a feței, chiar dacă fața din fotografie a fost inițial dintr-un unghi diferit. În continuare, algoritmul definește clasificarea ca un strat strâns conectat al unei rețele neuronale cu o funcție Softmax, ceea ce ne permite să obținem o distribuție de probabilitate normalizată ca rezultat. Inovațiile algoritmului DeepFace sunt: ​​alinierea la un model 3D, o rețea neuronală cu 120 de milioane de parametri și antrenament pe 4,4 milioane de imagini ale feței. Odată ce rețeaua neuronală este antrenată pe un număr atât de mare de fețe, stratul de clasificare final este eliminat și rezultatul stratului anterior este folosit ca o reprezentare cu dimensiuni reduse a feței.

Adesea, programele de recunoaștere a feței caută o reprezentare cu dimensiuni reduse care se generalizează bine la fețe noi pe care rețeaua neuronală nu a fost antrenată. Abordarea algoritmului DeepFace face față unei astfel de probleme, dar reprezentarea este o consecință a antrenării rețelei pentru clasificarea de înaltă precizie. Dezavantajul acestei abordări este că reprezentarea rezultată este dificil de utilizat, deoarece fețele unei persoane nu vor fi neapărat. să fie grupați, prin urmare algoritmii de clasificare nu vor beneficia. Funcția triplet-loss din algoritmul FaceNet este definită direct în vizualizare. Figura 9 prezintă procedura de învățare triplet-loss.

Figura 9. Procedura de antrenament triplet-loss

1. Conceptul de imagine

Imagine, clasă - o grupare de clasificare într-un sistem de clasificare care unește (evidențiază) un anumit grup de obiecte după un anumit criteriu.

Percepția imaginativă a lumii este una dintre proprietățile misterioase ale creierului viu, care permite să înțelegem fluxul nesfârșit de informații percepute și să mențină orientarea în oceanul de date disparate despre lumea exterioară. Când percepem lumea exterioară, clasificăm întotdeauna senzațiile percepute, adică le împărțim în grupuri de fenomene similare, dar nu identice. De exemplu, în ciuda diferenței semnificative, un grup include toate literele A scrise cu scrieri de mână diferite sau toate sunetele corespunzătoare aceleiași note jucate în orice octavă și pe orice instrument, iar operatorul care controlează un obiect tehnic include un întreg set de stări obiectul reacționează cu aceeași reacție. Este caracteristic că pentru a formula un concept despre un grup de percepții ale unei anumite clase, este suficient să te familiarizezi cu un număr mic de reprezentanți ai acesteia. Copilului i se poate arăta o scrisoare o singură dată, astfel încât să poată găsi această scrisoare într-un text scris cu fonturi diferite sau să o recunoască, chiar dacă este scrisă într-o formă deformată în mod deliberat. Această proprietate a creierului ne permite să formulăm un astfel de concept ca imagine.

Imaginile au o proprietate caracteristică, care se manifestă prin faptul că familiarizarea cu un număr finit de fenomene din același set face posibilă recunoașterea unui număr arbitrar de mare a reprezentanților săi. Exemple de imagini pot fi: râu, mare, lichid, muzică de Ceaikovski, poezie de Mayakovsky etc. Un anumit set de stări ale unui obiect de control poate fi considerat și ca imagine, iar acest întreg set de stări se caracterizează prin faptul că că pentru a atinge un scop dat, același impact asupra unui obiect. Imaginile au proprietăți obiective caracteristice în sensul că diferiți oameni, instruiți pe material de observație diferit, clasifică în cea mai mare parte aceleași obiecte în același mod și independent unul de celălalt. Această obiectivitate a imaginilor este cea care permite oamenilor din întreaga lume să se înțeleagă.

Capacitatea de a percepe lumea exterioară sub formă de imagini permite recunoașterea cu o anumită fiabilitate a unui număr infinit de obiecte pe baza familiarizării cu un număr finit al acestora, iar natura obiectivă a proprietății principale a imaginilor permite modelarea procesul de recunoaștere a acestora. Fiind o reflectare a realității obiective, conceptul de imagine este la fel de obiectiv ca și realitatea însăși și, prin urmare, acest concept poate fi el însuși obiect de studiu special.

În literatura de specialitate dedicată problemei recunoașterii modelelor de învățare (PR), conceptul de clasă este adesea introdus în locul conceptului de imagine.

2. Problema recunoașterii modelelor de învățare (oro)

Una dintre cele mai interesante proprietăți ale creierului uman este capacitatea de a răspunde la un număr infinit de condiții de mediu cu un număr finit de reacții. Poate că tocmai această proprietate a permis omului să atingă cea mai înaltă formă de existență a materiei vii, exprimată în capacitatea de a gândi, adică de a reflecta în mod activ lumea obiectivă sub formă de imagini, concepte, judecăți etc. Prin urmare, problema a ORR a apărut în studiul proprietăților fiziologice ale creierului .

Să luăm în considerare un exemplu de probleme din domeniul ODO.

Fig 1

Iată 12 sarcini în care ar trebui să selectați funcții care pot fi utilizate pentru a distinge triada stângă de imagini de cea dreaptă. Rezolvarea acestor probleme necesită modelarea completă a gândirii logice.

În general, problema recunoașterii modelelor constă din două părți: antrenament și recunoaștere. Antrenamentul se realizează prin afișarea obiectelor individuale care indică apartenența lor la una sau la alta imagine. Ca urmare a antrenamentului, sistemul de recunoaștere trebuie să dobândească capacitatea de a răspunde cu aceleași reacții la toate obiectele aceleiași imagini și cu reacții diferite la toate obiectele din imagini diferite. Este foarte important ca procesul de învățare să fie finalizat doar prin afișarea unui număr finit de obiecte fără alte solicitări. Obiectele de învățare pot fi fie imagini sau alte imagini vizuale (litere), fie diferite fenomene ale lumii exterioare, de exemplu sunete, starea corpului în timpul unui diagnostic medical, starea unui obiect tehnic în sistemele de control etc. este important ca în timpul procesului de învăţare doar obiectele şi apartenenţa lor la imagine. Antrenamentul este urmat de procesul de recunoaștere a noilor obiecte, care caracterizează acțiunile unui sistem deja antrenat. Automatizarea acestor proceduri este problema recunoașterii modelelor de predare. În cazul în care o persoană o rezolvă sau o inventează ea însăși și apoi impune mașinii o regulă de clasificare, problema recunoașterii este parțial rezolvată, deoarece persoana preia partea principală și principală a problemei (antrenament).

Problema predării recunoașterii modelelor este interesantă atât din punct de vedere aplicat, cât și din punct de vedere fundamental. Din punct de vedere aplicativ, rezolvarea acestei probleme este importantă în primul rând pentru că deschide posibilitatea automatizării multor procese care până acum au fost asociate doar cu activitatea creierului viu. Semnificația fundamentală a problemei este strâns legată de întrebarea care apare din ce în ce mai mult în legătură cu dezvoltarea ideilor în cibernetică: ce poate și ce nu poate face o mașină în mod fundamental? În ce măsură capabilitățile unei mașini pot fi apropiate de cele ale unui creier viu? În special, poate o mașină să dezvolte capacitatea de a adopta o capacitate umană de a efectua anumite acțiuni în funcție de situațiile care apar în mediu? Până acum, a devenit clar doar că dacă o persoană își poate realiza mai întâi abilitățile și apoi o descrie, adică să indice de ce efectuează acțiuni ca răspuns la fiecare stare a mediului extern sau cum (după ce regulă) se combină obiecte individuale în imagini, atunci o astfel de abilitate poate fi transferată la o mașină fără dificultăți fundamentale. Dacă o persoană are o abilitate, dar nu o poate explica, atunci există o singură modalitate de a transfera abilitățile pe o mașină - predarea prin exemple.

Gama de probleme care pot fi rezolvate cu ajutorul sistemelor de recunoaștere este extrem de largă. Aceasta include nu numai sarcinile de recunoaștere a imaginilor vizuale și auditive, ci și sarcinile de recunoaștere a proceselor și fenomenelor complexe care apar, de exemplu, la alegerea acțiunilor adecvate de către șeful unei întreprinderi sau la alegerea managementului optim tehnologic, economic, de transport. sau operațiuni militare. În fiecare dintre aceste sarcini sunt analizate anumite fenomene, procese și stări ale lumii exterioare, care sunt denumite mai jos obiecte de observație. Înainte de a începe să analizați orice obiect, trebuie să obțineți într-un fel anumite informații ordonate despre acesta. Astfel de informații reprezintă caracteristicile obiectelor, afișarea lor pe o varietate de organe perceptive ale sistemului de recunoaștere.

Dar fiecare obiect de observație poate influența diferit, în funcție de condițiile de percepție. De exemplu, orice scrisoare, chiar dacă este scrisă în același mod, poate fi, în principiu, deplasată în orice mod în raport cu organele perceptoare. În plus, obiectele aceleiași imagini pot fi destul de diferite unele de altele și, în mod natural, au efecte diferite asupra organelor perceptive.

Fiecare mapare a unui obiect pe organele perceptive ale sistemului de recunoaștere, indiferent de poziția sa față de aceste organe, este de obicei numită o imagine a obiectului, iar seturile de astfel de imagini, unite prin unele proprietăți comune, sunt imagini.

La rezolvarea problemelor de control folosind metode de recunoaștere a modelelor, termenul „stare” este folosit în locul termenului „imagine”. O stare este o anumită formă de afișare a caracteristicilor curente (sau instantanee) măsurate ale obiectului observat. Setul de stări determină situația. Conceptul de „situație” este analog conceptului de „imagine”. Dar această analogie nu este completă, deoarece nu orice imagine poate fi numită o situație, deși fiecare situație poate fi numită o imagine.

O situație este de obicei numită un anumit set de stări ale unui obiect complex, fiecare dintre acestea fiind caracterizată de aceleași caracteristici sau similare ale obiectului. De exemplu, dacă un anumit obiect de control este considerat ca obiect de observație, atunci situația combină astfel de stări ale acestui obiect în care ar trebui aplicate aceleași acțiuni de control. Dacă obiectul de observație este un joc de război, atunci situația combină toate stările de joc care necesită, de exemplu, o lovitură puternică a tancurilor cu sprijin aerian.

Alegerea descrierii inițiale a obiectelor este una dintre sarcinile centrale ale problemei ODO. Dacă descrierea inițială (spațiul caracteristicilor) este aleasă cu succes, sarcina de recunoaștere se poate dovedi a fi banală și, dimpotrivă, o descriere inițială aleasă fără succes poate duce fie la o prelucrare ulterioară a informațiilor foarte complexă, fie la nicio soluție. De exemplu, dacă se rezolvă problema recunoașterii obiectelor care diferă ca culoare, iar semnalele primite de la senzorii de greutate sunt alese ca descriere inițială, atunci problema recunoașterii nu poate fi rezolvată, în principiu.