Ανοικτά προβλήματα στην αναγνώριση ομιλίας. Διάλεξη στο Yandex. Ανασκόπηση υφιστάμενων μεθόδων αναγνώρισης προτύπων. Η διαχείριση ως εργασία αντίστροφη προς τον προσδιορισμό και την πρόβλεψη

Το πρόβλημα της αναγνώρισης προτύπων καταλήγει σε δύο εργασίες: εκπαίδευση και αναγνώριση. Επομένως, πριν διατυπώσουμε το έργο της διδασκαλίας της αναγνώρισης προτύπων, ας διευκρινίσουμε ποιο είναι το νόημα της αναγνώρισής τους.

Η απλούστερη επιλογή αναγνώρισης είναι αυστηρό αίτημανα αναζητήσει ένα αντικείμενο σε μια βάση δεδομένων με βάση τα χαρακτηριστικά του, το οποίο υλοποιείται σε συστήματα ανάκτησης πληροφοριών. Σε αυτή την περίπτωση, κάθε πεδίο αντιστοιχεί σε ένα χαρακτηριστικό (περιγραφική κλίμακα) και η τιμή του πεδίου αντιστοιχεί στην τιμή του χαρακτηριστικού (διαβάθμιση της περιγραφικής κλίμακας). Εάν υπάρχουν εγγραφές στη βάση δεδομένων, Ολατις τιμές των καθορισμένων πεδίων των οποίων ακριβώςαντιστοιχίστε τις τιμές που καθορίζονται στο αίτημα αναζήτησης, στη συνέχεια αυτές οι εγγραφές ανακτώνται στην αναφορά, διαφορετικά η εγγραφή δεν ανακτάται.

Περισσότερο σύνθετες επιλογέςαναγνώριση είναι ασαφές αίτημα με ελλιπείς πληροφορίες, όταν δεν καθορίζονται όλα τα χαρακτηριστικά των αντικειμένων που αναζητήθηκαν στο αίτημα αναζήτησης, επειδή δεν είναι όλοι γνωστοί και ασαφές ερώτημα με θόρυβο, όταν δεν είναι γνωστά όλα τα χαρακτηριστικά ενός αντικειμένου και ορισμένα θεωρούνται λανθασμένα γνωστά. Σε αυτές τις περιπτώσεις, όλα τα αντικείμενα που έχουν τουλάχιστον μία χαρακτηριστική αντιστοίχιση εξάγονται από τη βάση δεδομένων και στην αναφορά τα αντικείμενα ταξινομούνται (κατατάσσονται) με φθίνουσα σειρά του αριθμού των χαρακτηριστικών που ταιριάζουν. Σε αυτήν την περίπτωση, κατά τον προσδιορισμό της κατάταξης ενός αντικειμένου σε μια ταξινομημένη λίστα, όλα τα χαρακτηριστικά θεωρείται ότι έχουν το ίδιο «βάρος» και λαμβάνεται υπόψη μόνο ο αριθμός τους.

  • - πρώτον, μάλιστα, τα σημάδια έχουν διαφορετικό βάρος, δηλ. την ίδια είσοδο διαφορετικόςο βαθμός είναι χαρακτηριστικός διαφόρων αντικειμένων.
  • - δεύτερον, μπορεί να μας ενδιαφέρουν όχι τόσο τα ίδια τα αντικείμενα, που εξάγονται από τη βάση δεδομένων των προηγούμενων ερωτημάτων, όσο για την ταξινόμηση του ίδιου του ερωτήματος, δηλ. την αντιστοίχιση σε μια συγκεκριμένη κατηγορία, δηλ. σε αυτό ή εκείνο γενικευμένηεικόνα της τάξης.

Εάν η εφαρμογή αυστηρών και ακόμη και ασαφών ερωτημάτων δεν προκαλεί ιδιαίτερες δυσκολίες, τότε η αναγνώριση ως ταύτιση με γενικευμένες εικόνες κλάσεων, λαμβάνοντας υπόψη τις διαφορές στα βάρη των χαρακτηριστικών, δημιουργεί ένα συγκεκριμένο πρόβλημα.

Η εκπαίδευση πραγματοποιείται με την παρουσίαση στο σύστημα μεμονωμένων αντικειμένων που περιγράφονται στη γλώσσα των σημείων, υποδεικνύοντας ότι ανήκουν σε μια ή την άλλη τάξη. Ταυτόχρονα, το ίδιο το ότι ανήκει σε τάξεις κοινοποιείται στο σύστημα από ένα άτομο - Δάσκαλο (ειδικό).

Ως αποτέλεσμα της εκπαίδευσης, το σύστημα αναγνώρισης θα πρέπει να αποκτήσει την ικανότητα:

  • 1. Συσχετίστε τα αντικείμενα με τις κλάσεις στις οποίες ανήκουν (να αναγνωρίσετε σωστά τα αντικείμενα).
  • 2. Μην εκχωρείτε αντικείμενα σε κλάσεις στις οποίες δεν ανήκουν (η αποτυχία αναγνώρισης αντικειμένων είναι λάθος).

Αυτό είναι το πρόβλημα της αναγνώρισης προτύπων διδασκαλίας και αποτελείται από τα ακόλουθα:

  • 1. Στην ανάπτυξη μαθηματικό μοντέλο, παρέχοντας: γενίκευση εικόνων συγκεκριμένων αντικειμένων και σχηματισμό γενικευμένων εικόνων κλάσεων. υπολογισμός βαρών χαρακτηριστικών. προσδιορισμός του βαθμού ομοιότητας συγκεκριμένων αντικειμένων με κλάσεις και κατάταξη τάξεων σύμφωνα με τον βαθμό ομοιότητας με ένα συγκεκριμένο αντικείμενο, συμπεριλαμβανομένων τόσο της θετικής όσο και της αρνητικής ομοιότητας.
  • 2. Συμπληρώνοντας αυτό το μοντέλο με συγκεκριμένες πληροφορίες που χαρακτηρίζουν μια συγκεκριμένη θεματική περιοχή.
  • Φροντιστήριο

Ήθελα από καιρό να γράψω ένα γενικό άρθρο που να περιέχει τα βασικά της Αναγνώρισης Εικόνας, ένα είδος οδηγού για βασικές μεθόδους, λέγοντάς σας πότε να τα χρησιμοποιήσετε, ποια προβλήματα λύνουν, τι μπορείτε να κάνετε το βράδυ στα γόνατά σας και τι είναι καλύτερο να μην σκέφτεστε χωρίς να έχετε μια ομάδα 20 ατόμων.

Γράφω μερικά άρθρα σχετικά με την Οπτική Αναγνώριση εδώ και πολύ καιρό, έτσι οι άνθρωποι μου γράφουν μερικές φορές το μήνα διάφορα άτομαμε ερωτήσεις για αυτό το θέμα. Μερικές φορές έχεις την αίσθηση ότι ζεις μαζί τους διαφορετικούς κόσμους. Από τη μία, καταλαβαίνετε ότι το άτομο είναι πιθανότατα επαγγελματίας σε ένα σχετικό θέμα, αλλά γνωρίζει πολύ λίγα για τις μεθόδους οπτικής αναγνώρισης. Και το πιο ενοχλητικό είναι ότι προσπαθεί να εφαρμόσει μια μέθοδο από ένα κοντινό γνωστικό πεδίο, κάτι που είναι λογικό, αλλά δεν λειτουργεί πλήρως στην Αναγνώριση εικόνας, αλλά δεν το καταλαβαίνει και προσβάλλεται πολύ αν αρχίσετε να του λέτε κάτι από τα πολύ βασικά. Και λαμβάνοντας υπόψη ότι η αφήγηση από τα βασικά απαιτεί πολύ χρόνο, ο οποίος συχνά δεν είναι διαθέσιμος, γίνεται ακόμα πιο λυπηρό.

Αυτό το άρθρο προορίζεται έτσι ώστε ένα άτομο που δεν έχει εργαστεί ποτέ με μεθόδους αναγνώρισης εικόνας μπορεί, μέσα σε 10-15 λεπτά, να δημιουργήσει στο κεφάλι του μια συγκεκριμένη βασική εικόνα του κόσμου που αντιστοιχεί στο θέμα και να καταλάβει προς ποια κατεύθυνση να σκάψει. Πολλές από τις τεχνικές που περιγράφονται εδώ είναι εφαρμόσιμες στην επεξεργασία ραντάρ και ήχου.
Θα ξεκινήσω με μερικές αρχές που αρχίζουμε πάντα να λέμε σε έναν πιθανό πελάτη ή σε ένα άτομο που θέλει να αρχίσει να κάνει την Οπτική Αναγνώριση:

  • Όταν λύνετε ένα πρόβλημα, πηγαίνετε πάντα από το πιο απλό. Είναι πολύ πιο εύκολο να βάλεις ετικέτα σε ένα άτομο πορτοκαλί χρώμαπαρά να ακολουθείς ένα άτομο, αναδεικνύοντάς τον σε καταρράκτες. Είναι πολύ πιο εύκολο να πάρεις την κάμερα υψηλής ανάλυσηςπαρά να αναπτύξει έναν αλγόριθμο υπερ-ανάλυσης.
  • Μια αυστηρή διατύπωση του προβλήματος στις μεθόδους οπτικής αναγνώρισης είναι τάξεις μεγέθους πιο σημαντική από ό,τι στα προβλήματα προγραμματισμού συστημάτων: ένα περιττή λέξημπορεί να προσθέσει το 50% της εργασίας στις τεχνικές προδιαγραφές.
  • Δεν υπάρχουν καθολικές λύσεις στα προβλήματα αναγνώρισης. Δεν μπορείτε να φτιάξετε έναν αλγόριθμο που απλώς θα "αναγνωρίζει οποιαδήποτε επιγραφή". Μια πινακίδα στο δρόμο και ένα φύλλο κειμένου είναι θεμελιωδώς διαφορετικά αντικείμενα. Μάλλον μπορεί να γίνει γενικός αλγόριθμος(καλό παράδειγμα από την Google), αλλά θα χρειαστεί πολλή δουλειά μεγάλη ομάδακαι αποτελούνται από δεκάδες διαφορετικές υπορουτίνες.
  • Το OpenCV είναι μια Βίβλος που έχει πολλές μεθόδους και μπορεί να λύσει το 50% σχεδόν κάθε προβλήματος, αλλά το OpenCV είναι μόνο ένα μικρό μέρος του τι μπορεί πραγματικά να γίνει. Σε μια μελέτη, γράφτηκαν τα συμπεράσματα: «Το πρόβλημα δεν μπορεί να λυθεί χρησιμοποιώντας μεθόδους OpenCV, επομένως είναι άλυτο». Προσπαθήστε να το αποφύγετε, μην είστε τεμπέλης και αξιολογήστε νηφάλια την τρέχουσα εργασία από την αρχή κάθε φορά, χωρίς να χρησιμοποιείτε πρότυπα OpenCV.
Είναι πολύ δύσκολο να δώσεις κανένα καθολική συμβουλή, ή πείτε μας πώς να δημιουργήσουμε κάποιο είδος δομής γύρω από την οποία μπορείτε να δημιουργήσετε μια λύση σε αυθαίρετα προβλήματα όραση υπολογιστή. Ο σκοπός αυτού του άρθρου είναι να δομήσει τι μπορεί να χρησιμοποιηθεί. Θα προσπαθήσω να το σπάσω υπάρχουσες μεθόδουςσε τρεις ομάδες. Η πρώτη ομάδα είναι το προκαταρκτικό φιλτράρισμα και η προετοιμασία εικόνας. Η δεύτερη ομάδα είναι η λογική επεξεργασία των αποτελεσμάτων φιλτραρίσματος. Η τρίτη ομάδα είναι οι αλγόριθμοι λήψης αποφάσεων που βασίζονται στη λογική επεξεργασία. Τα όρια μεταξύ των ομάδων είναι πολύ αυθαίρετα. Για να λυθεί ένα πρόβλημα, δεν είναι πάντα απαραίτητο να χρησιμοποιείτε μεθόδους από όλες τις ομάδες μερικές φορές αρκούν δύο και μερικές φορές ακόμη και μία.

Ο κατάλογος των μεθόδων που δίνονται εδώ δεν είναι πλήρης. Προτείνω να προσθέσω κριτικές μεθόδους στα σχόλια που δεν έγραψα και να αποδώσω 2-3 συνοδευτικές λέξεις στο καθένα.

Μέρος 1. Διήθηση

Σε αυτήν την ομάδα τοποθέτησα μεθόδους που σας επιτρέπουν να επιλέξετε περιοχές ενδιαφέροντος σε εικόνες χωρίς να τις αναλύσετε. Οι περισσότερες από αυτές τις μεθόδους εφαρμόζουν κάποιου είδους μεμονωμένο μετασχηματισμό σε όλα τα σημεία της εικόνας. Σε επίπεδο φιλτραρίσματος δεν πραγματοποιείται ανάλυση εικόνας, αλλά τα σημεία που περνούν το φιλτράρισμα μπορούν να θεωρηθούν ως περιοχές με ιδιαίτερα χαρακτηριστικά.
Δυαδοποίηση κατά ουδό, επιλογή περιοχής ιστογράμματος
Ο απλούστερος μετασχηματισμός είναι η δυαδοποίηση της εικόνας κατά ουδό. Για Εικόνες RGBκαι εικόνες σε κλίμακα του γκρι, το όριο είναι η τιμή χρώματος. Υπάρχουν ιδανικά προβλήματα στα οποία αρκεί ένας τέτοιος μετασχηματισμός. Ας υποθέσουμε ότι θέλετε να επιλέξετε αυτόματα αντικείμενα σε ένα λευκό φύλλο χαρτιού:




Η επιλογή του ορίου στο οποίο λαμβάνει χώρα η δυαδοποίηση καθορίζει σε μεγάλο βαθμό την ίδια τη διαδικασία της δυαδοποίησης. Σε αυτήν την περίπτωση, η εικόνα δυαδοποιήθηκε με το μέσο χρώμα. Συνήθως, η δυαδοποίηση πραγματοποιείται χρησιμοποιώντας έναν αλγόριθμο που επιλέγει προσαρμοστικά ένα όριο. Ένας τέτοιος αλγόριθμος μπορεί να είναι η επιλογή της προσδοκίας ή του τρόπου λειτουργίας. Ή μπορείτε να επιλέξετε τη μεγαλύτερη κορυφή στο ιστόγραμμα.

Η δυαδοποίηση μπορεί να προσφέρει πολύ ενδιαφέροντα αποτελέσματαόταν εργάζεστε με ιστογράμματα, συμπεριλαμβανομένης της κατάστασης όπου θεωρούμε μια εικόνα όχι σε RGB, αλλά σε HSV. Για παράδειγμα, τμηματοποιήστε τα χρώματα ενδιαφέροντος. Με βάση αυτή την αρχή, μπορείτε να δημιουργήσετε τόσο έναν ανιχνευτή ετικετών όσο και έναν ανιχνευτή ανθρώπινου δέρματος.
Κλασικό φιλτράρισμα: Fourier, φίλτρο χαμηλής διέλευσης, φίλτρο υψηλής διέλευσης
Οι κλασικές μέθοδοι φιλτραρίσματος ραντάρ και επεξεργασίας σήματος μπορούν να εφαρμοστούν με επιτυχία σε μια ποικιλία εργασιών αναγνώρισης προτύπων. Παραδοσιακή μέθοδοςστο ραντάρ, το οποίο σχεδόν ποτέ δεν χρησιμοποιείται σε εικόνες στο καθαρή μορφή, είναι ο μετασχηματισμός Fourier (πιο συγκεκριμένα, ο FFT). Μία από τις λίγες εξαιρέσεις στις οποίες χρησιμοποιείται ο μονοδιάστατος μετασχηματισμός Fourier είναι η συμπίεση εικόνας. Για την ανάλυση εικόνας, συνήθως δεν αρκεί ένας μονοδιάστατος μετασχηματισμός.

Λίγοι το υπολογίζουν στην πραγματικότητα, είναι πολύ πιο γρήγορο και πιο εύκολο να χρησιμοποιηθεί η συνέλιξη της περιοχής ενδιαφέροντος με ένα έτοιμο φίλτρο, ρυθμισμένο για υψηλές (HPF) ή χαμηλές (LPF) συχνότητες. Αυτή η μέθοδος, φυσικά, δεν επιτρέπει την ανάλυση φάσματος, αλλά σε συγκεκριμένο έργοΗ επεξεργασία βίντεο συνήθως δεν απαιτεί ανάλυση, αλλά αποτελέσματα.


Το περισσότερο απλά παραδείγματαφίλτρα που εφαρμόζουν την υπογράμμιση χαμηλές συχνότητες(φίλτρο Gauss) και υψηλές συχνότητες (φίλτρο Gabor).
Για κάθε σημείο εικόνας, επιλέγεται ένα παράθυρο και πολλαπλασιάζεται με ένα φίλτρο ίδιου μεγέθους. Το αποτέλεσμα μιας τέτοιας συνέλιξης είναι μια νέα τιμή σημείου. Κατά την εφαρμογή φίλτρων χαμηλής διέλευσης και φίλτρων υψηλής διέλευσης, λαμβάνονται εικόνες του ακόλουθου τύπου:



Κυματίδια
Τι γίνεται όμως αν χρησιμοποιήσουμε κάποια αυθαίρετη χαρακτηριστική συνάρτηση για συνέλιξη με το σήμα; Τότε θα ονομάζεται "Μετασχηματισμός κυματιδίων". Αυτός ο ορισμός των κυματιδίων δεν είναι σωστός, αλλά παραδοσιακά, σε πολλές ομάδες, η ανάλυση κυματιδίων είναι η αναζήτηση ενός αυθαίρετου σχεδίου σε μια εικόνα χρησιμοποιώντας συνέλιξη με ένα μοντέλο αυτού του σχεδίου. Υπάρχει ένα σύνολο κλασικών συναρτήσεων που χρησιμοποιούνται στην ανάλυση κυματιδίων. Αυτά περιλαμβάνουν το κυματίδιο Haar, το κυματίδιο Morlet, το κυματίδιο μεξικανικού καπέλου κ.λπ. Τα πρωτόγονα Haar, για τα οποία υπήρχαν αρκετά από τα προηγούμενα άρθρα μου (,), σχετίζονται με τέτοιες λειτουργίες για το δισδιάστατο χώρο.


Παραπάνω είναι 4 παραδείγματα κλασικών κυματιδίων. Τρισδιάστατο κυματίδιο Haar, 2-διάστατο κυματίδιο Meyer, κυματίδιο Mexican Hat, κυματίδιο Daubechies. Ένα καλό παράδειγμαΗ χρήση μιας εκτεταμένης ερμηνείας των κυματιδίων είναι το πρόβλημα της εύρεσης μιας αντανάκλασης στο μάτι, για την οποία το κυματίδιο είναι η ίδια η λάμψη:

Τα κλασικά κυματίδια χρησιμοποιούνται συνήθως για ή για την ταξινόμησή τους (θα περιγραφεί παρακάτω).
Συσχέτιση
Μετά από μια τέτοια ελεύθερη ερμηνεία των κυματιδίων από την πλευρά μου, αξίζει να αναφέρω την πραγματική συσχέτιση που κρύβεται πίσω από αυτά. Όταν φιλτράρετε εικόνες αυτό απαραίτητο εργαλείο. Μια κλασική εφαρμογή συσχετίζει μια ροή βίντεο για να βρει μετατοπίσεις ή οπτικές ροές. Ο απλούστερος ανιχνευτής μετατόπισης είναι επίσης, κατά μία έννοια, ένας συσχετιστής διαφοράς. Όπου οι εικόνες δεν συσχετίστηκαν, υπήρχε κίνηση.

Λειτουργίες φιλτραρίσματος
Μια ενδιαφέρουσα κατηγορία φίλτρων είναι το φιλτράρισμα συναρτήσεων. Αυτά είναι καθαρά μαθηματικά φίλτρα που σας επιτρέπουν να ανιχνεύσετε απλά μαθηματική συνάρτησηστην εικόνα (ευθεία γραμμή, παραβολή, κύκλος). Κατασκευάζεται μια συσσωρευτική εικόνα στην οποία για κάθε σημείο πρωτότυπη εικόνασχεδιάζονται πολλές συναρτήσεις που το δημιουργούν. Ο πιο κλασικός μετασχηματισμός είναι ο μετασχηματισμός Hough για γραμμές. Σε αυτόν τον μετασχηματισμό, για κάθε σημείο (x;y), σχεδιάζεται ένα σύνολο σημείων (a;b) της ευθείας y=ax+b για τα οποία ισχύει η ισότητα. Παίρνετε όμορφες φωτογραφίες:


(το πρώτο πλεονέκτημα είναι σε αυτόν που είναι ο πρώτος που θα βρει μια σύλληψη στην εικόνα και αυτόν τον ορισμό και θα το εξηγήσει, το δεύτερο συν είναι σε αυτόν που είναι ο πρώτος που θα πει αυτό που φαίνεται εδώ)
Ο μετασχηματισμός Hough σάς επιτρέπει να βρείτε οποιεσδήποτε παραμετροποιήσιμες συναρτήσεις. Για παράδειγμα κύκλοι. Υπάρχει ένας τροποποιημένος μετασχηματισμός που σας επιτρέπει να αναζητήσετε οποιοδήποτε . Οι μαθηματικοί λατρεύουν τρομερά αυτόν τον μετασχηματισμό. Αλλά κατά την επεξεργασία εικόνων, δυστυχώς, δεν λειτουργεί πάντα. Πολύ χαμηλή ταχύτητα λειτουργίας, πολύ υψηλή ευαισθησία στην ποιότητα της δυαδοποίησης. Ακόμη και σε ιδανικές καταστάσεις, προτιμούσα να αρκούμαι με άλλες μεθόδους.
Ένα ανάλογο του μετασχηματισμού Hough για ευθείες γραμμές είναι ο μετασχηματισμός ραδονίου. Υπολογίζεται μέσω του FFT, το οποίο δίνει κέρδος απόδοσης σε μια κατάσταση όπου υπάρχουν πολλοί πόντοι. Επιπλέον, μπορεί να εφαρμοστεί σε μια μη δυαδική εικόνα.
Φιλτράρισμα περιγράμματος
Μια ξεχωριστή κατηγορία φίλτρων είναι το φιλτράρισμα περιγράμματος και περιγράμματος. Τα περιγράμματα είναι πολύ χρήσιμα όταν θέλουμε να περάσουμε από την εργασία με μια εικόνα στην εργασία με τα αντικείμενα αυτής της εικόνας. Όταν ένα αντικείμενο είναι αρκετά περίπλοκο, αλλά διακρίνεται καλά, τότε συχνά ο μόνος τρόποςη συνεργασία με αυτό είναι να τονίσει τα περιγράμματά του. Υπάρχει μια σειρά από αλγόριθμους επίλυση του προβλήματοςκυκλώματα φιλτραρίσματος:

Τις περισσότερες φορές χρησιμοποιείται το Canny, το οποίο λειτουργεί καλά και του οποίου η εφαρμογή είναι στο OpenCV (το Sobel είναι επίσης εκεί, αλλά ψάχνει για περιγράμματα χειρότερα).



Άλλα φίλτρα
Παραπάνω υπάρχουν φίλτρα των οποίων οι τροποποιήσεις βοηθούν στην επίλυση του 80-90% των προβλημάτων. Αλλά εκτός από αυτά, υπάρχουν πιο σπάνια φίλτρα που χρησιμοποιούνται σε τοπικές εργασίες. Υπάρχουν δεκάδες τέτοια φίλτρα, δεν θα τα απαριθμήσω όλα. Ενδιαφέροντα είναι τα επαναληπτικά φίλτρα (για παράδειγμα), καθώς και οι μετασχηματισμοί ραβδώσεων και καμπυλών, οι οποίοι είναι μια συγχώνευση κλασικού φιλτραρίσματος κυματιδίων και ανάλυσης στο πεδίο μετασχηματισμού ραδονίου. Ο μετασχηματισμός beamlet λειτουργεί όμορφα στο όριο του μετασχηματισμού wavelet και της λογικής ανάλυσης, επιτρέποντάς σας να τονίσετε τα περιγράμματα:

Αλλά αυτοί οι μετασχηματισμοί είναι πολύ συγκεκριμένοι και προσαρμοσμένοι για σπάνιες εργασίες.

Μέρος 2. Λογική επεξεργασία των αποτελεσμάτων φιλτραρίσματος

Το φιλτράρισμα παρέχει ένα σύνολο δεδομένων κατάλληλα για επεξεργασία. Αλλά συχνά δεν μπορείτε απλά να λάβετε και να χρησιμοποιήσετε αυτά τα δεδομένα χωρίς να τα επεξεργαστείτε. Σε αυτήν την ενότητα θα υπάρχουν αρκετές κλασικές μέθοδοι που σας επιτρέπουν να μετακινηθείτε από μια εικόνα στις ιδιότητες των αντικειμένων ή στα ίδια τα αντικείμενα.
Μορφολογία
Η μετάβαση από το φιλτράρισμα στη λογική, κατά τη γνώμη μου, είναι οι μέθοδοι της μαθηματικής μορφολογίας (,). Στην ουσία, αυτές είναι οι απλούστερες λειτουργίες ανάπτυξης και διάβρωσης δυαδικών εικόνων. Αυτές οι μέθοδοι σάς επιτρέπουν να αφαιρέσετε το θόρυβο από μια δυαδική εικόνα αυξάνοντας ή μειώνοντας τα υπάρχοντα στοιχεία. Υπάρχουν αλγόριθμοι διαμόρφωσης περιγράμματος που βασίζονται στη μαθηματική μορφολογία, αλλά συνήθως χρησιμοποιούνται κάποιου είδους υβριδικοί αλγόριθμοι ή αλγόριθμοι σε συνδυασμό.
Ανάλυση περιγράμματος
Οι αλγόριθμοι για τη λήψη ορίων έχουν ήδη αναφερθεί στην ενότητα για το φιλτράρισμα. Τα όρια που προκύπτουν μετατρέπονται πολύ απλά σε περιγράμματα. Για τον αλγόριθμο Canny αυτό συμβαίνει αυτόματα για άλλους αλγόριθμους απαιτείται πρόσθετη δυαδοποίηση. Μπορείτε να αποκτήσετε ένα περίγραμμα για έναν δυαδικό αλγόριθμο, για παράδειγμα, χρησιμοποιώντας τον αλγόριθμο σκαθαριού.
Ένα περίγραμμα είναι ένα μοναδικό χαρακτηριστικό ενός αντικειμένου. Αυτό σας επιτρέπει συχνά να αναγνωρίσετε ένα αντικείμενο από το περίγραμμά του. Υπάρχει μια ισχυρή μαθηματική συσκευή που σας επιτρέπει να το κάνετε αυτό. Η συσκευή ονομάζεται ανάλυση περιγράμματος (,).

Για να είμαι ειλικρινής, δεν μπόρεσα ποτέ να εφαρμόσω την ανάλυση περιγράμματος πραγματικά προβλήματα. Απαιτούνται υπερβολικά ιδανικές συνθήκες. Είτε δεν υπάρχει όριο, είτε υπάρχει πολύς θόρυβος. Αλλά, αν χρειάζεται να αναγνωρίσετε κάτι μέσα ιδανικές συνθήκες- τότε η ανάλυση περιγράμματος είναι μια υπέροχη επιλογή. Λειτουργεί πολύ γρήγορα, όμορφα μαθηματικά και καθαρή λογική.
Ειδικά σημεία
Τα ειδικά σημεία είναι μοναδικά χαρακτηριστικάαντικείμενα, τα οποία επιτρέπουν σε ένα αντικείμενο να συγκριθεί με τον εαυτό του ή με παρόμοιες κατηγορίες αντικειμένων. Υπάρχουν πολλές δεκάδες τρόποι εντοπισμού τέτοιων σημείων. Ορισμένες μέθοδοι προσδιορίζουν ειδικά σημεία σε παρακείμενα καρέ, άλλες μετά από μεγάλο χρονικό διάστημα και όταν αλλάζει ο φωτισμός, ορισμένες σας επιτρέπουν να βρείτε ειδικά σημεία που παραμένουν έτσι ακόμα και όταν το αντικείμενο περιστρέφεται. Ας ξεκινήσουμε με μεθόδους που μας επιτρέπουν να βρούμε ειδικά σημεία, τα οποία δεν είναι τόσο σταθερά, αλλά υπολογίζονται γρήγορα, και στη συνέχεια θα προχωρήσουμε σε αυξανόμενη πολυπλοκότητα:
Πρώτη τάξη. Ειδικά σημεία που είναι σταθερά σε διάστημα δευτερολέπτων.Τέτοια σημεία χρησιμοποιούνται για την καθοδήγηση ενός αντικειμένου μεταξύ γειτονικών καρέ βίντεο ή για το συνδυασμό εικόνων από γειτονικές κάμερες. Τέτοια σημεία περιλαμβάνουν τοπικά μέγιστα της εικόνας, γωνίες στην εικόνα (ο καλύτερος ανιχνευτής είναι, ίσως, ο ανιχνευτής Charis), σημεία στα οποία επιτυγχάνεται η μέγιστη διασπορά, ορισμένες κλίσεις κ.λπ.
ΔΕΥΤΕΡΗ ταξη. Ειδικά σημεία που είναι σταθερά όταν αλλάζει ο φωτισμός και μικρές κινήσεις του αντικειμένου.Τέτοια σημεία χρησιμεύουν κυρίως για εκπαίδευση και επακόλουθη ταξινόμηση τύπων αντικειμένων. Για παράδειγμα, ένας ταξινομητής πεζών ή ένας ταξινομητής προσώπου είναι το προϊόν ενός συστήματος χτισμένου ακριβώς σε τέτοια σημεία. Μερικά από τα προαναφερθέντα κυματίδια μπορεί να είναι η βάση για τέτοια σημεία. Για παράδειγμα, Haar primitives, αναζήτηση για επισημάνσεις, αναζήτηση για άλλες συγκεκριμένες λειτουργίες. Αυτά τα σημεία περιλαμβάνουν εκείνα που βρέθηκαν με τη μέθοδο ιστόγραμμα κατευθυντικών κλίσεων (HOG).
Τρίτης τάξεως. Σταθερά σημεία.Ξέρω μόνο για δύο μεθόδους που παρέχουν πλήρη σταθερότητα και για τις τροποποιήσεις τους. Αυτό και . Σας επιτρέπουν να βρείτε ειδικά σημεία ακόμα και όταν περιστρέφετε την εικόνα. Ο υπολογισμός τέτοιων σημείων διαρκεί περισσότερο σε σύγκριση με άλλες μεθόδους, αλλά ο χρόνος είναι αρκετά περιορισμένος. Δυστυχώς, αυτές οι μέθοδοι είναι πατενταρισμένες. Αν και, στη Ρωσία είναι αδύνατο να κατοχυρωθούν με δίπλωμα ευρεσιτεχνίας αλγόριθμοι, έτσι για εγχώρια αγοράχρησιμοποιησετο.

Μέρος 3. Εκπαίδευση

Το τρίτο μέρος της ιστορίας θα είναι αφιερωμένο σε μεθόδους που δεν λειτουργούν άμεσα με την εικόνα, αλλά σας επιτρέπουν να λαμβάνετε αποφάσεις. Κυρίως διάφορες μεθόδους μηχανική μάθησηκαι λήψη αποφάσεων. Πρόσφατα το Yandyx δημοσίευσε στο Habr σχετικά με αυτό το θέμα, είναι πολύ καλή επιλογή. Εδώ είναι στην έκδοση κειμένου. Για μια σοβαρή μελέτη του θέματος, συνιστώ ανεπιφύλακτα να τα παρακολουθήσετε. Εδώ θα προσπαθήσω να περιγράψω διάφορες κύριες μεθόδους που χρησιμοποιούνται ειδικά στην αναγνώριση προτύπων.
Στο 80% των περιπτώσεων, η ουσία της μάθησης στην εργασία αναγνώρισης είναι η εξής:
Υπάρχει ένα δείγμα δοκιμής που περιέχει πολλές κατηγορίες αντικειμένων. Ας είναι η παρουσία/απουσία ενός ατόμου στη φωτογραφία. Για κάθε εικόνα υπάρχει ένα σύνολο χαρακτηριστικών που έχουν επισημανθεί από κάποιο χαρακτηριστικό, είτε είναι Haar, HOG, SURF ή κάποιο wavelet. Ο αλγόριθμος εκμάθησης πρέπει να δημιουργήσει ένα μοντέλο έτσι ώστε να μπορεί να αναλύσει μια νέα εικόνα και να αποφασίσει ποιο αντικείμενο βρίσκεται στην εικόνα.
Πώς γίνεται; Κάθε μία από τις δοκιμαστικές εικόνες είναι ένα σημείο στο χώρο χαρακτηριστικών. Οι συντεταγμένες του είναι το βάρος καθενός από τα χαρακτηριστικά της εικόνας. Ας είναι τα ζώδια μας: «Παρουσία ματιών», «Παρουσία μύτης», «Παρουσία δύο χεριών», «Παρουσία αυτιών» κλπ... Όλα αυτά τα σημάδια θα τα αναδείξουμε χρησιμοποιώντας τους υπάρχοντες ανιχνευτές μας, οι οποίοι είναι εκπαιδευμένοι σε μέρη του σώματος παρόμοια με του ανθρώπου Για ένα άτομο σε έναν τέτοιο χώρο, το σωστό σημείο θα ήταν . Για τη μαϊμού, τελεία για το άλογο. Ο ταξινομητής εκπαιδεύεται χρησιμοποιώντας ένα δείγμα παραδειγμάτων. Αλλά δεν έδειχναν όλες οι φωτογραφίες χέρια, άλλες δεν είχαν μάτια και στην τρίτη, ο πίθηκος είχε ανθρώπινη μύτη λόγω σφάλματος ταξινομητή. Ένας εκπαιδευμένος ανθρώπινος ταξινομητής χωρίζει αυτόματα τον χώρο χαρακτηριστικών με τέτοιο τρόπο ώστε να λέει: εάν το πρώτο χαρακτηριστικό βρίσκεται στην περιοχή 0,5 Ουσιαστικά, ο στόχος του ταξινομητή είναι να σχεδιάσει περιοχές στον χώρο χαρακτηριστικών που είναι χαρακτηριστικά των αντικειμένων ταξινόμησης. Έτσι θα μοιάζει μια διαδοχική προσέγγιση της απάντησης για έναν από τους ταξινομητές (AdaBoost) σε δισδιάστατο χώρο:


Υπάρχουν πολλοί ταξινομητές. Κάθε ένα από αυτά λειτουργεί καλύτερα σε κάποια συγκεκριμένη εργασία. Το έργο της επιλογής ενός ταξινομητή για μια συγκεκριμένη εργασία είναι σε μεγάλο βαθμό μια τέχνη. Εδώ είναι μερικές όμορφες εικόνες σχετικά με το θέμα.
Απλή θήκη, μονοδιάστατος διαχωρισμός
Ας δούμε ένα παράδειγμα της απλούστερης περίπτωσης ταξινόμησης, όταν ο χώρος χαρακτηριστικών είναι μονοδιάστατος και πρέπει να διαχωρίσουμε 2 κλάσεις. Η κατάσταση εμφανίζεται πιο συχνά από όσο νομίζετε: για παράδειγμα, όταν πρέπει να διακρίνετε δύο σήματα ή να συγκρίνετε ένα μοτίβο με ένα δείγμα. Ας έχουμε ένα δείγμα προπόνησης. Αυτό παράγει μια εικόνα όπου ο άξονας Χ είναι το μέτρο της ομοιότητας και ο άξονας Υ είναι ο αριθμός των γεγονότων με ένα τέτοιο μέτρο. Όταν το επιθυμητό αντικείμενο είναι παρόμοιο με τον εαυτό του, προκύπτει ένα αριστερό Gaussian. Όταν δεν μοιάζει - το σωστό. Η τιμή X=0,4 διαχωρίζει τα δείγματα έτσι ώστε μια λανθασμένη απόφαση ελαχιστοποιεί την πιθανότητα λήψης οποιασδήποτε λανθασμένης απόφασης. Η αναζήτηση ενός τέτοιου διαχωριστή είναι το καθήκον της ταξινόμησης.


Μια μικρή σημείωση. Το κριτήριο που ελαχιστοποιεί το σφάλμα δεν θα είναι πάντα το βέλτιστο. Το παρακάτω γράφημα είναι ένα γράφημα ενός πραγματικού συστήματος αναγνώρισης ίριδας. Για ένα τέτοιο σύστημα, το κριτήριο επιλέγεται για την ελαχιστοποίηση της πιθανότητας ψευδούς εισαγωγής ενός μη εξουσιοδοτημένου ατόμου στην εγκατάσταση. Αυτή η πιθανότητα ονομάζεται «σφάλμα τύπου Ι», «πιθανότητα ψευδούς συναγερμού», «ψευδώς θετική». Στην αγγλόφωνη βιβλιογραφία “False Access Rate”.
) Το AdaBusta είναι ένας από τους πιο συνηθισμένους ταξινομητές. Για παράδειγμα, ο καταρράκτης Haar είναι χτισμένος πάνω του. Συνήθως χρησιμοποιείται όταν απαιτείται δυαδική ταξινόμηση, αλλά τίποτα δεν εμποδίζει την εκπαίδευση για μεγαλύτερο αριθμό τάξεων.
SVM ( , , , ) Ένας από τους πιο ισχυρούς ταξινομητές, ο οποίος έχει πολλές υλοποιήσεις. Βασικά, στις μαθησιακές εργασίες που έχω συναντήσει, λειτούργησε παρόμοια με το Adabusta. Θεωρείται αρκετά γρήγορο, αλλά η εκπαίδευσή του είναι πιο δύσκολη από αυτή του Adabusta και απαιτεί την επιλογή του σωστού πυρήνα.

Υπάρχουν επίσης νευρωνικά δίκτυα και παλινδρόμηση. Αλλά για να τα ταξινομήσουμε εν συντομία και να δείξουμε πώς διαφέρουν, χρειαζόμαστε ένα άρθρο πολύ μεγαλύτερο από αυτό.
________________________________________________
Ελπίζω να μπόρεσα να δώσω μια γρήγορη επισκόπηση των μεθόδων που χρησιμοποιήθηκαν χωρίς να εμβαθύνω στα μαθηματικά και την περιγραφή. Ίσως αυτό βοηθήσει κάποιον. Αν και, φυσικά, το άρθρο είναι ημιτελές και δεν υπάρχει λέξη για την εργασία με στερεοφωνικές εικόνες, ούτε για LSM με φίλτρο Kalman, ούτε για την προσαρμοστική προσέγγιση Bayes.
Εάν σας αρέσει το άρθρο, θα προσπαθήσω να κάνω ένα δεύτερο μέρος με μια επιλογή παραδειγμάτων για το πώς επιλύονται τα υπάρχοντα προβλήματα Αναγνώρισης εικόνας.

Και τελικά

Τι να διαβάσω;
1) Κάποτε μου άρεσε πολύ το βιβλίο “Digital Image Processing” του B. Yane, το οποίο είναι γραμμένο απλά και καθαρά, αλλά ταυτόχρονα δίνονται σχεδόν όλα τα μαθηματικά. Καλό για να γνωρίσετε τις υπάρχουσες μεθόδους.
2) Κλασικό του είδους είναι οι R. Gonzalez, R. Woods “Digital Image Processing”. Για κάποιο λόγο μου ήταν πιο δύσκολο από τον πρώτο. Πολύ λιγότερα μαθηματικά, αλλά περισσότερες μέθοδοι και εικόνες.
3) «Επεξεργασία και ανάλυση εικόνας σε προβλήματα όρασης υπολογιστή» - γραμμένο με βάση ένα μάθημα που διδάσκεται σε ένα από τα τμήματα Φυσικής και Τεχνολογίας. Υπάρχουν πολλές μέθοδοι και οι λεπτομερείς περιγραφές τους. Αλλά κατά τη γνώμη μου, το βιβλίο έχει δύο μεγάλα μειονεκτήματα: το βιβλίο επικεντρώνεται έντονα στο πακέτο λογισμικού που συνοδεύει το βιβλίο, πολύ συχνά η περιγραφή μιας απλής μεθόδου μετατρέπεται σε μια μαθηματική ζούγκλα, από την οποία είναι δύσκολο να εξάγετε το δομικό διάγραμμα της μεθόδου. Αλλά οι συγγραφείς έχουν δημιουργήσει έναν βολικό ιστότοπο όπου παρουσιάζεται σχεδόν όλο το περιεχόμενο - wiki.technicalvision.ru Προσθήκη ετικετών

Ανασκόπηση των υφιστάμενων μεθόδων αναγνώρισης προτύπων

L.P. Πόποβα , ΚΑΙ ΠΕΡΙΠΟΥ. Ντατίεφ

Η ικανότητα «αναγνώρισης» θεωρείται η κύρια ιδιότητα των ανθρώπων, καθώς και άλλων ζωντανών οργανισμών. Η αναγνώριση προτύπων είναι ένας κλάδος της κυβερνητικής που αναπτύσσει αρχές και μεθόδους ταξινόμησης, καθώς και αναγνώριση αντικειμένων, φαινομένων, διεργασιών, σημάτων, καταστάσεων - όλα εκείνα τα αντικείμενα που μπορούν να περιγραφούν από ένα πεπερασμένο σύνολο μερικών σημείων ή ιδιοτήτων που χαρακτηρίζουν το αντικείμενο .

Μια εικόνα είναι μια περιγραφή ενός αντικειμένου. Οι εικόνες έχουν μια χαρακτηριστική ιδιότητα, η οποία εκδηλώνεται στο γεγονός ότι η εξοικείωση με έναν πεπερασμένο αριθμό φαινομένων από το ίδιο σύνολο καθιστά δυνατή την αναγνώριση ενός αυθαίρετα μεγάλου αριθμού εκπροσώπων του.

Στη θεωρία της αναγνώρισης προτύπων, μπορούν να διακριθούν δύο κύριες κατευθύνσεις:

    τη μελέτη των ικανοτήτων αναγνώρισης που κατέχουν οι άνθρωποι και άλλοι ζωντανοί οργανισμοί·

    ανάπτυξη θεωρίας και μεθόδων για την κατασκευή συσκευών σχεδιασμένων για την επίλυση μεμονωμένων προβλημάτων αναγνώρισης προτύπων σε ορισμένους τομείς εφαρμογής.

Περαιτέρω, το άρθρο περιγράφει τα προβλήματα, τις αρχές και τις μεθόδους εφαρμογής συστημάτων αναγνώρισης εικόνων που σχετίζονται με την ανάπτυξη της δεύτερης κατεύθυνσης. Το δεύτερο μέρος του άρθρου εξετάζει μεθόδους νευρωνικών δικτύων αναγνώρισης προτύπων, οι οποίες μπορούν να αποδοθούν στην πρώτη κατεύθυνση της θεωρίας της αναγνώρισης προτύπων.

Προβλήματα κατασκευής συστημάτων αναγνώρισης εικόνων

Τα προβλήματα που προκύπτουν κατά την κατασκευή συστημάτων αυτόματης αναγνώρισης προτύπων μπορούν συνήθως να ταξινομηθούν σε διάφορους κύριους τομείς. Το πρώτο από αυτά σχετίζεται με την παρουσίαση των αρχικών δεδομένων που λαμβάνονται ως αποτελέσματα μέτρησης για το αντικείμενο που θα αναγνωριστεί πρόβλημα ευαισθησίας. Κάθε μετρούμενη τιμή είναι κάποιο «χαρακτηριστικό μιας εικόνας ή αντικειμένου. Ας υποθέσουμε, για παράδειγμα, ότι οι εικόνες είναι αλφαριθμητικοί χαρακτήρες. χρησιμοποιείται στον αισθητήρα Εάν ο αμφιβληστροειδής αποτελείται από n-στοιχεία, τότε τα αποτελέσματα της μέτρησης μπορούν να αναπαρασταθούν ως διάνυσμα μέτρησης ή διάνυσμα εικόνας. ,

όπου κάθε στοιχείο xi παίρνει, για παράδειγμα, την τιμή 1 εάν η εικόνα ενός συμβόλου διέρχεται από το i-ο κελί του αμφιβληστροειδούς και την τιμή 0 διαφορετικά.

Ας δούμε το Σχ. 2(β). Στην περίπτωση αυτή, οι εικόνες είναι συνεχείς συναρτήσεις (όπως ηχητικά σήματα) της μεταβλητής t. Εάν η μέτρηση των τιμών συνάρτησης πραγματοποιείται σε διακριτά σημεία t1,t2, ..., tn, τότε το διάνυσμα εικόνας μπορεί να σχηματιστεί λαμβάνοντας x1= f(t1),x2=f(t2),... , xn = f(tn).

Εικόνα 1. Μέτρηση αμφιβληστροειδούς

Το δεύτερο πρόβλημα της αναγνώρισης προτύπων σχετίζεται με την απομόνωση χαρακτηριστικών ή ιδιοτήτων από τα ληφθέντα δεδομένα πηγής και τη μείωση της διάστασης των διανυσμάτων προτύπων. Αυτό το πρόβλημα συχνά ορίζεται ως πρόβλημα προεπεξεργασία και επιλογή χαρακτηριστικών.

Τα χαρακτηριστικά μιας κατηγορίας εικόνων είναι χαρακτηριστικές ιδιότητες κοινές σε όλες τις εικόνες μιας δεδομένης κατηγορίας. Χαρακτηριστικά που χαρακτηρίζουν διαφορές μεταξύ επιμέρους κλάσεων μπορούν να ερμηνευθούν ως διακλαδικά χαρακτηριστικά. Τα χαρακτηριστικά ενδοκλάσης, κοινά σε όλες τις υπό εξέταση κατηγορίες, δεν περιέχουν χρήσιμες πληροφορίες από την άποψη της αναγνώρισης και ενδέχεται να μην ληφθούν υπόψη. Η επιλογή χαρακτηριστικών θεωρείται μία από τις σημαντικές εργασίες που σχετίζονται με την κατασκευή συστημάτων αναγνώρισης. Εάν τα αποτελέσματα των μετρήσεων μας επιτρέπουν να αποκτήσουμε ένα πλήρες σύνολο διακριτικών χαρακτηριστικών για όλες τις κατηγορίες, η πραγματική αναγνώριση και ταξινόμηση των εικόνων δεν θα προκαλέσει ιδιαίτερες δυσκολίες. Στη συνέχεια, η αυτόματη αναγνώριση θα περιοριστεί σε μια απλή διαδικασία αντιστοίχισης ή διαδικασίες όπως η σάρωση πίνακα. Στα περισσότερα πρακτικά προβλήματα αναγνώρισης, ωστόσο, ο προσδιορισμός του πλήρους συνόλου των διακριτικών χαρακτηριστικών αποδεικνύεται εξαιρετικά δύσκολος, αν όχι αδύνατος. Είναι συνήθως δυνατό να εξαχθούν ορισμένα από τα διακριτικά χαρακτηριστικά από τα αρχικά δεδομένα και να τα χρησιμοποιήσουμε για να απλοποιήσουμε τη διαδικασία αυτόματης αναγνώρισης προτύπων. Συγκεκριμένα, η διάσταση των διανυσμάτων μέτρησης μπορεί να μειωθεί χρησιμοποιώντας μετασχηματισμούς που ελαχιστοποιούν την απώλεια πληροφοριών.

Το τρίτο πρόβλημα που σχετίζεται με την κατασκευή συστημάτων αναγνώρισης προτύπων είναι η εύρεση των βέλτιστων διαδικασιών λήψης αποφάσεων που είναι απαραίτητες για αναγνώριση και ταξινόμηση. Μόλις τα δεδομένα που συλλέγονται σχετικά με τα προς αναγνώριση μοτίβα αντιπροσωπεύονται από σημεία ή διανύσματα μέτρησης στον χώρο προτύπων, αφήστε το μηχάνημα να καταλάβει σε ποια κατηγορία μοτίβων αντιστοιχούν αυτά τα δεδομένα. Αφήστε το μηχάνημα να είναι σχεδιασμένο για να διακρίνει τις κατηγορίες M, που δηλώνονται με w1, w2, ... ..., wm. Σε αυτήν την περίπτωση, ο χώρος της εικόνας μπορεί να θεωρηθεί ότι αποτελείται από περιοχές M, καθεμία από τις οποίες περιέχει σημεία που αντιστοιχούν σε εικόνες από μία κατηγορία. Σε αυτήν την περίπτωση, η εργασία αναγνώρισης μπορεί να θεωρηθεί ότι κατασκευάζει τα όρια των περιοχών απόφασης που διαχωρίζουν τις κλάσεις M με βάση τα καταχωρημένα διανύσματα μέτρησης. Ας οριστούν αυτά τα όρια, για παράδειγμα, από τις συναρτήσεις απόφασης d1(x), d2(x),..., dm(x). Αυτές οι συναρτήσεις, που ονομάζονται επίσης συναρτήσεις διάκρισης, είναι βαθμωτές και μονής τιμής συναρτήσεις της εικόνας του x. Αν di (x) > dj (x), τότε η εικόνα x ανήκει στην κλάση w1. Με άλλα λόγια, εάν η i-η συνάρτηση απόφασης di(x) έχει τη μεγαλύτερη τιμή, τότε μια ουσιαστική απεικόνιση ενός τέτοιου συστήματος αυτόματης ταξινόμησης που βασίζεται στην υλοποίηση της διαδικασίας λήψης αποφάσεων φαίνεται στο Σχήμα. 2 (στο διάγραμμα «GR» είναι η γεννήτρια συναρτήσεων απόφασης).

Εικόνα 2. Αυτόματο σύστημα ταξινόμησης.

Αποφασιστικές συναρτήσεις μπορούν να ληφθούν με διάφορους τρόπους. Σε περιπτώσεις όπου υπάρχουν πλήρεις εκ των προτέρων πληροφορίες σχετικά με τις αναγνωρισμένες εικόνες, οι συναρτήσεις απόφασης μπορούν να προσδιοριστούν ακριβώς με βάση αυτές τις πληροφορίες. Εάν είναι διαθέσιμες μόνο ποιοτικές πληροφορίες σχετικά με τις εικόνες, μπορούν να γίνουν εύλογες υποθέσεις σχετικά με τη μορφή των καθοριστικών συναρτήσεων. Στην τελευταία περίπτωση, τα όρια των περιοχών λύσης μπορεί να αποκλίνουν σημαντικά από τα αληθινά, και επομένως είναι απαραίτητο να δημιουργηθεί ένα σύστημα ικανό να επιτύχει ένα ικανοποιητικό αποτέλεσμα μέσω μιας σειράς διαδοχικών προσαρμογών.

Τα αντικείμενα (εικόνες) που πρόκειται να αναγνωριστούν και να ταξινομηθούν χρησιμοποιώντας ένα αυτόματο σύστημα αναγνώρισης προτύπων πρέπει να έχουν ένα σύνολο μετρήσιμων χαρακτηριστικών. Όταν για μια ολόκληρη ομάδα εικόνων τα αποτελέσματα των αντίστοιχων μετρήσεων αποδεικνύονται παρόμοια, αυτά τα αντικείμενα θεωρείται ότι ανήκουν στην ίδια κατηγορία. Ο σκοπός του συστήματος αναγνώρισης προτύπων είναι, με βάση τις συλλεγόμενες πληροφορίες, να προσδιορίσει μια κατηγορία αντικειμένων με χαρακτηριστικά παρόμοια με αυτά που μετρώνται στα αντικείμενα που αναγνωρίζονται. Η ορθότητα της αναγνώρισης εξαρτάται από το πλήθος των διακριτικών πληροφοριών που περιέχονται στα μετρούμενα χαρακτηριστικά και την αποτελεσματικότητα της χρήσης αυτών των πληροφοριών.

      Βασικές μέθοδοι για την εφαρμογή συστημάτων αναγνώρισης προτύπων

Η αναγνώριση προτύπων αναφέρεται στο πρόβλημα της κατασκευής και εφαρμογής τυπικών πράξεων σε αριθμητικές ή συμβολικές αναπαραστάσεις αντικειμένων στον πραγματικό ή τον ιδανικό κόσμο, τα αποτελέσματα των οποίων αντικατοπτρίζουν τις σχέσεις ισοδυναμίας μεταξύ αυτών των αντικειμένων. Οι σχέσεις ισοδυναμίας εκφράζουν την υπαγωγή των αξιολογούμενων αντικειμένων σε οποιεσδήποτε κλάσεις, θεωρούμενες ως ανεξάρτητες σημασιολογικές μονάδες.

Κατά την κατασκευή αλγορίθμων αναγνώρισης, οι κλάσεις ισοδυναμίας μπορούν να καθοριστούν από έναν ερευνητή που χρησιμοποιεί τις δικές του ουσιαστικές ιδέες ή χρησιμοποιεί εξωτερικές πρόσθετες πληροφορίες σχετικά με τις ομοιότητες και τις διαφορές των αντικειμένων στο πλαίσιο του προβλήματος που επιλύεται. Μετά μιλούν για «αναγνώριση με δάσκαλο». Διαφορετικά, δηλ. Όταν ένα αυτοματοποιημένο σύστημα επιλύει ένα πρόβλημα ταξινόμησης χωρίς τη χρήση εξωτερικών πληροφοριών εκπαίδευσης, μιλάμε για αυτόματη ταξινόμηση ή «αναγνώριση χωρίς επίβλεψη». Οι περισσότεροι αλγόριθμοι αναγνώρισης προτύπων απαιτούν τη χρήση πολύ σημαντικής υπολογιστικής ισχύος, η οποία μπορεί να παρέχεται μόνο από τεχνολογία υπολογιστών υψηλής απόδοσης.

Διάφοροι συγγραφείς (Yu.L. Barabash, V.I. Vasiliev, A.L. Gorelik, V.A. Skripkin, R. Duda, P. Hart, L.T. Kuzin, F.I. Peregudov, F.P. Tarasenko, Temnikov F.E., Afonin V.A., R., J., Dmitriev. Gonzalez, P. Winston, K. Fu, Ya.Z, κ.λπ.) δίνουν μια διαφορετική τυπολογία μεθόδων αναγνώρισης. Ορισμένοι συγγραφείς διακρίνουν μεταξύ παραμετρικών, μη παραμετρικών και ευρετικών μεθόδων, άλλοι προσδιορίζουν ομάδες μεθόδων που βασίζονται σε ιστορικά καθιερωμένες σχολές και τάσεις στον τομέα αυτό.

Ταυτόχρονα, οι γνωστές τυπολογίες δεν λαμβάνουν υπόψη ένα πολύ σημαντικό χαρακτηριστικό, το οποίο αντανακλά την ιδιαιτερότητα του τρόπου αναπαράστασης της γνώσης για μια θεματική περιοχή χρησιμοποιώντας οποιονδήποτε επίσημο αλγόριθμο αναγνώρισης προτύπων. Ο D.A. Pospelov προσδιορίζει δύο βασικούς τρόπους παρουσίασης της γνώσης:

    Εντατική αναπαράσταση - με τη μορφή διαγράμματος συνδέσεων μεταξύ χαρακτηριστικών (χαρακτηριστικών).

    Επεκτατική αναπαράσταση - χρησιμοποιώντας συγκεκριμένα γεγονότα (αντικείμενα, παραδείγματα).

Πρέπει να σημειωθεί ότι η ύπαρξη ακριβώς αυτών των δύο ομάδων μεθόδων αναγνώρισης: αυτών που λειτουργούν με πινακίδες και εκείνων που λειτουργούν με αντικείμενα, είναι βαθιά φυσική. Από αυτή την άποψη, καμία από αυτές τις μεθόδους, χωριστά από την άλλη, δεν μας επιτρέπει να σχηματίσουμε μια επαρκή αντανάκλαση της θεματικής περιοχής. Μεταξύ αυτών των μεθόδων υπάρχει μια σχέση συμπληρωματικότητας με την έννοια του N. Bohr, επομένως, τα πολλά υποσχόμενα συστήματα αναγνώρισης θα πρέπει να παρέχουν την εφαρμογή και των δύο αυτών μεθόδων, και όχι μόνο μιας από αυτές.

Έτσι, η ταξινόμηση των μεθόδων αναγνώρισης που προτείνει ο D.A. Pospelov βασίζεται στα θεμελιώδη πρότυπα που διέπουν τον ανθρώπινο τρόπο γνώσης γενικά, γεγονός που τον τοποθετεί σε μια εντελώς ειδική (προνομιακή) θέση σε σύγκριση με άλλες ταξινομήσεις, οι οποίες σε αυτό το πλαίσιο φαίνονται πιο ελαφριές. τεχνητός.

Εντατικές μέθοδοι

Ένα χαρακτηριστικό γνώρισμα των εντατικών μεθόδων είναι ότι χρησιμοποιούν διάφορα χαρακτηριστικά χαρακτηριστικών και τις συνδέσεις τους ως στοιχεία λειτουργιών κατά την κατασκευή και την εφαρμογή αλγορίθμων αναγνώρισης προτύπων. Τέτοια στοιχεία μπορεί να είναι μεμονωμένες τιμές ή διαστήματα τιμών χαρακτηριστικών, μέσες τιμές και διακυμάνσεις, πίνακες σχέσεων χαρακτηριστικών κ.λπ., στους οποίους εκτελούνται ενέργειες, εκφρασμένες σε αναλυτική ή εποικοδομητική μορφή. Ταυτόχρονα, τα αντικείμενα σε αυτές τις μεθόδους δεν θεωρούνται ως ολοκληρωμένες μονάδες πληροφοριών, αλλά λειτουργούν ως δείκτες για την αξιολόγηση της αλληλεπίδρασης και της συμπεριφοράς των ιδιοτήτων τους.

Η ομάδα των εντατικών μεθόδων για την αναγνώριση προτύπων είναι εκτεταμένη και η διαίρεση της σε υποκατηγορίες είναι σε κάποιο βαθμό υπό όρους:

– μέθοδοι που βασίζονται σε εκτιμήσεις των πυκνοτήτων κατανομής των τιμών χαρακτηριστικών

– μέθοδοι που βασίζονται σε υποθέσεις σχετικά με την κατηγορία των συναρτήσεων απόφασης

– λογικές μεθόδους

– γλωσσικές (δομικές) μέθοδοι.

Μέθοδοι που βασίζονται σε εκτιμήσεις των πυκνοτήτων κατανομής των τιμών χαρακτηριστικών.Αυτές οι μέθοδοι αναγνώρισης προτύπων δανείζονται από την κλασική θεωρία των στατιστικών αποφάσεων, στην οποία τα αντικείμενα μελέτης θεωρούνται ως πραγματοποιήσεις μιας πολυδιάστατης τυχαίας μεταβλητής που κατανέμεται στο χώρο χαρακτηριστικών σύμφωνα με κάποιο νόμο. Βασίζονται σε ένα σχέδιο λήψης αποφάσεων Μπεϋζιανού που κάνει έκκληση σε a priori πιθανότητες αντικειμένων που ανήκουν σε μια συγκεκριμένη αναγνωρισμένη κλάση και υπό όρους πυκνότητες κατανομής τιμών διανυσμάτων χαρακτηριστικών. Αυτές οι μέθοδοι καταλήγουν στον προσδιορισμό του λόγου πιθανοτήτων σε διάφορες περιοχές του πολυδιάστατου χώρου χαρακτηριστικών.

Μια ομάδα μεθόδων που βασίζεται στην εκτίμηση της πυκνότητας κατανομής των τιμών χαρακτηριστικών σχετίζεται άμεσα με τις μεθόδους ανάλυσης διάκρισης. Η Bayesian προσέγγιση στη λήψη αποφάσεων είναι μια από τις πιο ανεπτυγμένες λεγόμενες παραμετρικές μεθόδους στη σύγχρονη στατιστική, για την οποία η αναλυτική έκφραση του νόμου κατανομής (στην περίπτωση αυτή, ο κανονικός νόμος) θεωρείται γνωστή και μόνο ένας μικρός αριθμός παραμέτρων ( διανύσματα μέσες τιμές και πίνακες συνδιακύμανσης) απαιτείται να εκτιμηθούν.

Αυτή η ομάδα περιλαμβάνει επίσης τη μέθοδο υπολογισμού του λόγου πιθανότητας για ανεξάρτητα χαρακτηριστικά. Αυτή η μέθοδος, με εξαίρεση την υπόθεση της ανεξαρτησίας των χαρακτηριστικών (η οποία στην πραγματικότητα σχεδόν ποτέ δεν εκπληρώνεται), δεν προϋποθέτει γνώση της λειτουργικής μορφής του νόμου διανομής. Μπορεί να ταξινομηθεί ως μη παραμετρική μέθοδος.

Άλλες μη παραμετρικές μέθοδοι, που χρησιμοποιούνται όταν το σχήμα της καμπύλης πυκνότητας κατανομής είναι άγνωστο και δεν μπορούν να γίνουν καθόλου υποθέσεις για τη φύση της, καταλαμβάνουν ιδιαίτερη θέση. Αυτές περιλαμβάνουν τη γνωστή μέθοδο των πολυδιάστατων ιστογραμμάτων, τη μέθοδο «k-πλησιέστερων γειτόνων», τη μέθοδο της Ευκλείδειας απόστασης, τη μέθοδο των δυνητικών συναρτήσεων κ.λπ., μια γενίκευση των οποίων είναι η μέθοδος που ονομάζεται «Εκτιμήσεις Parzen». Αυτές οι μέθοδοι λειτουργούν επίσημα με αντικείμενα ως ενσωματωμένες δομές, αλλά ανάλογα με τον τύπο της εργασίας αναγνώρισης, μπορούν να δράσουν τόσο σε εντατική όσο και σε εκτατική μορφή.

Οι μη παραμετρικές μέθοδοι αναλύουν τον σχετικό αριθμό αντικειμένων που εμπίπτουν σε δεδομένους πολυδιάστατους όγκους και χρησιμοποιούν διάφορες συναρτήσεις της απόστασης μεταξύ των αντικειμένων στο σετ εκπαίδευσης και των αντικειμένων που αναγνωρίζονται. Για ποσοτικά χαρακτηριστικά, όταν ο αριθμός τους είναι πολύ μικρότερος από το μέγεθος του δείγματος, οι πράξεις με αντικείμενα παίζουν ενδιάμεσο ρόλο στην εκτίμηση της τοπικής πυκνότητας κατανομής πιθανοτήτων υπό όρους και τα αντικείμενα δεν φέρουν το σημασιολογικό φορτίο ανεξάρτητων μονάδων πληροφοριών. Ταυτόχρονα, όταν ο αριθμός των χαρακτηριστικών είναι ανάλογος ή μεγαλύτερος από τον αριθμό των υπό μελέτη αντικειμένων και τα χαρακτηριστικά είναι ποιοτικής ή διχοτομικής φύσης, τότε δεν μπορεί να γίνει λόγος για τοπικές εκτιμήσεις πυκνοτήτων κατανομής πιθανοτήτων. Στην περίπτωση αυτή, τα αντικείμενα στις καθορισμένες μη παραμετρικές μεθόδους θεωρούνται ως ανεξάρτητες μονάδες πληροφοριών (ολοκληρωτικά εμπειρικά γεγονότα) και αυτές οι μέθοδοι αποκτούν το νόημα της αξιολόγησης των ομοιοτήτων και των διαφορών των αντικειμένων που μελετώνται.

Έτσι, οι ίδιες τεχνολογικές πράξεις των μη παραμετρικών μεθόδων, ανάλογα με τις συνθήκες του προβλήματος, έχουν νόημα είτε για τοπικές εκτιμήσεις των πυκνοτήτων κατανομής πιθανότητας των τιμών χαρακτηριστικών είτε για εκτιμήσεις της ομοιότητας και της διαφοράς των αντικειμένων.

Στο πλαίσιο της εντατικής αναπαράστασης της γνώσης, εξετάζεται εδώ η πρώτη πλευρά των μη παραμετρικών μεθόδων, ως εκτιμήσεις των πυκνοτήτων κατανομής πιθανοτήτων. Πολλοί συγγραφείς σημειώνουν ότι στην πράξη, οι μη παραμετρικές μέθοδοι όπως οι εκτιμητές Parzen λειτουργούν καλά. Οι κύριες δυσκολίες στη χρήση αυτών των μεθόδων είναι η ανάγκη να θυμόμαστε ολόκληρο το δείγμα εκπαίδευσης για τον υπολογισμό των εκτιμήσεων των τοπικών πυκνοτήτων κατανομής πιθανοτήτων και η υψηλή ευαισθησία στη μη αντιπροσωπευτικότητα του δείγματος εκπαίδευσης.

Μέθοδοι που βασίζονται σε υποθέσεις σχετικά με την κατηγορία των συναρτήσεων απόφασης.Σε αυτή την ομάδα μεθόδων, η γενική μορφή της συνάρτησης απόφασης θεωρείται γνωστή και προσδιορίζεται η λειτουργική της ποιότητάς της. Με βάση αυτή τη συνάρτηση, αναζητείται η καλύτερη προσέγγιση της συνάρτησης απόφασης στην ακολουθία εκπαίδευσης. Οι πιο συνηθισμένες είναι αναπαραστάσεις συναρτήσεων απόφασης με τη μορφή γραμμικών και γενικευμένων μη γραμμικών πολυωνύμων. Η λειτουργική ποιότητα του κανόνα απόφασης συνδέεται συνήθως με σφάλμα ταξινόμησης.

Το κύριο πλεονέκτημα των μεθόδων που βασίζονται σε υποθέσεις σχετικά με την κατηγορία των συναρτήσεων απόφασης είναι η σαφήνεια της μαθηματικής διατύπωσης του προβλήματος αναγνώρισης ως πρόβλημα αναζήτησης ενός άκρου. Η λύση σε αυτό το πρόβλημα συχνά επιτυγχάνεται χρησιμοποιώντας κάποιους αλγόριθμους κλίσης. Η ποικιλία των μεθόδων σε αυτήν την ομάδα εξηγείται από το ευρύ φάσμα των συναρτήσεων ποιότητας των κανόνων απόφασης και των αλγορίθμων αναζήτησης ακραίου που χρησιμοποιούνται. Μια γενίκευση των υπό εξέταση αλγορίθμων, που περιλαμβάνουν, ειδικότερα, τον αλγόριθμο του Νεύτωνα, αλγόριθμους τύπου perceptron κ.λπ., είναι η μέθοδος της στοχαστικής προσέγγισης. Σε αντίθεση με τις μεθόδους παραμετρικής αναγνώρισης, η επιτυχία της χρήσης αυτής της ομάδας μεθόδων δεν εξαρτάται τόσο από την ασυμφωνία μεταξύ των θεωρητικών ιδεών σχετικά με τους νόμους της κατανομής των αντικειμένων στον χώρο χαρακτηριστικών και την εμπειρική πραγματικότητα. Όλες οι λειτουργίες υπόκεινται σε έναν κύριο στόχο - την εύρεση της ακραίας ποιότητας λειτουργικής του κανόνα απόφασης. Ταυτόχρονα, τα αποτελέσματα των παραμετρικών και των εξεταζόμενων μεθόδων μπορεί να είναι παρόμοια. Όπως φαίνεται παραπάνω, οι παραμετρικές μέθοδοι για την περίπτωση κανονικών κατανομών αντικειμένων σε διαφορετικές κλάσεις με ίσους πίνακες συνδιακύμανσης οδηγούν σε γραμμικές συναρτήσεις απόφασης. Σημειώστε επίσης ότι οι αλγόριθμοι για την επιλογή ενημερωτικών χαρακτηριστικών σε γραμμικά διαγνωστικά μοντέλα μπορούν να ερμηνευθούν ως ειδικές εκδόσεις αλγορίθμων διαβάθμισης για αναζήτηση ακραίων.

Οι δυνατότητες των αλγορίθμων αναζήτησης ακραίων βαθμίδων, ειδικά στην ομάδα κανόνων γραμμικής απόφασης, έχουν μελετηθεί αρκετά καλά. Η σύγκλιση αυτών των αλγορίθμων έχει αποδειχθεί μόνο για την περίπτωση που οι αναγνωρισμένες κατηγορίες αντικειμένων εμφανίζονται στο χώρο χαρακτηριστικών από συμπαγείς γεωμετρικές δομές. Ωστόσο, η επιθυμία να επιτευχθεί επαρκής ποιότητα του κανόνα απόφασης μπορεί συχνά να ικανοποιηθεί με τη βοήθεια αλγορίθμων που δεν έχουν αυστηρή μαθηματική απόδειξη της σύγκλισης της λύσης σε ένα παγκόσμιο άκρο.

Τέτοιοι αλγόριθμοι περιλαμβάνουν μια μεγάλη ομάδα ευρετικών διαδικασιών προγραμματισμού που αντιπροσωπεύουν την κατεύθυνση της εξελικτικής μοντελοποίησης. Η εξελικτική μοντελοποίηση είναι μια βιονική μέθοδος δανεισμένη από τη φύση. Βασίζεται στη χρήση γνωστών μηχανισμών εξέλιξης προκειμένου να αντικατασταθεί η διαδικασία ουσιαστικής μοντελοποίησης ενός σύνθετου αντικειμένου με φαινομενολογική μοντελοποίηση της εξέλιξής του.

Ένας πολύ γνωστός εκπρόσωπος της εξελικτικής μοντελοποίησης στην αναγνώριση προτύπων είναι η μέθοδος της ομαδικής λογιστικής των ορισμών (MGUA). Η βάση του GMDH είναι η αρχή της αυτοοργάνωσης και οι αλγόριθμοι GMDH αναπαράγουν το σχήμα της μαζικής επιλογής. Στους αλγόριθμους GMDH, τα μέλη ενός γενικευμένου πολυωνύμου συντίθενται και επιλέγονται με έναν ειδικό τρόπο, ο οποίος συχνά ονομάζεται πολυώνυμο Kolmogorov-Gabor. Αυτή η σύνθεση και επιλογή πραγματοποιείται με αυξανόμενη πολυπλοκότητα και είναι αδύνατο να προβλεφθεί εκ των προτέρων ποια τελική μορφή θα έχει το γενικευμένο πολυώνυμο. Πρώτον, συνήθως εξετάζονται απλοί κατά ζεύγη συνδυασμοί αρχικών χαρακτηριστικών, από τους οποίους συντάσσονται εξισώσεις συναρτήσεων απόφασης, συνήθως όχι υψηλότερες από δεύτερης τάξης. Κάθε εξίσωση αναλύεται ως ανεξάρτητη συνάρτηση απόφασης και οι τιμές των παραμέτρων των μεταγλωττισμένων εξισώσεων βρίσκονται με τον ένα ή τον άλλο τρόπο χρησιμοποιώντας το δείγμα εκπαίδευσης. Στη συνέχεια, από το σύνολο των συναρτήσεων απόφασης που προκύπτει, επιλέγονται μερικές από τις καλύτερες. Η ποιότητα των επιμέρους συναρτήσεων απόφασης ελέγχεται σε ένα δείγμα ελέγχου (επικύρωσης), το οποίο μερικές φορές ονομάζεται αρχή της εξωτερικής προσθήκης. Επιλεγμένες συναρτήσεις μερικής απόφασης θεωρούνται περαιτέρω ως ενδιάμεσες μεταβλητές που χρησιμεύουν ως αρχικά επιχειρήματα για μια παρόμοια σύνθεση νέων συναρτήσεων απόφασης κ.λπ. εκδηλώνεται με την υποβάθμιση αυτής της ποιότητας όταν προσπαθεί να αυξήσει περαιτέρω τη σειρά των πολυωνυμικών όρων σε σχέση με τα αρχικά χαρακτηριστικά.

Η αρχή της αυτοοργάνωσης που διέπει το GMDH ονομάζεται ευρετική αυτοοργάνωση, καθώς η όλη διαδικασία βασίζεται στην εισαγωγή εξωτερικών προσθηκών, επιλεγμένων ευρετικά. Το αποτέλεσμα μιας απόφασης μπορεί να εξαρτηθεί σημαντικά από αυτά τα ευρετικά. Το διαγνωστικό μοντέλο που προκύπτει εξαρτάται από το πώς τα αντικείμενα χωρίζονται σε δείγματα εκπαίδευσης και δοκιμής, πώς καθορίζεται το κριτήριο ποιότητας αναγνώρισης, πόσες μεταβλητές περνούν στην επόμενη σειρά επιλογής κ.λπ.

Τα υποδεικνυόμενα χαρακτηριστικά των αλγορίθμων GMDH είναι επίσης χαρακτηριστικά άλλων προσεγγίσεων της εξελικτικής μοντελοποίησης. Αλλά ας σημειώσουμε εδώ μια ακόμη πτυχή των μεθόδων που εξετάζουμε. Αυτή είναι η ουσιαστική τους ουσία. Χρησιμοποιώντας μεθόδους που βασίζονται σε υποθέσεις σχετικά με την κατηγορία των συναρτήσεων απόφασης (εξελικτικές και διαβαθμισμένες), είναι δυνατό να δημιουργηθούν διαγνωστικά μοντέλα υψηλής πολυπλοκότητας και να ληφθούν πρακτικά αποδεκτά αποτελέσματα. Ταυτόχρονα, η επίτευξη πρακτικών στόχων σε αυτή την περίπτωση δεν συνοδεύεται από την εξαγωγή νέας γνώσης για τη φύση των αναγνωρισμένων αντικειμένων. Η δυνατότητα εξαγωγής αυτής της γνώσης, ιδιαίτερα της γνώσης σχετικά με τους μηχανισμούς αλληλεπίδρασης των χαρακτηριστικών (χαρακτηριστικών), περιορίζεται εδώ θεμελιωδώς από τη δεδομένη δομή μιας τέτοιας αλληλεπίδρασης, που καθορίζεται στην επιλεγμένη μορφή συναρτήσεων απόφασης. Επομένως, το περισσότερο που μπορεί να ειπωθεί μετά την κατασκευή ενός συγκεκριμένου διαγνωστικού μοντέλου είναι η λίστα συνδυασμών χαρακτηριστικών και των ίδιων των χαρακτηριστικών που περιλαμβάνονται στο μοντέλο που προκύπτει. Όμως, η έννοια των συνδυασμών που αντικατοπτρίζουν τη φύση και τη δομή των κατανομών των υπό μελέτη αντικειμένων συχνά παραμένει άγνωστη στο πλαίσιο αυτής της προσέγγισης.

Μέθοδοι Boolean. Οι λογικές μέθοδοι αναγνώρισης προτύπων βασίζονται στη συσκευή της λογικής άλγεβρας και επιτρέπουν σε κάποιον να λειτουργεί με πληροφορίες που περιέχονται όχι μόνο σε μεμονωμένα χαρακτηριστικά, αλλά και σε συνδυασμούς τιμών χαρακτηριστικών. Σε αυτές τις μεθόδους, οι τιμές οποιουδήποτε χαρακτηριστικού θεωρούνται ως στοιχειώδη γεγονότα.

Στην πιο γενική μορφή, οι λογικές μέθοδοι μπορούν να χαρακτηριστούν ως ένας τύπος αναζήτησης μέσω ενός δείγματος εκπαίδευσης λογικών προτύπων και ο σχηματισμός ενός συγκεκριμένου συστήματος κανόνων λογικής απόφασης (για παράδειγμα, με τη μορφή συνδυασμών στοιχειωδών γεγονότων), καθένα από που έχει το δικό του βάρος. Η ομάδα των λογικών μεθόδων είναι ποικίλη και περιλαμβάνει μεθόδους ποικίλης πολυπλοκότητας και βάθους ανάλυσης. Για διχοτομικά (Boolean) χαρακτηριστικά, είναι δημοφιλείς οι λεγόμενοι δεντροειδείς ταξινομητές, η μέθοδος δοκιμής αδιέξοδο, ο αλγόριθμος "Bark" και άλλοι. Πιο πολύπλοκες μέθοδοι βασίζονται στην επισημοποίηση των επαγωγικών μεθόδων του D.S. Mill. Η τυποποίηση πραγματοποιείται με την κατασκευή μιας οιονεί αξιωματικής θεωρίας και βασίζεται σε πολυ-ταξινομημένη λογική πολλών τιμών με ποσοτικοποιητές σε πλειάδες μεταβλητού μήκους.

Ο αλγόριθμος "Kora", όπως και άλλες λογικές μέθοδοι αναγνώρισης προτύπων, είναι αρκετά απαιτητικός, καθώς απαιτείται πλήρης αναζήτηση κατά την επιλογή συνδέσμων. Επομένως, όταν χρησιμοποιούνται λογικές μέθοδοι, τίθενται υψηλές απαιτήσεις για την αποτελεσματική οργάνωση της υπολογιστικής διαδικασίας και αυτές οι μέθοδοι λειτουργούν καλά με σχετικά μικρές διαστάσεις του χώρου χαρακτηριστικών και μόνο σε ισχυρούς υπολογιστές.

Γλωσσικές (συντακτικές ή δομικές) μέθοδοι.Οι γλωσσικές μέθοδοι αναγνώρισης προτύπων βασίζονται στη χρήση ειδικών γραμματικών που δημιουργούν γλώσσες, με τη βοήθεια των οποίων μπορεί να περιγραφεί ένα σύνολο ιδιοτήτων αναγνωρισμένων αντικειμένων. Η γραμματική αναφέρεται στους κανόνες για την κατασκευή αντικειμένων από αυτά τα μη προερχόμενα στοιχεία.

Εάν η περιγραφή των εικόνων γίνεται με τη χρήση μη παράγωγων στοιχείων (υπομεγέθη) και των σχέσεών τους, τότε χρησιμοποιείται μια γλωσσική ή συντακτική προσέγγιση που χρησιμοποιεί την αρχή της γενικότητας των ιδιοτήτων για την κατασκευή συστημάτων αυτόματης αναγνώρισης. Μια εικόνα μπορεί να περιγραφεί χρησιμοποιώντας μια ιεραρχική δομή υποεικόνων, παρόμοια με τη συντακτική δομή της γλώσσας. Αυτή η περίσταση καθιστά δυνατή την εφαρμογή της θεωρίας των επίσημων γλωσσών κατά την επίλυση προβλημάτων αναγνώρισης εικόνων. Μια γραμματική εικόνας θεωρείται ότι περιέχει πεπερασμένα σύνολα στοιχείων που ονομάζονται μεταβλητές, μη παράγωγα στοιχεία και κανόνες αντικατάστασης. Η φύση των κανόνων αντικατάστασης καθορίζει τον τύπο της γραμματικής. Από τις πιο μελετημένες γραμματικές μπορούμε να σημειώσουμε κανονικές, χωρίς συμφραζόμενα και γραμματικές άμεσων συνιστωσών. Τα βασικά σημεία αυτής της προσέγγισης είναι η επιλογή των μη παράγωγων στοιχείων της εικόνας, ο συνδυασμός αυτών των στοιχείων και οι σχέσεις που τα συνδέουν με γραμματικές εικόνων και, τέλος, η υλοποίηση των διαδικασιών ανάλυσης και αναγνώρισης στην κατάλληλη γλώσσα. Αυτή η προσέγγιση είναι ιδιαίτερα χρήσιμη όταν εργάζεστε με εικόνες που είτε δεν μπορούν να περιγραφούν με αριθμητικές μετρήσεις είτε είναι τόσο πολύπλοκες που δεν μπορούν να εντοπιστούν τα τοπικά χαρακτηριστικά τους και πρέπει να στραφεί κανείς στις καθολικές ιδιότητες των αντικειμένων.

Για παράδειγμα, η Ε.Α. Butakov, V.I. Οστρόφσκι, Ι.Λ. Ο Fadeev προτείνει την ακόλουθη δομή συστήματος για την επεξεργασία εικόνας (Εικ. 3), χρησιμοποιώντας μια γλωσσική προσέγγιση, όπου καθένα από τα λειτουργικά μπλοκ είναι ένα σύμπλεγμα λογισμικού (μικροπρόγραμμα) (ενότητα) που υλοποιεί τις αντίστοιχες λειτουργίες.

Εικόνα 3. Μπλοκ διάγραμμα της συσκευής αναγνώρισης

Οι προσπάθειες εφαρμογής των μεθόδων της μαθηματικής γλωσσολογίας στο πρόβλημα της ανάλυσης εικόνας οδηγούν στην ανάγκη επίλυσης ορισμένων προβλημάτων που σχετίζονται με την χαρτογράφηση της δισδιάστατης δομής μιας εικόνας σε μονοδιάστατες αλυσίδες μιας επίσημης γλώσσας.

Επεκτατικές μέθοδοι

Στις μεθόδους αυτής της ομάδας, σε αντίθεση με την εντατική κατεύθυνση, σε κάθε αντικείμενο μελέτης δίνεται, σε μικρότερο ή μεγαλύτερο βαθμό, ανεξάρτητη διαγνωστική σημασία. Στον πυρήνα τους, αυτές οι μέθοδοι είναι κοντά στην κλινική προσέγγιση, η οποία θεωρεί τους ανθρώπους όχι ως μια αλυσίδα αντικειμένων που ταξινομούνται από τον έναν ή τον άλλον δείκτη, αλλά ως ολοκληρωμένα συστήματα, καθένα από τα οποία είναι ατομικό και έχει ιδιαίτερη διαγνωστική αξία. Αυτή η προσεκτική στάση απέναντι στα αντικείμενα της έρευνας δεν επιτρέπει τον αποκλεισμό ή την απώλεια πληροφοριών για κάθε μεμονωμένο αντικείμενο, κάτι που συμβαίνει όταν χρησιμοποιούνται μέθοδοι εντατικής κατεύθυνσης που χρησιμοποιούν αντικείμενα μόνο για τον εντοπισμό και την καταγραφή μοτίβων συμπεριφοράς των ιδιοτήτων τους.

Οι κύριες λειτουργίες στην αναγνώριση προτύπων χρησιμοποιώντας τις μεθόδους που συζητήθηκαν είναι οι πράξεις προσδιορισμού των ομοιοτήτων και των διαφορών των αντικειμένων. Τα αντικείμενα στην καθορισμένη ομάδα μεθόδων παίζουν το ρόλο των διαγνωστικών προηγούμενων. Επιπλέον, ανάλογα με τις συνθήκες μιας συγκεκριμένης εργασίας, ο ρόλος ενός μεμονωμένου προηγούμενου μπορεί να ποικίλλει εντός των ευρύτερων ορίων: από την κύρια και καθοριστική έως την πολύ έμμεση συμμετοχή στη διαδικασία αναγνώρισης. Με τη σειρά τους, οι συνθήκες του προβλήματος μπορεί να απαιτούν τη συμμετοχή διαφορετικού αριθμού διαγνωστικών προηγούμενων για μια επιτυχημένη λύση: από ένα σε κάθε αναγνωρισμένη τάξη έως το πλήρες μέγεθος δείγματος, καθώς και διαφορετικές μεθόδους για τον υπολογισμό των μέτρων ομοιότητας και διαφοράς αντικειμένων . Αυτές οι απαιτήσεις εξηγούν την περαιτέρω διαίρεση των μεθόδων επέκτασης σε υποκατηγορίες:

    μέθοδος σύγκρισης με το πρωτότυπο·

    k-μέθοδος πλησιέστερων γειτόνων.

    συλλογικότητες των κανόνων απόφασης.

Μέθοδος σύγκρισης με το πρωτότυπο.Αυτή είναι η απλούστερη μέθοδος επέκτασης αναγνώρισης. Χρησιμοποιείται, για παράδειγμα, όταν οι αναγνωρισμένες κλάσεις εμφανίζονται στο χώρο χαρακτηριστικών με συμπαγείς γεωμετρικές ομαδοποιήσεις. Σε αυτή την περίπτωση, συνήθως το κέντρο της γεωμετρικής ομαδοποίησης της κλάσης (ή το αντικείμενο που βρίσκεται πιο κοντά στο κέντρο) επιλέγεται ως πρωτότυπο σημείο.

Για την ταξινόμηση ενός άγνωστου αντικειμένου, βρίσκεται το πλησιέστερο πρωτότυπο σε αυτό και το αντικείμενο ανήκει στην ίδια κατηγορία με αυτό το πρωτότυπο. Προφανώς, δεν δημιουργούνται γενικευμένες εικόνες κλάσης σε αυτήν τη μέθοδο.

Διάφοροι τύποι αποστάσεων μπορούν να χρησιμοποιηθούν ως μέτρο εγγύτητας. Συχνά, για διχοτομικά χαρακτηριστικά, χρησιμοποιείται η απόσταση Hamming, η οποία σε αυτή την περίπτωση είναι ίση με το τετράγωνο της Ευκλείδειας απόστασης. Σε αυτή την περίπτωση, ο κανόνας απόφασης για την ταξινόμηση αντικειμένων είναι ισοδύναμος με μια γραμμική συνάρτηση απόφασης.

Αυτό το γεγονός πρέπει να σημειωθεί ιδιαίτερα. Καταδεικνύει ξεκάθαρα τη σύνδεση μεταξύ του πρωτοτύπου και της αναπαράστασης χαρακτηριστικών πληροφοριών σχετικά με τη δομή των δεδομένων. Χρησιμοποιώντας την παραπάνω αναπαράσταση, μπορεί κανείς, για παράδειγμα, να θεωρήσει οποιαδήποτε παραδοσιακή κλίμακα μέτρησης, η οποία είναι μια γραμμική συνάρτηση των τιμών των διχοτόμων χαρακτηριστικών, ως ένα υποθετικό διαγνωστικό πρωτότυπο. Με τη σειρά του, εάν μια ανάλυση της χωρικής δομής των αναγνωρισμένων τάξεων μας επιτρέπει να βγάλουμε ένα συμπέρασμα για τη γεωμετρική τους συμπαγή, τότε αρκεί να αντικαταστήσουμε καθεμία από αυτές τις κατηγορίες με ένα πρωτότυπο, το οποίο στην πραγματικότητα είναι ισοδύναμο με ένα γραμμικό διαγνωστικό μοντέλο.

Στην πράξη, βέβαια, η κατάσταση είναι συχνά διαφορετική από το εξιδανικευμένο παράδειγμα που περιγράφεται. Ένας ερευνητής που σκοπεύει να εφαρμόσει μια μέθοδο αναγνώρισης που βασίζεται στη σύγκριση με πρωτότυπα διαγνωστικά μαθήματα αντιμετωπίζει δύσκολα προβλήματα. Αυτή είναι, πρώτα απ 'όλα, η επιλογή του μέτρου εγγύτητας (μετρική), η οποία μπορεί να αλλάξει σημαντικά τη χωρική διαμόρφωση της κατανομής των αντικειμένων. Και, δεύτερον, ένα ανεξάρτητο πρόβλημα είναι η ανάλυση πολυδιάστατων δομών πειραματικών δεδομένων. Και τα δύο αυτά προβλήματα είναι ιδιαίτερα έντονα για τον ερευνητή σε συνθήκες υψηλής διάστασης του χώρου χαρακτηριστικών, που είναι τυπικό για πραγματικά προβλήματα.

Η μέθοδος k-πλησιέστερων γειτόνων.Η μέθοδος k-πλησιέστερων γειτόνων για την επίλυση προβλημάτων διακριτικής ανάλυσης προτάθηκε για πρώτη φορά το 1952. Είναι ως εξής.

Κατά την ταξινόμηση ενός άγνωστου αντικειμένου, βρίσκεται ένας δεδομένος αριθμός (k) του γεωμετρικά πλησιέστερου προς αυτό στο χώρο των χαρακτηριστικών άλλων αντικειμένων (πλησιέστεροι γείτονες) με ήδη γνωστή συμμετοχή στις αναγνωρισμένες κλάσεις. Η απόφαση να εκχωρηθεί ένα άγνωστο αντικείμενο σε μια συγκεκριμένη διαγνωστική τάξη λαμβάνεται με την ανάλυση πληροφοριών σχετικά με αυτή τη γνωστή συσχέτιση των πλησιέστερων γειτόνων του, για παράδειγμα, χρησιμοποιώντας μια απλή καταμέτρηση ψήφων.

Αρχικά, η μέθοδος k-πλησιέστερων γειτόνων θεωρήθηκε ως μια μη παραμετρική μέθοδος για την εκτίμηση του λόγου πιθανότητας. Για αυτή τη μέθοδο, ελήφθησαν θεωρητικές εκτιμήσεις της αποτελεσματικότητάς της σε σύγκριση με τον βέλτιστο ταξινομητή Bayes. Έχει αποδειχθεί ότι οι πιθανότητες ασυμπτωτικού σφάλματος για τη μέθοδο k-πλησιέστερου γείτονα υπερβαίνουν τα σφάλματα του κανόνα Bayes όχι περισσότερο από δύο φορές.

Όπως σημειώθηκε παραπάνω, σε πραγματικά προβλήματα είναι συχνά απαραίτητο να λειτουργούμε με αντικείμενα που περιγράφονται από μεγάλο αριθμό ποιοτικών (διχοτομικών) χαρακτηριστικών. Στην περίπτωση αυτή, η διάσταση του χώρου χαρακτηριστικών είναι ανάλογη ή υπερβαίνει τον όγκο του υπό μελέτη δείγματος. Σε τέτοιες συνθήκες, είναι βολικό να ερμηνεύεται κάθε αντικείμενο του δείγματος εκπαίδευσης ως ξεχωριστός γραμμικός ταξινομητής. Στη συνέχεια, αυτή ή εκείνη η διαγνωστική τάξη αντιπροσωπεύεται όχι από ένα πρωτότυπο, αλλά από ένα σύνολο γραμμικών ταξινομητών. Η συνδυασμένη αλληλεπίδραση γραμμικών ταξινομητών οδηγεί τελικά σε μια τμηματικά γραμμική επιφάνεια που διαχωρίζει αναγνωρισμένες κατηγορίες στον χώρο χαρακτηριστικών. Ο τύπος της διαχωριστικής επιφάνειας, που αποτελείται από κομμάτια υπερεπιπέδων, μπορεί να ποικίλλει και εξαρτάται από τη σχετική θέση των ταξινομημένων αδρανών.

Μπορεί επίσης να χρησιμοποιηθεί μια άλλη ερμηνεία των μηχανισμών ταξινόμησης που χρησιμοποιούν τον κανόνα k-πλησιέστερων γειτόνων. Βασίζεται στην ιδέα της ύπαρξης κάποιων λανθάνοντων μεταβλητών, αφηρημένων ή σχετικών με κάποιο μετασχηματισμό στον αρχικό χώρο χαρακτηριστικών. Εάν στο χώρο των λανθάνοντων μεταβλητών οι αποστάσεις ανά ζεύγη μεταξύ των αντικειμένων είναι οι ίδιες με το χώρο των αρχικών χαρακτηριστικών και ο αριθμός αυτών των μεταβλητών είναι σημαντικά μικρότερος από τον αριθμό των αντικειμένων, τότε η ερμηνεία της μεθόδου k-πλησιέστερων γειτόνων μπορεί να ληφθούν υπόψη από τη σκοπιά της σύγκρισης μη παραμετρικών εκτιμήσεων των πυκνοτήτων κατανομής πιθανοτήτων υπό όρους. Η άποψη των λανθάνοντων μεταβλητών που παρουσιάζονται εδώ είναι κοντά στη φύση της άποψης της πραγματικής διαστάσεων και άλλων όψεων που χρησιμοποιούνται σε διάφορες τεχνικές μείωσης διαστάσεων.

Όταν χρησιμοποιείται η μέθοδος k-πλησιέστερων γειτόνων για την αναγνώριση προτύπων, ο ερευνητής πρέπει να λύσει το δύσκολο πρόβλημα της επιλογής μιας μέτρησης για να προσδιορίσει την εγγύτητα των διαγνωσμένων αντικειμένων. Αυτό το πρόβλημα σε συνθήκες υψηλής διάστασης του χώρου χαρακτηριστικών είναι εξαιρετικά επιδεινωμένο λόγω της επαρκούς πολυπλοκότητας αυτής της μεθόδου, η οποία γίνεται σημαντική ακόμη και για υπολογιστές υψηλής απόδοσης. Επομένως, εδώ, όπως και στη μέθοδο σύγκρισης με ένα πρωτότυπο, είναι απαραίτητο να λυθεί το δημιουργικό πρόβλημα της ανάλυσης της πολυδιάστατης δομής των πειραματικών δεδομένων για να ελαχιστοποιηθεί ο αριθμός των αντικειμένων που αντιπροσωπεύουν διαγνωστικές κατηγορίες.

Αλγόριθμοι υπολογισμού βαθμολογιών (ψηφοφορία).Η αρχή λειτουργίας των αλγορίθμων υπολογισμού αξιολόγησης (ABO) είναι ο υπολογισμός της προτεραιότητας (βαθμοί ομοιότητας) που χαρακτηρίζει την «εγγύτητα» των αναγνωρισμένων και αντικειμένων αναφοράς σύμφωνα με ένα σύστημα συνόλων χαρακτηριστικών, το οποίο είναι ένα σύστημα υποσυνόλων ενός δεδομένου συνόλου χαρακτηριστικών .

Σε αντίθεση με όλες τις μεθόδους που συζητήθηκαν προηγουμένως, οι αλγόριθμοι για τον υπολογισμό των εκτιμήσεων λειτουργούν με περιγραφές αντικειμένων με έναν ριζικά νέο τρόπο. Για αυτούς τους αλγόριθμους, τα αντικείμενα υπάρχουν ταυτόχρονα σε πολύ διαφορετικούς υποχώρους του χώρου χαρακτηριστικών. Η κλάση ABO οδηγεί την ιδέα της χρήσης χαρακτηριστικών στο λογικό της συμπέρασμα: αφού δεν είναι πάντα γνωστό ποιοι συνδυασμοί χαρακτηριστικών είναι οι πιο ενημερωτικοί, τότε στο ABO ο βαθμός ομοιότητας των αντικειμένων υπολογίζεται συγκρίνοντας όλους τους πιθανούς ή συγκεκριμένους συνδυασμούς χαρακτηριστικά που περιλαμβάνονται στις περιγραφές των αντικειμένων.

Συλλογικότητες κανόνων απόφασης.Ο κανόνας απόφασης χρησιμοποιεί ένα σχήμα αναγνώρισης δύο επιπέδων. Στο πρώτο επίπεδο λειτουργούν αλγόριθμοι ιδιωτικής αναγνώρισης, τα αποτελέσματα των οποίων συνδυάζονται στο δεύτερο επίπεδο στο μπλοκ σύνθεσης. Οι πιο συνηθισμένες μέθοδοι μιας τέτοιας ενοποίησης βασίζονται στον εντοπισμό περιοχών αρμοδιότητας ενός συγκεκριμένου αλγορίθμου. Ο απλούστερος τρόπος εύρεσης περιοχών ικανοτήτων είναι η a priori διαχωρισμός του χώρου των χαρακτηριστικών με βάση επαγγελματικές εκτιμήσεις μιας συγκεκριμένης επιστήμης (για παράδειγμα, στρωματοποίηση του δείγματος σύμφωνα με ένα συγκεκριμένο χαρακτηριστικό). Στη συνέχεια, για κάθε μια από τις επιλεγμένες περιοχές, κατασκευάζεται ο δικός της αλγόριθμος αναγνώρισης. Μια άλλη μέθοδος βασίζεται στη χρήση επίσημης ανάλυσης για τον προσδιορισμό τοπικών περιοχών του χώρου χαρακτηριστικών ως γειτονιών αναγνωρισμένων αντικειμένων για τα οποία έχει αποδειχθεί η επιτυχία οποιουδήποτε συγκεκριμένου αλγορίθμου αναγνώρισης.

Η πιο γενική προσέγγιση για την κατασκευή ενός μπλοκ σύνθεσης θεωρεί τους προκύπτοντες δείκτες συγκεκριμένων αλγορίθμων ως τα αρχικά χαρακτηριστικά για την κατασκευή ενός νέου γενικευμένου κανόνα απόφασης. Σε αυτή την περίπτωση, μπορούν να χρησιμοποιηθούν όλες οι παραπάνω μέθοδοι εντατικών και εκτατικών κατευθύνσεων στην αναγνώριση προτύπων. Αποτελεσματικοί για την επίλυση του προβλήματος της δημιουργίας ενός συνόλου κανόνων απόφασης είναι λογικοί αλγόριθμοι του τύπου "Kora" και αλγόριθμοι υπολογισμού εκτιμήσεων (ABO), οι οποίοι αποτελούν τη βάση της λεγόμενης αλγεβρικής προσέγγισης, η οποία παρέχει τη μελέτη και εποικοδομητική περιγραφή του αλγόριθμους αναγνώρισης, στο πλαίσιο των οποίων εντάσσονται όλοι οι υπάρχοντες τύποι αλγορίθμων.

Μέθοδοι νευρωνικών δικτύων

Οι μέθοδοι νευρωνικών δικτύων είναι μέθοδοι που βασίζονται στη χρήση διαφόρων τύπων νευρωνικών δικτύων (NN). Οι κύριοι τομείς εφαρμογής διαφόρων νευρωνικών δικτύων για την αναγνώριση προτύπων και εικόνων:

    εφαρμογή για την εξαγωγή βασικών χαρακτηριστικών ή χαρακτηριστικών δεδομένων εικόνων,

    ταξινόμηση των ίδιων των εικόνων ή των χαρακτηριστικών που έχουν ήδη εξαχθεί από αυτές (στην πρώτη περίπτωση, η εξαγωγή βασικών χαρακτηριστικών γίνεται σιωπηρά εντός του δικτύου),

    επίλυση προβλημάτων βελτιστοποίησης.

Πολυστρωματικά νευρωνικά δίκτυα.Η αρχιτεκτονική ενός πολυστρωματικού νευρωνικού δικτύου (MNN) αποτελείται από διαδοχικά συνδεδεμένα επίπεδα, όπου ο νευρώνας κάθε στρώματος συνδέεται με τις εισόδους του σε όλους τους νευρώνες του προηγούμενου στρώματος και τις εξόδους του επόμενου.

Η απλούστερη εφαρμογή ενός νευρωνικού δικτύου μονής στρώσης (που ονομάζεται αυτόματη συσχετιστική μνήμη) είναι να εκπαιδεύσει το δίκτυο να ανακατασκευάσει τις τροφοδοτούμενες εικόνες. Τροφοδοτώντας μια δοκιμαστική εικόνα ως είσοδο και υπολογίζοντας την ποιότητα της ανακατασκευασμένης εικόνας, μπορείτε να αξιολογήσετε πόσο καλά το δίκτυο αναγνώρισε την εικόνα εισόδου. Οι θετικές ιδιότητες αυτής της μεθόδου είναι ότι το δίκτυο μπορεί να επαναφέρει παραμορφωμένες και θορυβώδεις εικόνες, αλλά δεν είναι κατάλληλη για πιο σοβαρούς σκοπούς.

Το MNN χρησιμοποιείται επίσης για άμεση ταξινόμηση εικόνας - είτε η ίδια η εικόνα σε κάποια μορφή είτε ένα σύνολο βασικών χαρακτηριστικών της εικόνας που έχουν εξαχθεί προηγουμένως παρέχεται ως είσοδος στην έξοδο, ο νευρώνας με τη μέγιστη δραστηριότητα υποδεικνύει συμμετοχή στην αναγνωρισμένη κλάση (Εικ. 4). Εάν αυτή η δραστηριότητα είναι κάτω από ένα συγκεκριμένο όριο, τότε θεωρείται ότι η εικόνα που υποβάλλεται δεν ανήκει σε καμία από τις γνωστές κλάσεις. Η διαδικασία εκμάθησης καθορίζει την αντιστοιχία των εικόνων που παρέχονται στην είσοδο με το να ανήκουν σε μια συγκεκριμένη τάξη. Αυτό ονομάζεται εποπτευόμενη μάθηση. Αυτή η προσέγγιση είναι καλή για εργασίες ελέγχου πρόσβασης μιας μικρής ομάδας ανθρώπων. Αυτή η προσέγγιση διασφαλίζει ότι το δίκτυο συγκρίνει απευθείας τις ίδιες τις εικόνες, αλλά με την αύξηση του αριθμού των κλάσεων, ο χρόνος εκπαίδευσης και λειτουργίας του δικτύου αυξάνεται εκθετικά. Επομένως, εργασίες όπως η εύρεση ενός παρόμοιου ατόμου σε μια μεγάλη βάση δεδομένων απαιτούν την εξαγωγή ενός συμπαγούς συνόλου βασικών χαρακτηριστικών στα οποία θα βασιστεί η αναζήτηση.

Μια προσέγγιση ταξινόμησης χρησιμοποιώντας χαρακτηριστικά συχνότητας ολόκληρης της εικόνας περιγράφεται στο. Χρησιμοποιήθηκε ένα νευρωνικό δίκτυο μονού επιπέδου που βασίζεται σε νευρώνες πολλαπλών τιμών.

Η εφαρμογή ενός νευρωνικού δικτύου για ταξινόμηση εικόνων εμφανίζεται όταν η είσοδος του δικτύου λαμβάνει τα αποτελέσματα της αποσύνθεσης της εικόνας χρησιμοποιώντας τη μέθοδο του κύριου στοιχείου.

Στο κλασικό MNN, οι διαστρωματικές νευρικές συνδέσεις είναι πλήρως συνδεδεμένες και η εικόνα αναπαρίσταται ως μονοδιάστατο διάνυσμα, αν και είναι δισδιάστατο. Η αρχιτεκτονική συνελικτικού νευρωνικού δικτύου στοχεύει να ξεπεράσει αυτές τις ελλείψεις. Χρησιμοποιούσε τοπικά πεδία υποδοχέα (παρέχουν τοπική δισδιάστατη συνδεσιμότητα νευρώνων), κοινά βάρη (παρέχουν ανίχνευση ορισμένων χαρακτηριστικών οπουδήποτε στην εικόνα) και ιεραρχική οργάνωση με χωρική υποδειγματοληψία. Το συνελικτικό νευρωνικό δίκτυο (CNN) παρέχει μερική αντίσταση σε αλλαγές κλίμακας, μετατοπίσεις, περιστροφές και παραμορφώσεις.

Τα MNN χρησιμοποιούνται επίσης για την ανίχνευση αντικειμένων συγκεκριμένου τύπου. Εκτός από το γεγονός ότι κάθε εκπαιδευμένο MNN μπορεί, σε κάποιο βαθμό, να προσδιορίσει εάν οι εικόνες ανήκουν στις κατηγορίες «τους», μπορεί να εκπαιδευτεί ειδικά για να ανιχνεύει αξιόπιστα ορισμένες κατηγορίες. Σε αυτήν την περίπτωση, οι κλάσεις εξόδου θα είναι κλάσεις που ανήκουν και δεν ανήκουν στον συγκεκριμένο τύπο εικόνας. Ένας ανιχνευτής νευρωνικού δικτύου χρησιμοποιήθηκε για την ανίχνευση μιας εικόνας προσώπου στην εικόνα εισόδου. Η εικόνα σαρώθηκε με ένα παράθυρο 20x20 pixel, το οποίο τροφοδοτήθηκε στην είσοδο του δικτύου, το οποίο αποφασίζει εάν μια δεδομένη περιοχή ανήκει στην κατηγορία προσώπων. Η εκπαίδευση πραγματοποιήθηκε χρησιμοποιώντας τόσο θετικά παραδείγματα (διάφορες εικόνες προσώπων) όσο και αρνητικά παραδείγματα (εικόνες που δεν είναι πρόσωπα). Για να αυξηθεί η αξιοπιστία της ανίχνευσης, χρησιμοποιήθηκε μια ομάδα νευρωνικών δικτύων, εκπαιδευμένων με διαφορετικά αρχικά βάρη, με αποτέλεσμα τα νευρωνικά δίκτυα να κάνουν σφάλματα με διαφορετικούς τρόπους και η τελική απόφαση να λαμβάνεται με ψηφοφορία ολόκληρης της ομάδας.

Εικόνα 5. Κύρια στοιχεία (ιδιοπρόσωπα) και αποσύνθεση εικόνας σε κύρια συστατικά

Ένα νευρωνικό δίκτυο χρησιμοποιείται επίσης για την εξαγωγή βασικών χαρακτηριστικών εικόνας, τα οποία στη συνέχεια χρησιμοποιούνται για μεταγενέστερη ταξινόμηση. Στο , παρουσιάζεται μια μέθοδος υλοποίησης νευρωνικού δικτύου της μεθόδου ανάλυσης του κύριου στοιχείου. Η ουσία της μεθόδου ανάλυσης του κύριου συστατικού είναι να ληφθούν όσο το δυνατόν πιο διακοσμημένοι συντελεστές που χαρακτηρίζουν τις εικόνες εισόδου. Αυτοί οι συντελεστές ονομάζονται κύρια συστατικά και χρησιμοποιούνται για στατιστική συμπίεση εικόνας, στην οποία χρησιμοποιείται ένας μικρός αριθμός συντελεστών για την αναπαράσταση ολόκληρης της εικόνας. Ένα νευρωνικό δίκτυο με ένα κρυφό στρώμα που περιέχει Ν νευρώνες (ο οποίος είναι πολύ μικρότερος από τη διάσταση της εικόνας), που εκπαιδεύεται χρησιμοποιώντας τη μέθοδο backpropagation για να επαναφέρει την εικόνα εξόδου που τροφοδοτείται στην είσοδο, δημιουργεί τους συντελεστές των πρώτων Ν βασικών στοιχείων στην έξοδο των κρυμμένων νευρώνων, που χρησιμοποιούνται για σύγκριση. Συνήθως, χρησιμοποιούνται από 10 έως 200 κύρια εξαρτήματα. Καθώς ο αριθμός ενός συστατικού αυξάνεται, η αντιπροσωπευτικότητά του μειώνεται πολύ και δεν έχει νόημα να χρησιμοποιούνται στοιχεία με μεγαλύτερους αριθμούς. Όταν χρησιμοποιούνται μη γραμμικές συναρτήσεις ενεργοποίησης νευρικών στοιχείων, είναι δυνατή η μη γραμμική αποσύνθεση σε κύρια συστατικά. Η μη γραμμικότητα επιτρέπει να αντικατοπτρίζονται με μεγαλύτερη ακρίβεια οι παραλλαγές στα δεδομένα εισόδου. Εφαρμόζοντας την ανάλυση των κύριων συστατικών στην αποσύνθεση των εικόνων του προσώπου, λαμβάνουμε τα κύρια συστατικά, που ονομάζονται ιδιοπρόσωπα, τα οποία έχουν επίσης μια χρήσιμη ιδιότητα - υπάρχουν στοιχεία που αντικατοπτρίζουν κυρίως βασικά χαρακτηριστικά ενός προσώπου όπως το φύλο, η φυλή, τα συναισθήματα. Όταν ανακατασκευάζονται, τα εξαρτήματα έχουν μια εμφάνιση σαν πρόσωπο, με το πρώτο να αντικατοπτρίζει το πιο γενικό σχήμα του προσώπου, το δεύτερο να αντιπροσωπεύει διάφορες μικρές διαφορές μεταξύ των προσώπων (Εικ. 5). Αυτή η μέθοδος είναι κατάλληλη για την εύρεση παρόμοιων εικόνων προσώπων σε μεγάλες βάσεις δεδομένων. Παρουσιάζεται επίσης η δυνατότητα περαιτέρω μείωσης της διάστασης των κύριων εξαρτημάτων χρησιμοποιώντας NN. Αξιολογώντας την ποιότητα της ανακατασκευής της εικόνας εισόδου, μπορείτε να προσδιορίσετε με μεγάλη ακρίβεια τη συμμετοχή της στην κατηγορία προσώπων.

Νευρωνικά δίκτυα υψηλής τάξης.Τα νευρωνικά δίκτυα υψηλής τάξης (HANN) διαφέρουν από τα MNN στο ότι έχουν μόνο ένα στρώμα, αλλά οι είσοδοι νευρώνων λαμβάνουν επίσης όρους υψηλής τάξης, οι οποίοι είναι το γινόμενο δύο ή περισσότερων συστατικών του διανύσματος εισόδου. Τέτοια δίκτυα μπορούν επίσης να σχηματίσουν πολύπλοκες διαχωριστικές επιφάνειες.

Νευρωνικά δίκτυα Hopfield.Το Hopfield NN (HNS) είναι μονοστρωματικό και πλήρως συνδεδεμένο (δεν υπάρχουν συνδέσεις μεταξύ των νευρώνων στον εαυτό τους), οι έξοδοι του συνδέονται με τις εισόδους. Σε αντίθεση με το MNS, το NSC είναι χαλάρωση - δηλ. όταν έχει οριστεί στην αρχική κατάσταση, λειτουργεί μέχρι να φτάσει σε μια σταθερή κατάσταση, που θα είναι η τιμή εξόδου του. Για την αναζήτηση ενός συνολικού ελάχιστου σε σχέση με προβλήματα βελτιστοποίησης, χρησιμοποιούνται στοχαστικές τροποποιήσεις του NSC.

Η χρήση του NSH ως συσχετιστικής μνήμης σάς επιτρέπει να επαναφέρετε με ακρίβεια τις εικόνες για τις οποίες έχει εκπαιδευτεί το δίκτυο όταν τροφοδοτείται μια παραμορφωμένη εικόνα στην είσοδο. Σε αυτήν την περίπτωση, το δίκτυο θα «θυμάται» την πλησιέστερη (με την έννοια της τοπικής ελάχιστης ενέργειας) εικόνα και έτσι θα την αναγνωρίσει. Μια τέτοια λειτουργία μπορεί επίσης να αναπαρασταθεί ως η διαδοχική εφαρμογή της αυτόματης συσχέτισης μνήμης που περιγράφεται παραπάνω. Σε αντίθεση με την αυτόματη συσχέτιση μνήμης, το NSC θα επαναφέρει τέλεια την εικόνα. Για την αποφυγή των ελάχιστων παρεμβολών και την αύξηση της χωρητικότητας του δικτύου, χρησιμοποιούνται διάφορες μέθοδοι.

Αυτοοργάνωση νευρωνικών δικτύων Kohonen.Τα αυτοοργανωμένα νευρωνικά δίκτυα Kohonen (KONN) παρέχουν τοπολογική διάταξη του χώρου της εικόνας εισόδου. Επιτρέπουν μια τοπολογικά συνεχή αντιστοίχιση ενός n-διάστατου χώρου εισόδου σε ένα m-διάστατο χώρο εξόδου, m<

Cognitron.Η αρχιτεκτονική του Cognitron είναι παρόμοια με τη δομή του οπτικού φλοιού, έχει μια ιεραρχική πολυστρωματική οργάνωση στην οποία οι νευρώνες μεταξύ των στρωμάτων συνδέονται μόνο τοπικά. Μάθηση με ανταγωνιστική μάθηση (χωρίς δάσκαλο). Κάθε στρώμα του εγκεφάλου εφαρμόζει διαφορετικά επίπεδα γενίκευσης. το επίπεδο εισόδου είναι ευαίσθητο σε απλά μοτίβα, όπως γραμμές, και τον προσανατολισμό τους σε ορισμένες περιοχές του οπτικού τομέα, ενώ η απόκριση άλλων επιπέδων είναι πιο σύνθετη, αφηρημένη και ανεξάρτητη από τη θέση του μοτίβου. Παρόμοιες λειτουργίες υλοποιούνται στο cognitron διαμορφώνοντας την οργάνωση του οπτικού φλοιού.

Το Neocognitron είναι μια περαιτέρω ανάπτυξη της ιδέας του cognitron και αντικατοπτρίζει με μεγαλύτερη ακρίβεια τη δομή του οπτικού συστήματος, σας επιτρέπει να αναγνωρίζετε εικόνες ανεξάρτητα από τους μετασχηματισμούς, τις περιστροφές, τις παραμορφώσεις και τις αλλαγές στην κλίμακα τους.

Το Cognitron είναι ένα ισχυρό εργαλείο αναγνώρισης εικόνων, αλλά απαιτεί υψηλό υπολογιστικό κόστος, το οποίο είναι επί του παρόντος ανέφικτο.

Οι θεωρούμενες μέθοδοι νευρωνικών δικτύων παρέχουν γρήγορη και αξιόπιστη αναγνώριση εικόνων, αλλά όταν χρησιμοποιούνται αυτές οι μέθοδοι, προκύπτουν προβλήματα στην αναγνώριση τρισδιάστατων αντικειμένων. Ωστόσο, αυτή η προσέγγιση έχει πολλά πλεονεκτήματα.

      συμπέρασμα

Επί του παρόντος, υπάρχει αρκετά μεγάλος αριθμός συστημάτων αυτόματης αναγνώρισης προτύπων για διάφορες εφαρμοζόμενες εργασίες.

Η αναγνώριση προτύπων με επίσημες μεθόδους ως θεμελιώδης επιστημονική κατεύθυνση είναι ανεξάντλητη.

Οι μαθηματικές μέθοδοι επεξεργασίας εικόνας έχουν μεγάλη ποικιλία εφαρμογών: επιστήμη, τεχνολογία, ιατρική, κοινωνική σφαίρα. Στο μέλλον, ο ρόλος της αναγνώρισης προτύπων στην ανθρώπινη ζωή θα αυξηθεί ακόμη περισσότερο.

Οι μέθοδοι νευρωνικών δικτύων παρέχουν γρήγορη και αξιόπιστη αναγνώριση εικόνων. Αυτή η προσέγγιση έχει πολλά πλεονεκτήματα και είναι ένα από τα πιο ελπιδοφόρα.

Βιβλιογραφία

    D.V. Brilyuk, V.V. Σταροβοΐτοφ. Μέθοδοι νευρωνικών δικτύων για την αναγνώριση εικόνων // /

    Kuzin L.T. Βασικές αρχές της κυβερνητικής: Βασικές αρχές κυβερνητικών μοντέλων. Τ.2. - Μ.: Ενέργεια, 1979. - 584 σελ.

    Peregudov F.I., Tarasenko F.P. Εισαγωγή στην ανάλυση συστημάτων: Σχολικό βιβλίο. – Μ.: Ανώτατο Σχολείο, 1997. - 389 σελ.

    Temnikov F.E., Afonin V.A., Dmitriev V.I. Θεωρητικά θεμέλια της πληροφορικής. - Μ.: Ενέργεια, 1979. - 511 σελ.

    Tu J., Gonzalez R. Αρχές αναγνώρισης προτύπων. /Μετ. από τα Αγγλικά - Μ.: Μιρ, 1978. - 410 σελ.

    Winston P. Τεχνητή νοημοσύνη. /Μετ. από τα Αγγλικά - Μ.: Μιρ, 1980. - 520 σελ.

    Fu K. Δομικές μέθοδοι στην αναγνώριση προτύπων: Μετάφραση από τα αγγλικά. - Μ.: Μιρ, 1977. - 320 σελ.

    Tsypkin Ya.Z. Βασικές αρχές της θεωρίας της ταυτότητας της πληροφορίας. - Μ.: Nauka, 1984. - 520 σελ.

    Pospelov G.S. Η τεχνητή νοημοσύνη είναι η βάση της νέας τεχνολογίας πληροφοριών. - Μ.: Nauka, 1988. - 280 σελ.

    Yu. Lifshits, Στατιστικές μέθοδοι αναγνώρισης προτύπων ///modern/07modernnote.pdf.

    Bohr N. Ατομική φυσική και ανθρώπινη γνώση. /Μετάφραση από τα αγγλικά - Μ.: Μιρ, 1961. - 151 σελ.

    Butakov E.A., Ostrovsky V.I., Fadeev I.L. Επεξεργασία εικόνας σε υπολογιστή.1987.-236σ.

    Duda R., Hart P. Αναγνώριση προτύπων και ανάλυση σκηνής. /Μετάφραση από τα αγγλικά - Μ.: Μιρ, 1978. - 510 σελ.

    Duke V.A. Ψυχοδιαγνωστική Η/Υ. - Αγία Πετρούπολη: Brotherhood, 1994. - 365 p.

    Aizenberg I. N., Aizenberg N. N. και Krivosheev G. A. Multi-valued and Universal Binary Neurons: Learning Algorithms, Applications to Image Processing and Recognition. Σημειώσεις Διάλεξης στην Τεχνητή Νοημοσύνη – Μηχανική Μάθηση και Εξόρυξη Δεδομένων στην Αναγνώριση Προτύπων, 1999, σελ. 21-35.

    Ranganath S. και Arun K. Αναγνώριση προσώπου με χρήση χαρακτηριστικών μετασχηματισμού και νευρωνικών δικτύων. Pattern Recognition 1997, Vol. 30, σελ. 1615-1622.

    Golovko V.A. Νευρονοημοσύνη: Θεωρία και εφαρμογές. Βιβλίο 1. Οργάνωση και εκπαίδευση νευρωνικών δικτύων με άμεσες και ανατροφοδοτούμενες συνδέσεις - Brest: BPI, 1999, - 260 pp.

    Vetter T. και Poggio T. Γραμμικές τάξεις αντικειμένων και σύνθεση εικόνας από μια ενιαία εικόνα παραδείγματος. IEEE Transactions on Pattern Analysis and Machine Intelligence 1997, Vol. 19, σσ. 733-742.

    Golovko V.A. Νευρονοημοσύνη: Θεωρία και εφαρμογές. Βιβλίο 2. Αυτο-οργάνωση, ανοχή σφαλμάτων και εφαρμογή νευρωνικών δικτύων - Brest: BPI, 1999, - 228 p.

    Lawrence S., Giles C. L., Tsoi A. C. and Back A. D. Face Recognition: A Convolutional Neural Network Approach. IEEE Transactions on Neural Networks, Special Issue on Neural Networks and Pattern Recognition, pp. 1-24.

    Wasserman F. Τεχνολογία νευροϋπολογιστών: Θεωρία και πρακτική, 1992 – 184 σελ.

    Rowley, H. A., Baluja, S. and Kanade, T. Ανίχνευση προσώπου με βάση το νευρωνικό δίκτυο. IEEE Transactions on Pattern Analysis and Machine Intelligence 1998, Vol. 20, σελ. 23-37.

    Valentin D., Abdi H., O"Toole A. J. and Cottrell G. W. Connectionist models of face processing: a research. IN: Pattern Recognition 1994, Vol. 27, σελ. 1209-1230.

    Εγγραφο

    Συνθέτουν αλγόριθμους αναγνώρισηεικόνες. ΜέθοδοιαναγνώρισηεικόνεςΌπως σημειώθηκε παραπάνω... η πραγματικότητα δεν είναι υπάρχει«οικοσυστήματα γενικά», και υπάρχειμόνο μεμονωμένα... συμπεράσματα από αυτό αναλυτικά ανασκόπησημεθόδουςαναγνώρισηπαρουσιάσαμε στο...

  1. Ανασκόπηση μεθόδων αναγνώρισης ατόμων βάσει εικόνων προσώπων, λαμβάνοντας υπόψη τα χαρακτηριστικά της οπτικής αναγνώρισης

    Ανασκόπηση

    ... αναγνώρισηαπό άτομο με αντικείμενα χαμηλής αντίθεσης, συμπ. πρόσωπα Δεδομένος ανασκόπησηκοινός μεθόδους ... Υπάρχειολόκληρη γραμμή μεθόδους ... τρόπος, ως αποτέλεσμα της έρευνας, μια πλατφόρμα για την ανάπτυξη μέθοδοςαναγνώριση ...

  2. Με το όνομα Glazkova Valentina Vladimirovna ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΜΕΘΟΔΩΝ ΚΑΤΑΣΚΕΥΗΣ ΕΡΓΑΛΕΙΩΝ ΛΟΓΙΣΜΙΚΟΥ ΓΙΑ ΤΑΞΙΝΟΜΗΣΗ ΠΟΛΥΘΕΜΑΤΩΝ ΥΠΕΡΚΕΙΜΕΝΩΝ ΕΓΓΡΑΦΩΝ Ειδικότητα 05

    Περίληψη της διατριβής

    Έγγραφα υπερκειμένου. Το κεφάλαιο παρέχει ανασκόπησηυπάρχονμεθόδουςλύσεις στο υπό εξέταση πρόβλημα, περιγραφή... με αποκοπή των λιγότερο σχετικών τάξεων // Μαθηματικά μεθόδουςαναγνώρισηεικόνες: 13ο Πανρωσικό Συνέδριο. Περιφέρεια Λένινγκραντ...

  3. Διαφάνεια 0 Επισκόπηση εργασιών βιοπληροφορικής που σχετίζονται με την ανάλυση και την επεξεργασία γενετικών κειμένων

    Διάλεξη

    Αλληλουχίες DNA και πρωτεϊνών. Ανασκόπησηοι εργασίες βιοπληροφορικής ως εργασίες... σήματα απαιτούν τη χρήση σύγχρονων μεθόδουςαναγνώρισηεικόνες, στατιστικές προσεγγίσεις και... με χαμηλή γονιδιακή πυκνότητα. ΥπάρχονΤα προγράμματα πρόβλεψης γονιδίων δεν είναι...

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ: ΕΝΑ ΠΡΟΒΛΗΜΑ ΚΑΙ ΜΙΑ ΛΥΣΗ

Αλεξάντρ Μοργκούνοφ

φοιτητής του τμήματος «Τεχνολογία Πληροφορικής» Don State Technical University

Ρωσία, Ροστόφ-ον-Ντον

Νταϊάνα Μανσούροβα

ερευνητής στο FGANU NII Specvuzavtomatika,

Ρωσία, Ροστόφ-ον-Ντον

Κέι Τιουρίν

ερευνητής στο FGANU NII Specvuzavtomatika,

Ρωσία, Ροστόφ-ον-Ντον

ΣΧΟΛΙΟ

Το άρθρο περιγράφει τα αποτελέσματα μιας συγκριτικής ανάλυσης υφιστάμενων μεθόδων και αλγορίθμων για την αναγνώριση ανθρώπινων προσώπων.

ΑΦΗΡΗΜΕΝΗ

Σε αυτή την εργασία εξετάστηκε το πρόβλημα της αναγνώρισης του ανθρώπινου προσώπου. Περιγράφηκαν και συγκρίθηκαν διάφορες μέθοδοι και αλγόριθμοι αναγνώρισης προσώπου.

Λέξεις-κλειδιά:αναγνώριση προσώπου, μηχανική μάθηση, όραση υπολογιστή, νευρωνικά δίκτυα.

Λέξεις-κλειδιά:αναγνώριση προσώπου, μηχανική μάθηση, όραση υπολογιστή, νευρωνικά δίκτυα.

Η αναγνώριση αντικειμένων είναι εύκολη υπόθεση για τους ανθρώπους, τα πειράματα που διεξήχθησαν στο έργο έδειξαν ότι ακόμη και τα παιδιά ηλικίας μίας έως τριών ημερών είναι σε θέση να διακρίνουν πρόσωπα που θυμούνται. Επειδή δεν βλέπουμε τον κόσμο ως μια συλλογή χωριστών μερών, ο εγκέφαλός μας πρέπει με κάποιο τρόπο να συνδυάζει διαφορετικές πηγές πληροφοριών σε χρήσιμα μοτίβα. Το καθήκον της αυτόματης αναγνώρισης προσώπου είναι να εξάγει αυτά τα σημαντικά χαρακτηριστικά από μια εικόνα, να τα μετατρέπει σε χρήσιμη αναπαράσταση και να πραγματοποιεί κάποιο είδος ταξινόμησης.

Μια διαδικασία αναγνώρισης προσώπου που βασίζεται στα γεωμετρικά χαρακτηριστικά του προσώπου είναι ίσως η πιο διαισθητική προσέγγιση για την αναγνώριση προσώπου. Πειράματα σε ένα μεγάλο σύνολο δεδομένων έδειξαν ότι τα γεωμετρικά χαρακτηριστικά από μόνα τους δεν μπορούν να παρέχουν αρκετές πληροφορίες για την αναγνώριση προσώπου.

Η μέθοδος, που ονομάζεται Eigenfaces, που περιγράφεται στην εργασία, ακολουθεί μια ολιστική προσέγγιση στο έργο της αναγνώρισης προσώπου. Η εικόνα προσώπου είναι ένα σημείο από έναν χώρο εικόνας υψηλής διάστασης, το οποίο συνδέεται με μια αναπαράσταση από τον λεγόμενο χώρο χαμηλής διάστασης, όπου η ταξινόμηση γίνεται μια απλή εργασία. Ο υποχώρος χαμηλής διάστασης βρίσκεται χρησιμοποιώντας τη μέθοδο ανάλυσης βασικών συνιστωσών (PCA), η οποία προσδιορίζει τους άξονες με τη μέγιστη διακύμανση. Αν και αυτός ο τύπος μετασχηματισμού είναι βέλτιστος από την άποψη της ανακατασκευής, δεν λαμβάνει υπόψη τις ετικέτες κλάσεων. Εάν η διακύμανση δημιουργείται από μια εξωτερική πηγή (όπως ο φωτισμός), οι άξονες με μέγιστη διακύμανση ενδέχεται να μην περιέχουν καμία ξεχωριστή πληροφορία, επομένως η ταξινόμηση καθίσταται αδύνατη. Ως εκ τούτου, στην εργασία για το έργο της αναγνώρισης προσώπου, χρησιμοποιήθηκε προβολή κλάσης με ανάλυση γραμμικής διάκρισης. Η βασική ιδέα ήταν να ελαχιστοποιηθεί η διακύμανση εντός της τάξης και ταυτόχρονα να μεγιστοποιηθεί η διακύμανση μεταξύ των κλάσεων.

Πρόσφατα, έχουν συνδυαστεί διάφορες μέθοδοι εξαγωγής τοπικών χαρακτηριστικών. Προκειμένου να αποφευχθεί η πολυδιάσταση των δεδομένων εισόδου, περιγράφονται μόνο τοπικές περιοχές της εικόνας. Τα εξαγόμενα χαρακτηριστικά είναι πιο ανθεκτικά έναντι της μερικής απόφραξης, του φωτισμού και του μικρού μεγέθους της εικόνας εισόδου. Οι αλγόριθμοι που χρησιμοποιούν τοπική εξαγωγή χαρακτηριστικών είναι: Gabor Wavelets, Discrete Cosine Transform και Local Binary Patterns. Το ερώτημα ποιος είναι ο καλύτερος τρόπος διατήρησης χωρικών πληροφοριών κατά την εφαρμογή μιας τοπικής μεθόδου εξαγωγής χαρακτηριστικών παραμένει ανοιχτό για έρευνα, καθώς οι χωρικές πληροφορίες είναι δυνητικά χρήσιμες για την επίλυση του προβλήματος της αναγνώρισης προσώπου.

Η μέθοδος Eigenfaces εκτελεί αναγνώριση προσώπου χρησιμοποιώντας τα ακόλουθα βήματα:

Προβολή όλων των παραδειγμάτων εκπαίδευσης στον υποχώρο της ανάλυσης του κύριου στοιχείου.

Προβολή της ζητούμενης εικόνας στον υποχώρο ανάλυσης του κύριου στοιχείου.

Εύρεση των πλησιέστερων γειτόνων μεταξύ των προβαλλόμενων εικόνων εκπαίδευσης και της προβαλλόμενης εικόνας ερωτήματος.

Το Σχήμα 1 δείχνει ένα παράδειγμα του τρόπου με τον οποίο τα πρόσωπα αντιπροσωπεύονται από τον αλγόριθμο Eigenfaces. Ο συνδυασμός χρωμάτων πίδακα χρησιμοποιήθηκε για να δείξει πώς κατανέμονται οι τιμές κλίμακας του γκρι σε συγκεκριμένα πρόσωπα. Ο αλγόριθμος κωδικοποιεί όχι μόνο τα χαρακτηριστικά του προσώπου, αλλά και τον φωτισμό των εικόνων.

Εικόνα 1. Αναπαράσταση προσώπων από τον αλγόριθμο Eigenfaces στο χρωματικό σχήμα jet

.

Τα δεδομένα προσώπου ανακατασκευάστηκαν από μια προσέγγιση χαμηλών διαστάσεων. Το σχήμα 2 δείχνει ανακατασκευές με διαφορετικούς αριθμούς εξαρτημάτων από 10 έως 310.

Εικόνα 2. Ανακατασκευές με διαφορετικούς αριθμούς στοιχείων χρησιμοποιώντας τον αλγόριθμο Eigenfaces

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Προφανώς, τα 10 ιδιοδιανύσματα είναι ένας ασήμαντος αριθμός για καλή αναδόμηση εικόνας. 50 ιδιοδιανύσματα μπορούν ήδη να συμβάλουν στην κωδικοποίηση σημαντικών χαρακτηριστικών του προσώπου. Είναι δυνατό να επιτευχθεί μια καλή ανακατασκευή με περίπου 300 ιδιοδιανύσματα. Υπάρχουν κανόνες για την επιλογή του απαιτούμενου αριθμού ιδιοδιανυσμάτων για μια επιτυχημένη διαδικασία αναγνώρισης προσώπου, ωστόσο, εξαρτώνται σε μεγάλο βαθμό από τα δεδομένα εισόδου.

Η ανάλυση κύριου συστατικού (PCA), η οποία είναι η βάση του αλγόριθμου Eigenfaces, βρίσκει γραμμικούς συνδυασμούς χαρακτηριστικών που μεγιστοποιούν τη συνολική διακύμανση στα δεδομένα. Αν και το PCA είναι ένας καλός τρόπος αναπαράστασης δεδομένων, δεν λαμβάνει υπόψη τις κλάσεις και πολλές χρήσιμες πληροφορίες μπορούν να χαθούν κατά τη διάρκεια των μετασχηματισμών. Εάν η διασπορά δεδομένων δημιουργείται από μια εξωτερική πηγή όπως το φως, τα στοιχεία που προσδιορίζονται από το PCA ενδέχεται να μην περιέχουν σαφείς πληροφορίες. Ως αποτέλεσμα, τα προβαλλόμενα δεδομένα αναμιγνύονται και η ταξινόμηση γίνεται αδύνατη.

Η ανάλυση γραμμικής διάκρισης, η οποία εκτελεί μείωση διαστάσεων κατά κατηγορία στα δεδομένα εισόδου, προτάθηκε από τον στατιστικολόγο Ronald Fisher, ο οποίος τη χρησιμοποίησε με επιτυχία για την ταξινόμηση των χρωμάτων. Η μέθοδος βρίσκει γραμμικούς συνδυασμούς χαρακτηριστικών που διαχωρίζουν καλύτερα πολλαπλές κατηγορίες αντικειμένων και επίσης μεγιστοποιεί την αναλογία μεταξύ της διασποράς διαφορετικών και στενά συνδεδεμένων κλάσεων, αντί να μεγιστοποιεί τη συνολική αναλογία. Η απλή ιδέα είναι ότι παρόμοιες κλάσεις θα πρέπει να συνδέονται στενά, ενώ ταυτόχρονα οι διαφορετικές κλάσεις θα πρέπει να είναι όσο το δυνατόν πιο μακριά για να αντιπροσωπεύουν δεδομένα χαμηλών διαστάσεων. Μια παρόμοια προσέγγιση προτάθηκε επίσης από τους Belhamer, Hespana και Kriegman, οι οποίοι εφάρμοσαν ανάλυση διάκρισης σε ένα πρόβλημα αναγνώρισης προσώπου στο .

Το σχήμα 3 δείχνει ένα παράδειγμα του αλγορίθμου Fisherfaces, ο οποίος απεικονίζει τα λεγόμενα πρόσωπα Fisher. Κάθε πρόσωπο Phisher έχει το ίδιο μέγεθος με την αρχική εικόνα, ώστε να μπορεί να εμφανίζεται ως εικόνα.

Εικόνα 3. Παράδειγμα αλγορίθμου Fisherfaces

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Ο αλγόριθμος Fisherfaces χρησιμοποιεί έναν πίνακα μετασχηματισμού που βασίζεται σε κλάσεις, επομένως δεν λαμβάνει υπόψη τον φωτισμό, όπως ακριβώς και ο αλγόριθμος Eigenfaces. Αντίθετα, η διακριτική ανάλυση βρίσκει χαρακτηριστικά του προσώπου για να διακρίνει μεταξύ των προσώπων. Είναι σημαντικό να σημειωθεί ότι η απόδοση του αλγορίθμου Fisherfaces εξαρτάται επίσης σε μεγάλο βαθμό από τα δεδομένα εισόδου. Εάν εκπαιδεύσετε τον αλγόριθμο Fisherfaces σε εικόνες με υψηλό φωτισμό και στη συνέχεια προσπαθήσετε να αναγνωρίσετε πρόσωπα σε εικόνες με χαμηλό φωτισμό, η μέθοδος πιθανότατα θα βρει τα λάθος στοιχεία, επειδή αυτά τα χαρακτηριστικά ενδέχεται να μην είναι κυρίαρχα σε εικόνες με χαμηλό φωτισμό. Κάτι που είναι προφανές, αφού ο αλγόριθμος δεν μπορεί να εκπαιδευτεί να αναγνωρίζει τον φωτισμό.

Ο αλγόριθμος Fisherfaces επιτρέπει την ανακατασκευή των προβαλλόμενων εικόνων με τον ίδιο τρόπο όπως το Eigenfaces. Αλλά λόγω του γεγονότος ότι ο αλγόριθμος προσδιορίζει μόνο τα κύρια χαρακτηριστικά που καθιστούν δυνατή τη διάκριση αντικειμένων, δεν μπορούμε να περιμένουμε μια καλή ανακατασκευή της αρχικής εικόνας. Για να οπτικοποιήσετε τον αλγόριθμο Fisherfaces, η αρχική εικόνα προβάλλεται σε καθένα από τα πρόσωπα Fisher. Το σχήμα 4 δείχνει μια απεικόνιση του αλγόριθμου Fisherfaces, ο οποίος δείχνει ποια χαρακτηριστικά περιγράφει κάθε ένα από τα πρόσωπα Fisher.

Εικόνα 4. Ανακατασκευασμένα πρόσωπα Fisher

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Οι αλγόριθμοι Eigenfaces και Fisherfaces προσφέρουν ένα είδος ολιστικής προσέγγισης για την επίλυση του προβλήματος της αναγνώρισης προσώπου. Αναπαριστά τα δεδομένα ως διάνυσμα κάπου στον πολυδιάστατο χώρο εικόνας. Η υψηλή διάσταση είναι γνωστό ότι είναι μια κακή ιδιότητα των δεδομένων, επομένως ορίζεται ένας υποχώρος χαμηλής διάστασης όπου είναι πιθανό να αποθηκευτούν χρήσιμες πληροφορίες. Ο αλγόριθμος Eigenfaces μεγιστοποιεί τη συνολική διακύμανση, η οποία μπορεί να οδηγήσει σε πρόβλημα όταν η διακύμανση δημιουργείται από μια εξωτερική πηγή, καθώς τα στοιχεία με την υψηλότερη διακύμανση όλων των κλάσεων δεν είναι απαραίτητα χρήσιμα για την ταξινόμηση ενός αντικειμένου. Επομένως, για να διατηρηθούν ορισμένες διακριτές πληροφορίες, χρησιμοποιείται γραμμική διακριτική ανάλυση με τη βελτιστοποίηση που περιγράφεται στον αλγόριθμο Fisherfaces. Ο αλγόριθμος Fisherfaces αποδίδει σχετικά καλά, τουλάχιστον για το περιορισμένο σενάριο του ίδιου επιπέδου φωτισμού εικόνας.

Αλλά στην πραγματικότητα, οι ιδανικές παράμετροι φωτισμού στις εικόνες δεν είναι εγγυημένες. Επιπλέον, εάν υπάρχει μόνο μία εικόνα ανά άτομο, ο υπολογισμός της συνδιακύμανσης για τον υποχώρο, και ως εκ τούτου η αναγνώριση, μπορεί να είναι σημαντικά λανθασμένος. Για τη βάση δεδομένων δημοσίων προσώπων της AT&T, οι αλγόριθμοι Eigenfaces και Fisherfaces έχουν ποσοστό αναγνώρισης 96%, αλλά αυτό το ποσοστό εξαρτάται σε μεγάλο βαθμό (μεταξύ άλλων) από τον αριθμό των εικόνων εκπαίδευσης. Το Σχήμα 5 δείχνει τα ποσοστά αναγνώρισης των αλγορίθμων Eigenfaces και Fisherfaces στη βάση δεδομένων ανοιχτών προσώπων AT&T, τα οποία είναι αρκετά εύκολο να αναγνωριστούν.

Εικόνα 5. Επίπεδο αναγνώρισης αλγορίθμων Eigenfaces και Fisherfaces

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Το σχήμα δείχνει ότι για να επιτευχθεί καλός ρυθμός αναγνώρισης, απαιτούνται τουλάχιστον 8 (+–1) εικόνες για κάθε άτομο και ο αλγόριθμος Fisherfaces δεν βοηθάει πολύ σε αυτή την περίπτωση.

Ως εκ τούτου, ορισμένες έρευνες επικεντρώνονται στην εξαγωγή τοπικών χαρακτηριστικών από εικόνες. Η ιδέα δεν είναι να αναπαραστήσουμε ολόκληρη την εικόνα ως πολυδιάστατο διάνυσμα, αλλά να περιγράψουμε μόνο τοπικά χαρακτηριστικά του αντικειμένου. Τα χαρακτηριστικά που εξάγονται με αυτόν τον τρόπο έχουν αναπαράσταση χαμηλών διαστάσεων. Ωστόσο, η αναπαράσταση των εικόνων εισόδου υποφέρει όχι μόνο από τις ενδείξεις φωτισμού, αλλά και από το μέγεθος της εικόνας, τη μετατόπιση ή την περιστροφή της. Επομένως, η τοπική περιγραφή πρέπει να είναι ανθεκτική σε αυτούς τους τύπους αλλαγών. Η τοπική μεθοδολογία δυαδικών προτύπων έχει ρίζες στη δισδιάστατη ανάλυση υφής. Η κύρια ιδέα της μεθόδου είναι να συνοψίσει τις τοπικές δομές εικόνας συγκρίνοντας κάθε pixel με τα γειτονικά του. Ένα pixel λαμβάνεται ως κέντρο και οι τιμές των γειτόνων του μετατρέπονται. Εάν η ένταση του γειτονικού εικονοστοιχείου είναι μεγαλύτερη ή ίση με την ένταση του κεντρικού εικονοστοιχείου, τότε ο γείτονας σημειώνεται με 1, διαφορετικά 0. Μετά τον μετασχηματισμό, λαμβάνεται ο δυαδικός αριθμός που προκύπτει (για παράδειγμα, ως 0010011). Ως αποτέλεσμα, από 8 γειτονικά εικονοστοιχεία, λαμβάνονται 2 8 πιθανοί συνδυασμοί, που ονομάζονται τοπικά δυαδικά μοτίβα (κώδικες LBP). Ο πρώτος χειριστής LBP που περιγράφεται στη βιβλιογραφία χρησιμοποίησε ένα παράθυρο 3x3, ένα παράδειγμα φαίνεται στο Σχήμα 6.

Εικόνα 6. Χειριστής LBP

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Αυτή η προσέγγιση σάς επιτρέπει να καταγράφετε λεπτές λεπτομέρειες στις εικόνες. Στην πραγματικότητα, οι συγγραφείς μπόρεσαν να ανταγωνιστούν με τελευταίας τεχνολογίας αποτελέσματα στην ταξινόμηση υφής. Σύντομα παρατηρήθηκε ότι το σταθερό μέγεθος παραθύρου δεν μπορούσε να κωδικοποιήσει λεπτομέρειες διαφορετικών μεγεθών. Επομένως, ο χειριστής έχει επεκταθεί ώστε να χρησιμοποιεί μεταβλητό μέγεθος παραθύρου στη λειτουργία. Η ιδέα είναι να ευθυγραμμιστεί ένας αυθαίρετος αριθμός γειτόνων σε έναν κύκλο μεταβλητής ακτίνας που θα αποτυπώνει τοπικά δυαδικά μοτίβα όπως αυτά που παρουσιάζονται στο Σχήμα 7.

Εικόνα 7. Διάφορα τοπικά δυαδικά μοτίβα

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Αυτός ο τελεστής είναι μια επέκταση των αρχικών κωδικών LBP, επομένως μερικές φορές ονομάζεται εκτεταμένο LBP. Εάν οι συντεταγμένες των σημείων στον κύκλο δεν αντιστοιχούν στις συντεταγμένες της εικόνας, το σημείο παρεμβάλλεται. Εξ ορισμού, ο τελεστής LBP είναι ανθεκτικός σε μονοτονικούς μετασχηματισμούς κλίμακας του γκρι. Αυτό φαίνεται στο Σχήμα 8, το οποίο δείχνει εικόνες LBP τεχνητά τροποποιημένων αρχικών εικόνων.

Εικόνα 8. Ανθεκτικότητα του χειριστή LBP σε μονοτονικούς μετασχηματισμούς σε αποχρώσεις του γκρι

Πηγή: Αναγνώριση προσώπου με OpenCV // τεκμηρίωση OpenCV 2.4.13.4. URL: https://docs.opencv.org/2.4/modules/contrib/doc/facerec/facerec_tutorial... .

Το μόνο που μένει είναι να συνδυαστούν οι χωρικές πληροφορίες σε μοντέλα αναγνώρισης προσώπου. Η προσέγγιση που προτείνεται στην εργασία είναι να διαιρεθεί η εικόνα LBP σε m τοπικές περιοχές και να εξαχθούν ιστογράμματα από κάθε μία. Μετά από αυτό, λαμβάνεται ένας χωρικά διευρυμένος φορέας με τη σύνδεση ιστογραμμάτων (όχι συνδυασμού). Τέτοια ιστογράμματα ονομάζονται ιστογράμματα τοπικού δυαδικού σχεδίου.

Μέχρι σήμερα, οι μέθοδοι και οι αλγόριθμοι που βασίζονται σε νευρωνικά δίκτυα, όπως το DeepFace και το FaceNet, έχουν προχωρήσει περισσότερο. Η εργασία της ομάδας Visual Geometry και των Lightened Convolutional Neural Networks συνέβαλε επίσης πολύ στην επίλυση του προβλήματος της αναγνώρισης προσώπου. Τα νευρωνικά δίκτυα αποτελούνται από πολλές συνθέσεις συναρτήσεων ή επιπέδων, ακολουθούμενες από μια συνάρτηση απώλειας που καθορίζει πόσο καλά το νευρωνικό δίκτυο μοντελοποιεί τα δεδομένα, δηλαδή πόσο ακριβή ταξινομεί την εικόνα. Για να λυθεί το πρόβλημα της αναγνώρισης προσώπου, ένα σύστημα που χρησιμοποιεί ένα νευρωνικό δίκτυο πρέπει να βρει ένα πρόσωπο σε μια εικόνα χρησιμοποιώντας μία από τις πολλές υπάρχουσες μεθόδους. Στη συνέχεια, το σύστημα δημιουργεί κανονικοποιημένα δεδομένα εισόδου για το νευρωνικό δίκτυο από κάθε όψη που βρέθηκε. Τέτοια δεδομένα είναι πολύ πολυδιάστατα για να δοθούν αμέσως σε έναν ταξινομητή. Ένα νευρωνικό δίκτυο χρησιμοποιείται για την εξαγωγή των κύριων χαρακτηριστικών προκειμένου να παρέχει μια χαμηλών διαστάσεων αναπαράσταση των δεδομένων που περιγράφουν ένα πρόσωπο. Μια τέτοια χαμηλών διαστάσεων αναπαράσταση δεδομένων μπορεί ήδη να χρησιμοποιηθεί αποτελεσματικά σε ταξινομητές.

Για παράδειγμα, ο αλγόριθμος DeepFace χρησιμοποιεί αρχικά τρισδιάστατη μοντελοποίηση προσώπου για να ομαλοποιήσει την εικόνα εισόδου για να δημιουργήσει μια μετωπική όψη του προσώπου, ακόμα κι αν το πρόσωπο στη φωτογραφία ήταν αρχικά από διαφορετική γωνία. Στη συνέχεια, ο αλγόριθμος ορίζει την ταξινόμηση ως ένα στενά συνδεδεμένο στρώμα ενός νευρωνικού δικτύου με μια συνάρτηση Softmax, η οποία μας επιτρέπει να λάβουμε μια κανονικοποιημένη κατανομή πιθανότητας ως έξοδο. Οι καινοτομίες του αλγόριθμου DeepFace είναι: ευθυγράμμιση σε τρισδιάστατο μοντέλο, νευρωνικό δίκτυο με 120 εκατομμύρια παραμέτρους και εκπαίδευση σε 4,4 εκατομμύρια εικόνες προσώπων. Μόλις το νευρωνικό δίκτυο εκπαιδευτεί σε τόσο μεγάλο αριθμό προσόψεων, το τελικό στρώμα ταξινόμησης αφαιρείται και η έξοδος του προηγούμενου στρώματος χρησιμοποιείται ως αναπαράσταση του προσώπου σε χαμηλές διαστάσεις.

Συχνά, τα προγράμματα αναγνώρισης προσώπου αναζητούν μια αναπαράσταση χαμηλών διαστάσεων που γενικεύεται καλά σε νέα πρόσωπα στα οποία το νευρωνικό δίκτυο δεν έχει εκπαιδευτεί. Η προσέγγιση του αλγόριθμου DeepFace αντιμετωπίζει ένα τέτοιο πρόβλημα, αλλά η αναπαράσταση είναι συνέπεια της εκπαίδευσης του δικτύου για ταξινόμηση υψηλής ακρίβειας. να ομαδοποιηθούν, επομένως οι αλγόριθμοι ταξινόμησης δεν θα ωφεληθούν. Η συνάρτηση απώλειας τριπλής στον αλγόριθμο FaceNet ορίζεται απευθείας στην προβολή. Το σχήμα 9 δείχνει τη διαδικασία εκμάθησης τριπλής απώλειας.

Εικόνα 9. Διαδικασία εκπαίδευσης τριπλής απώλειας

1. Η έννοια της εικόνας

Εικόνα, τάξη - μια ταξινόμηση ταξινόμησης σε ένα σύστημα ταξινόμησης που ενώνει (τονίζει) μια συγκεκριμένη ομάδα αντικειμένων σύμφωνα με κάποιο κριτήριο.

Η ευφάνταστη αντίληψη του κόσμου είναι μια από τις μυστηριώδεις ιδιότητες του ζωντανού εγκεφάλου, που επιτρέπει σε κάποιον να κατανοήσει την ατελείωτη ροή των αντιληπτών πληροφοριών και να διατηρήσει τον προσανατολισμό στον ωκεανό ανόμοιων δεδομένων για τον έξω κόσμο. Κατά την αντίληψη του εξωτερικού κόσμου, ταξινομούμε πάντα τις αντιληπτές αισθήσεις, δηλαδή τις χωρίζουμε σε ομάδες όμοιων, αλλά όχι πανομοιότυπων φαινομένων. Για παράδειγμα, παρά τη σημαντική διαφορά, μια ομάδα περιλαμβάνει όλα τα γράμματα Α γραμμένα με διαφορετικούς χειρόγραφους ή όλους τους ήχους που αντιστοιχούν στην ίδια νότα που παίζεται σε οποιαδήποτε οκτάβα και σε οποιοδήποτε όργανο και ο χειριστής που ελέγχει ένα τεχνικό αντικείμενο περιλαμβάνει ένα ολόκληρο σύνολο καταστάσεων το αντικείμενο αντιδρά με την ίδια αντίδραση. Είναι χαρακτηριστικό ότι για να διατυπωθεί μια έννοια για μια ομάδα αντιλήψεων μιας συγκεκριμένης τάξης, αρκεί να εξοικειωθείτε με έναν μικρό αριθμό εκπροσώπων της. Σε ένα παιδί μπορεί να εμφανιστεί ένα γράμμα μόνο μία φορά ώστε να μπορεί να βρει αυτό το γράμμα σε ένα κείμενο γραμμένο με διαφορετικές γραμματοσειρές ή να το αναγνωρίσει, ακόμα κι αν είναι γραμμένο σε εσκεμμένα παραμορφωμένη μορφή. Αυτή η ιδιότητα του εγκεφάλου μας επιτρέπει να διατυπώσουμε μια τέτοια έννοια ως εικόνα.

Οι εικόνες έχουν μια χαρακτηριστική ιδιότητα, η οποία εκδηλώνεται στο γεγονός ότι η εξοικείωση με έναν πεπερασμένο αριθμό φαινομένων από το ίδιο σύνολο καθιστά δυνατή την αναγνώριση ενός αυθαίρετα μεγάλου αριθμού εκπροσώπων του. Παραδείγματα εικόνων μπορεί να είναι: ποτάμι, θάλασσα, υγρό, μουσική του Τσαϊκόφσκι, ποίηση Μαγιακόφσκι κ.λπ. Ένα συγκεκριμένο σύνολο καταστάσεων ενός αντικειμένου ελέγχου μπορεί επίσης να θεωρηθεί ως εικόνα, και ολόκληρο αυτό το σύνολο καταστάσεων χαρακτηρίζεται από το γεγονός ότι για την επίτευξη ενός δεδομένου στόχου, η ίδια επίδραση σε ένα αντικείμενο. Οι εικόνες έχουν χαρακτηριστικές αντικειμενικές ιδιότητες με την έννοια ότι διαφορετικοί άνθρωποι, εκπαιδευμένοι σε διαφορετικό υλικό παρατήρησης, ως επί το πλείστον ταξινομούν τα ίδια αντικείμενα με τον ίδιο τρόπο και ανεξάρτητα το ένα από το άλλο. Αυτή η αντικειμενικότητα των εικόνων είναι που επιτρέπει στους ανθρώπους σε όλο τον κόσμο να καταλαβαίνουν ο ένας τον άλλον.

Η ικανότητα αντίληψης του εξωτερικού κόσμου με τη μορφή εικόνων επιτρέπει σε κάποιον να αναγνωρίσει με μια συγκεκριμένη αξιοπιστία έναν άπειρο αριθμό αντικειμένων με βάση την εξοικείωση με έναν πεπερασμένο αριθμό από αυτά και η αντικειμενική φύση της κύριας ιδιότητας των εικόνων επιτρέπει σε κάποιον να μοντελοποιήσει το διαδικασία αναγνώρισής τους. Όντας μια αντανάκλαση της αντικειμενικής πραγματικότητας, η έννοια της εικόνας είναι τόσο αντικειμενική όσο και η ίδια η πραγματικότητα, και ως εκ τούτου αυτή η έννοια μπορεί να αποτελέσει αντικείμενο ειδικής μελέτης.

Στη βιβλιογραφία που είναι αφιερωμένη στο πρόβλημα της αναγνώρισης προτύπων εκμάθησης (PR), η έννοια της τάξης εισάγεται συχνά αντί της έννοιας της εικόνας.

2. Το πρόβλημα της μαθησιακής αναγνώρισης προτύπων (oro)

Μία από τις πιο ενδιαφέρουσες ιδιότητες του ανθρώπινου εγκεφάλου είναι η ικανότητα να ανταποκρίνεται σε άπειρο αριθμό περιβαλλοντικών συνθηκών με πεπερασμένο αριθμό αντιδράσεων. Ίσως ήταν ακριβώς αυτή η ιδιότητα που επέτρεψε στον άνθρωπο να επιτύχει την υψηλότερη μορφή ύπαρξης ζωντανής ύλης, που εκφράζεται στην ικανότητα να σκέφτεται, δηλαδή να αντικατοπτρίζει ενεργά τον αντικειμενικό κόσμο με τη μορφή εικόνων, εννοιών, κρίσεων κ.λπ. Επομένως, το πρόβλημα του ORR προέκυψε στη μελέτη των φυσιολογικών ιδιοτήτων του εγκεφάλου.

Ας εξετάσουμε ένα παράδειγμα προβλημάτων από τον τομέα της ΟΔΟ.

Εικ. 1

Ακολουθούν 12 εργασίες στις οποίες θα πρέπει να επιλέξετε χαρακτηριστικά που μπορούν να χρησιμοποιηθούν για τη διάκριση της αριστερής τριάδας των εικόνων από τη δεξιά. Η επίλυση αυτών των προβλημάτων απαιτεί πλήρη μοντελοποίηση της λογικής σκέψης.

Γενικά, το πρόβλημα της αναγνώρισης προτύπων αποτελείται από δύο μέρη: την εκπαίδευση και την αναγνώριση. Η εκπαίδευση πραγματοποιείται με την εμφάνιση μεμονωμένων αντικειμένων που υποδεικνύουν ότι ανήκουν σε μια ή άλλη εικόνα. Ως αποτέλεσμα της εκπαίδευσης, το σύστημα αναγνώρισης πρέπει να αποκτήσει την ικανότητα να ανταποκρίνεται με τις ίδιες αντιδράσεις σε όλα τα αντικείμενα της ίδιας εικόνας και με διαφορετικές αντιδράσεις σε όλα τα αντικείμενα διαφορετικών εικόνων. Είναι πολύ σημαντικό η διαδικασία εκμάθησης να ολοκληρώνεται μόνο με την εμφάνιση ενός πεπερασμένου αριθμού αντικειμένων χωρίς άλλες προτροπές. Τα μαθησιακά αντικείμενα μπορεί να είναι είτε εικόνες είτε άλλες οπτικές εικόνες (γράμματα), είτε διάφορα φαινόμενα του εξωτερικού κόσμου, για παράδειγμα ήχοι, η κατάσταση του σώματος κατά τη διάρκεια μιας ιατρικής διάγνωσης, η κατάσταση ενός τεχνικού αντικειμένου σε συστήματα ελέγχου κ.λπ. είναι σημαντικό κατά τη διάρκεια της μαθησιακής διαδικασίας μόνο τα αντικείμενα και η ιδιότητά τους στην εικόνα. Μετά την εκπαίδευση ακολουθεί η διαδικασία αναγνώρισης νέων αντικειμένων, που χαρακτηρίζει τις ενέργειες ενός ήδη εκπαιδευμένου συστήματος. Η αυτοματοποίηση αυτών των διαδικασιών είναι το πρόβλημα της διδασκαλίας της αναγνώρισης προτύπων. Στην περίπτωση που ένα άτομο το λύνει ή το εφευρίσκει μόνο του και στη συνέχεια επιβάλλει έναν κανόνα ταξινόμησης στη μηχανή, το πρόβλημα αναγνώρισης επιλύεται εν μέρει, αφού το άτομο αναλαμβάνει το κύριο και κύριο μέρος του προβλήματος (εκπαίδευση).

Το πρόβλημα της διδασκαλίας της αναγνώρισης προτύπων είναι ενδιαφέρον τόσο από εφαρμοσμένη όσο και από θεμελιώδη άποψη. Από εφαρμοσμένης σκοπιάς, η επίλυση αυτού του προβλήματος είναι σημαντική κυρίως επειδή ανοίγει τη δυνατότητα αυτοματοποίησης πολλών διεργασιών που μέχρι τώρα είχαν συνδεθεί μόνο με τη δραστηριότητα του ζωντανού εγκεφάλου. Η θεμελιώδης σημασία του προβλήματος συνδέεται στενά με το ερώτημα που ανακύπτει όλο και περισσότερο σε σχέση με την ανάπτυξη ιδεών στην κυβερνητική: τι μπορεί και τι δεν μπορεί να κάνει ουσιαστικά μια μηχανή; Σε ποιο βαθμό οι δυνατότητες μιας μηχανής μπορούν να είναι κοντά σε αυτές ενός ζωντανού εγκεφάλου; Συγκεκριμένα, μπορεί μια μηχανή να αναπτύξει την ικανότητα να υιοθετεί μια ανθρώπινη ικανότητα να εκτελεί ορισμένες ενέργειες ανάλογα με τις καταστάσεις που προκύπτουν στο περιβάλλον; Μέχρι στιγμής, έχει καταστεί σαφές μόνο ότι εάν ένα άτομο μπορεί πρώτα να συνειδητοποιήσει ο ίδιος τις δεξιότητές του και μετά να το περιγράψει, δηλαδή να δείξει γιατί εκτελεί ενέργειες ως απάντηση σε κάθε κατάσταση του εξωτερικού περιβάλλοντος ή πώς (με ποιον κανόνα) συνδυάζει μεμονωμένα αντικείμενα σε εικόνες, τότε μια τέτοια ικανότητα μπορεί να μεταφερθεί σε ένα μηχάνημα χωρίς θεμελιώδεις δυσκολίες. Εάν ένα άτομο έχει μια δεξιότητα, αλλά δεν μπορεί να την εξηγήσει, τότε υπάρχει μόνο ένας τρόπος να μεταφερθεί η δεξιότητα σε μια μηχανή - η διδασκαλία με παραδείγματα.

Το εύρος των προβλημάτων που μπορούν να επιλυθούν χρησιμοποιώντας συστήματα αναγνώρισης είναι εξαιρετικά ευρύ. Αυτό περιλαμβάνει όχι μόνο τα καθήκοντα αναγνώρισης οπτικών και ακουστικών εικόνων, αλλά και τα καθήκοντα αναγνώρισης πολύπλοκων διαδικασιών και φαινομένων που προκύπτουν, για παράδειγμα, κατά την επιλογή κατάλληλων ενεργειών από τον επικεφαλής μιας επιχείρησης ή την επιλογή της βέλτιστης διαχείρισης τεχνολογικών, οικονομικών, μεταφορών ή στρατιωτικές επιχειρήσεις. Σε καθεμία από αυτές τις εργασίες, αναλύονται ορισμένα φαινόμενα, διαδικασίες και καταστάσεις του εξωτερικού κόσμου, τα οποία αναφέρονται παρακάτω ως αντικείμενα παρατήρησης. Πριν ξεκινήσετε να αναλύετε οποιοδήποτε αντικείμενο, πρέπει να αποκτήσετε ορισμένες, διατεταγμένες πληροφορίες σχετικά με αυτό με κάποιο τρόπο. Τέτοιες πληροφορίες αντιπροσωπεύουν τα χαρακτηριστικά των αντικειμένων, την εμφάνισή τους σε μια ποικιλία αντιληπτικών οργάνων του συστήματος αναγνώρισης.

Αλλά κάθε αντικείμενο παρατήρησης μπορεί να επηρεάσει διαφορετικά, ανάλογα με τις συνθήκες αντίληψης. Για παράδειγμα, οποιοδήποτε γράμμα, ακόμα κι αν είναι γραμμένο με τον ίδιο τρόπο, μπορεί, καταρχήν, να μετατοπιστεί με οποιονδήποτε τρόπο σε σχέση με τα όργανα που αντιλαμβάνονται. Επιπλέον, τα αντικείμενα της ίδιας εικόνας μπορεί να είναι αρκετά διαφορετικά μεταξύ τους και, φυσικά, να έχουν διαφορετικά αποτελέσματα στα όργανα που αντιλαμβάνονται.

Κάθε χαρτογράφηση ενός αντικειμένου στα αντιληπτικά όργανα του συστήματος αναγνώρισης, ανεξάρτητα από τη θέση του σε σχέση με αυτά τα όργανα, συνήθως ονομάζεται εικόνα του αντικειμένου και τα σύνολα τέτοιων εικόνων, ενωμένα με κάποιες κοινές ιδιότητες, είναι εικόνες.

Κατά την επίλυση προβλημάτων ελέγχου χρησιμοποιώντας μεθόδους αναγνώρισης προτύπων, χρησιμοποιείται ο όρος «κατάσταση» αντί του όρου «εικόνα». Μια κατάσταση είναι μια ορισμένη μορφή εμφάνισης των χαρακτηριστικών του μετρούμενου ρεύματος (ή στιγμιαίας) του παρατηρούμενου αντικειμένου. Το σύνολο των κρατών καθορίζει την κατάσταση. Η έννοια της «κατάστασης» είναι ανάλογη με την έννοια της «εικόνας». Αλλά αυτή η αναλογία δεν είναι πλήρης, αφού δεν μπορεί να ονομαστεί κάθε εικόνα κατάσταση, αν και κάθε κατάσταση μπορεί να ονομαστεί εικόνα.

Μια κατάσταση ονομάζεται συνήθως ένα ορισμένο σύνολο καταστάσεων ενός σύνθετου αντικειμένου, καθένα από τα οποία χαρακτηρίζεται από τα ίδια ή παρόμοια χαρακτηριστικά του αντικειμένου. Για παράδειγμα, εάν ένα συγκεκριμένο αντικείμενο ελέγχου θεωρείται ως αντικείμενο παρατήρησης, τότε η κατάσταση συνδυάζει τέτοιες καταστάσεις αυτού του αντικειμένου στις οποίες θα πρέπει να εφαρμόζονται οι ίδιες ενέργειες ελέγχου. Εάν το αντικείμενο της παρατήρησης είναι ένα πολεμικό παιχνίδι, τότε η κατάσταση συνδυάζει όλες τις καταστάσεις παιχνιδιού που απαιτούν, για παράδειγμα, ισχυρό χτύπημα τανκς με αεροπορική υποστήριξη.

Η επιλογή της αρχικής περιγραφής των αντικειμένων είναι ένα από τα κεντρικά καθήκοντα του προβλήματος ODO. Εάν η αρχική περιγραφή (χώρος χαρακτηριστικών) επιλεγεί επιτυχώς, η εργασία αναγνώρισης μπορεί να αποδειχθεί ασήμαντη και, αντίθετα, μια ανεπιτυχώς επιλεγμένη αρχική περιγραφή μπορεί να οδηγήσει είτε σε πολύ περίπλοκη περαιτέρω επεξεργασία πληροφοριών είτε σε καμία λύση. Για παράδειγμα, εάν λυθεί το πρόβλημα της αναγνώρισης αντικειμένων που διαφέρουν ως προς το χρώμα και επιλεχθούν τα σήματα που λαμβάνονται από αισθητήρες βάρους ως αρχική περιγραφή, τότε το πρόβλημα της αναγνώρισης δεν μπορεί, κατ' αρχήν, να λυθεί.