Πώς θα αναγνωρίζει και θα ταξινομεί η Google τις εικόνες στο εγγύς μέλλον; Αναγνώριση μη παραμορφώσιμων τρισδιάστατων αντικειμένων σε εικόνες με βάση περιγράμματα

ΑΝΑΓΝΩΡΙΣΗ ΜΗ ΔΙΑΜΟΡΦΩΣΙΜΩΝ 3D ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΕ ΕΙΚΟΝΕΣ ΑΝΑ ΠΕΡΙΓΡΑΦΗ

Φοιτητικό 545 γρ. Τμήμα Προγραμματισμού Συστημάτων, Κρατικό Πανεπιστήμιο Αγίας Πετρούπολης, nikolai. *****@****com

σχόλιο

Αυτή η εργασία θα συγκρίνει γνωστές μεθόδους για την αναγνώριση τρισδιάστατων αντικειμένων με περιγράμματα και θα προτείνει μια νέα μέθοδο που χρησιμοποιείται με επιτυχία στο πρόβλημα της αναγνώρισης αυτοκινήτου. Αυτή η μέθοδος είναι ανθεκτική σε μικρές αλλαγές στην εικόνα του αντικειμένου, όπως μικρές περιστροφές και μικρές αλλαγές στην κλίμακα. Σε αυτή τη μέθοδο, τα τρισδιάστατα αντικείμενα αντιπροσωπεύονται από ένα πεπερασμένο σύνολο δειγμάτων με τα οποία η εικόνα εισόδου θεωρείται παρόμοια. Η μέθοδος βασίζεται στους προσανατολισμούς των διαβαθμίσεων της εικόνας και επομένως εξαρτάται ασθενώς από τον φωτισμό του αντικειμένου. Ένα άλλο πλεονέκτημα αυτής της προσέγγισης είναι η δυνατότητα χρήσης εσωτερικών και μερικών περιγραμμάτων.

Εισαγωγή

Το καθήκον της αναγνώρισης αντικειμένων προκύπτει σε πολλά πεδία, για παράδειγμα σε ιατρικές εφαρμογές για την αναγνώριση του τύπου οστού σε μια ακτινογραφία ή στο ιατροδικαστικό πεδίο για σύγκριση ενός αντικειμένου σε μια εικόνα με ένα αντικείμενο από μια βάση δεδομένων, όπως πρόσωπο ή αναγνώριση αυτοκινήτου.

Οι υπάρχουσες μέθοδοι εξετάζουν δύο τύπους αλλαγών μοντέλου: τις μη παραμορφωτικές και τις παραμορφωτικές. Ο πρώτος τύπος αλλαγής περιλαμβάνει περιστροφή, μετατόπιση και κλιμάκωση του μοντέλου και ο δεύτερος περιλαμβάνει επίσης παραμόρφωση του ίδιου του μοντέλου, όπως, για παράδειγμα, μια αλλαγή στη στάση του ανθρώπινου σώματος ή στις εκφράσεις του προσώπου.

Η μέθοδος που προτείνεται παρακάτω περιλαμβάνει την εύρεση ενός αντικειμένου υπό μη παραμορφωτικές αλλαγές. Για να γίνει αυτό, το περίγραμμά του εξάγεται από την εικόνα εισόδου του αντικειμένου που μελετάται και, στη συνέχεια, βρίσκονται ειδικά σημεία του περιγράμματος, χρησιμοποιώντας τα οποία βρίσκεται ένα περίγραμμα από μια βάση δεδομένων περιγραμμάτων κατασκευασμένη από τρισδιάστατα μοντέλα.

Υπάρχουσες λύσεις

Το πρόβλημα της αναγνώρισης ενός αντικειμένου από το περίγραμμά του γενικά επιλύεται είτε παραμετροποιώντας το περίγραμμα και υπολογίζοντας περαιτέρω τη συνάρτηση ομοιότητας από δύο παραμετροποιήσεις, είτε μετρώντας κάποιο περιγραφικό περιγράμματος (για παράδειγμα, ένα σύνολο ιστογραμμάτων) και συγκρίνοντάς τα.

Στην προσέγγιση των Belongie et al., εισάγονται και συγκρίνονται τα πλαίσια σχήματος περιγράμματος. n σημεία περιγράμματος επιλέγονται ομοιόμορφα, τμήματα αποστέλλονται από κάθε σημείο σε όλα τα άλλα σημεία του δείγματος και κατασκευάζεται ένα ιστόγραμμα κατά τις κατευθύνσεις και τα μήκη αυτών των τμημάτων. Το σύνολο όλων αυτών των ιστογραμμάτων είναι το πλαίσιο του σχήματος του περιγράμματος. Η σύγκριση δύο περιγραμμάτων πραγματοποιείται με την υπέρθεση ενός σετ σε ένα άλλο με όλες τις πιθανές μετατοπίσεις, βρίσκοντας την καλύτερη περιστροφή του ενός περιγράμματος στο άλλο. Η πολυπλοκότητα αυτής της προσέγγισης είναι O(n3).

Η προσέγγιση του Sebastian et al. βασίζεται στην απόσταση επεξεργασίας που εισήχθη νωρίτερα για τις χορδές. Για κάθε σημείο του περιγράμματος, είναι γνωστή η απόσταση ενός προκαθορισμένου σημείου (η αρχή του περιγράμματος) και η καμπυλότητα σε αυτό το σημείο. Κατά τη σύγκριση δύο περιγραμμάτων, η συνάρτηση ομοιότητας υπολογίζεται με την υπέρθεση του ενός περιγράμματος στο άλλο και τον υπολογισμό της διαφοράς στην καμπυλότητα με τη δυνατότητα να πετάξουμε έξω κομμάτια περιγραμμάτων με ποινές.

Για να συγκρίνει κανείς τα περιγράμματα, μπορεί επίσης να χρησιμοποιήσει την έννοια του γραφήματος σοκ, όπως στην προσέγγιση των Macrini et al. Κατά μήκος του περιγράμματος, ο σκελετός του είναι χτισμένος με τη μορφή δέντρου ως ένα σύνολο σημείων σε ίση απόσταση από ζεύγη σημείων περιγράμματος. Οι κόμβοι αυτού του δέντρου είναι κραδασμοί. Συγκρίνοντας αυτά τα γραφήματα, μπορείτε να συγκρίνετε τα ίδια τα περιγράμματα.

Οι μέθοδοι που περιγράφονται παραπάνω μπορούν να βοηθήσουν στον προσδιορισμό του αν το περίγραμμα που μελετάται είναι αυτό ενός αεροπλάνου ή ενός σφυριού, αλλά είναι δύσκολο να γίνει διάκριση μεταξύ παρόμοιων περιγραμμάτων μη παραμορφώσιμων αντικειμένων. Επομένως, χρειάζεται κάτι πιο εξαρτώμενο από ασυνήθιστα σημεία περιγράμματος και πιο έντονα χαρακτηρισμός ενός συγκεκριμένου αντικειμένου. Επιπλέον, υπάρχει ανάγκη χρήσης εσωτερικών περιγραμμάτων.

Προτεινόμενη προσέγγιση

Στην εικόνα εισόδου ενός αντικειμένου που λαμβάνεται με χρήση κάμερας με γνωστές παραμέτρους χωρίς παραμόρφωση, είναι απαραίτητο να επιλέξετε πρώτα το περίγραμμα του αντικειμένου χρησιμοποιώντας τη διαβάθμιση εικόνας. Στη συνέχεια, αφήστε μόνο τα ειδικά σημεία του περιγράμματος και θυμηθείτε μόνο την κατεύθυνση της κλίσης σε αυτά τα σημεία. Στη συνέχεια, φιλτράρετε τα σημεία που έχετε αποκτήσει και χρησιμοποιήστε τα κατά τη σύγκριση των περιγραμμάτων.

Περιγραφή

Για την επισήμανση των περιγραμμάτων, χρησιμοποιήθηκε μια διαβάθμιση εικόνας, η οποία υπολογίστηκε χρησιμοποιώντας τον τελεστή Sobel. Συνήθως, για το σκοπό αυτό, η φωτεινότητα της εικόνας χρησιμοποιείται σε κλίμακα του γκρι, αλλά για να ληφθούν πιο εμφανή και πλήρη περιγράμματα, χρησιμοποιείται η ακόλουθη μέθοδος: υπολογίζουμε τη διαβάθμιση σε κάθε σημείο για τρία κανάλια χωριστά και σημειώνουμε τη διαβάθμιση με τη μέγιστη ως αποτέλεσμα.

https://pandia.ru/text/78/196/images/image002_10.png" width="198" height="207 src=">

Επιλογή ειδικών σημείων

Μεταξύ των σημείων της προκύπτουσας κλίσης εικόνας, αφήνουμε μόνο εκείνα των οποίων η νόρμα κλίσης είναι μεγαλύτερη από ένα ορισμένο όριο, λαμβάνοντας έτσι σημεία περιγράμματος. Για αυτά τα σημεία κλίσης, θα αφήσουμε μόνο τη γωνία μεταξύ της διεύθυνσης κλίσης και του άξονα Ox. Εάν η γωνία α είναι μεγαλύτερη από το π, τότε γράφουμε α - π, επειδή η κλίση μπορεί να κατευθυνθεί σε αντίθετες κατευθύνσεις κάτω από διαφορετικά υπόβαθρα. Η αποφυγή της χρήσης πληροφοριών νόρμα κλίσης επιτρέπει τη χρήση των σημείων περιγράμματος στη σκιά με τον ίδιο τρόπο όπως τα σημεία περιγράμματος στο φωτισμένο μέρος του αντικειμένου. Στη συνέχεια, δυαδοποιούμε τις υπολογιζόμενες γωνίες σε n bins, δηλαδή αν η γωνία α,: 0< α < π / n, тогда он попадает в первый бин, а если α,: π / n < α < π * 2 / n, тогда во второй и так далее. Затем из точек удаляем те, для которых неверно, что направление в этой точке является самым частым направлением в некоторой небольшой окрестности точки. Это обеспечивает локальную сонаправленность точек контура и чистит контур от шума. Оставшиеся точки (направление и координаты) и будут использоваться для сравнения двух контуров

Δημιουργία βάσης δεδομένων με χρήση τρισδιάστατων μοντέλων

Η βάση δεδομένων των περιγραμμάτων αντικειμένων χρησιμοποιείται για την εύρεση ενός αντικειμένου και της γωνίας του στην εικόνα εισόδου. Με βάση ένα συγκεκριμένο σύνολο τρισδιάστατων μοντέλων, οι εικόνες τους δημιουργούνται από διαφορετικές γωνίες και σε διαφορετικές κλίμακες. Στη συνέχεια, ανιχνεύονται περιγράμματα σε αυτές τις εικόνες και εντοπίζονται ειδικά σημεία χρησιμοποιώντας τη μέθοδο που περιγράφεται παραπάνω. Αυτά τα αποτελέσματα μπορούν να αποθηκευτούν για μελλοντική επαναχρησιμοποίηση. Μπορείτε επίσης να χωρίσετε αυτήν τη βάση δεδομένων σε ομάδες ανάλογα με το μέγεθος των περιγραμμάτων σε pixel.

Ρύζι. 3 Ένα παράδειγμα τρισδιάστατου μοντέλου σε προοπτική περιστρεφόμενη κατά μήκος του άξονα Oy κατά 20 μοίρες και κατά μήκος του άξονα Ox κατά 10 μοίρες από το μπροστινό μέρος.

Συνάρτηση ομοιότητας και υπολογισμός της

Ας ονομάσουμε κάθε περίγραμμα από τη βάση ένα δείγμα του μοντέλου σε μια συγκεκριμένη προοπτική και κλίμακα. Ας μεταθέσουμε τις συντεταγμένες των σημείων στα δείγματα έτσι ώστε η τετμημένη του αριστερότερου σημείου να είναι μηδέν και η τεταγμένη του ανώτατου σημείου επίσης μηδέν. Στη συνέχεια για την εικόνα εισόδου Εγώστο σημείο Μεκαι δείγμα Τμπορείτε να εισάγετε μια συνάρτηση ομοιότητας

Οπου Πείναι το σύνολο των δειγμάτων σημείων, ΣΧΕΤΙΚΑ ΜΕ– εικόνα που αντιστοιχεί στο δείγμα, ori(O, r) – δυαδική κατεύθυνση της κλίσης της εικόνας O στο σημείο r. Η συνάρτηση βασίζεται στο έργο του Steger και μια παρόμοια χρησιμοποιήθηκε στο έργο του Farhan. Το πρόβλημα είναι ότι μια τέτοια συνάρτηση είναι εντελώς ασταθής στις αλλαγές, επομένως για κάθε σημείο του δείγματος είναι απαραίτητο να ληφθεί υπόψη μια συγκεκριμένη γειτονιά R(για παράδειγμα, ένα τετράγωνο 7x7 pixel) γύρω από το εφαρμοσμένο σημείο:

DIV_ADBLOCK44">

0 " style="border-collapse:collapse;border:none">

Το αποτέλεσμα της δοκιμής θαμπώματος εξαρτάται από το μέγεθος του πυρήνα θαμπώματος και τη δύναμή του. Όσο περισσότερο, τόσο χαμηλότερο είναι το ποσοστό. Όταν υπάρχει ένα εμπόδιο, το ποσοστό αναγνώρισης εξαρτάται από το τμήμα του αντικειμένου που είναι μπλοκαρισμένο (πόσα σημεία περιγράμματος υπάρχουν σε αυτό).

Ρύζι. 4 Γράφημα της ομοιότητας του παραδείγματος δοκιμής ανά βάση (κατά μήκος των αξόνων - γωνίες περιστροφής σε x και y). Δείχνει ότι στην περιοχή της σωστής γωνίας υπάρχει μια σαφής κορυφή της συνάρτησης, η οποία μπορεί να βρεθεί πιο γρήγορα από ό,τι με αναζήτηση σε όλες τις γωνίες.

Βιβλιογραφία

1. Belongie, S.; Malik, J.; Puzicha, J., "Shape matching and object recognition using shape contexts," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol.24, no.4, pp.509,522, Apr 2002

2. Sebastian, T. B.; Klein, Ρ. Ν.; Kimia, B. B., "On aligning curves," Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol.25, no.1, pp.116,125, Jan. 2003

3. Macrini, D.; Shokoufandeh, Α.; Dickinson, S.; Siddiqi, Κ.; Zucker, S., "Αναγνώριση αντικειμένων 3-D βάσει προβολής με χρήση γραφημάτων κραδασμών", Αναγνώριση Μοτίβου, 2002. Πρακτικά. 16th International Conference on, vol.3, no., pp.24,28 vol.3, 2002

4. Farhan U.; Shun"ichi K.; Satoru I., "Αναζήτηση αντικειμένων με χρήση αντιστοίχισης κώδικα προσανατολισμού", Εργαστήριο IAPR σχετικά με τις εφαρμογές όρασης μηχανής, 28-30 Νοεμβρίου 2000

5. C. Steger, «Ακαταστασία απόφραξης και Αναγνώριση αμετάβλητου αντικειμένου φωτισμού», στο International Archives of Photogrammetry and Remote Sensing, 2002.

Κάθε αντικείμενο μπορεί να χαρακτηριστεί από ένα σύνολο συγκεκριμένων χαρακτηριστικών. Ο αριθμός των χαρακτηριστικών εξαρτάται από την πολυπλοκότητα του ίδιου του αντικειμένου. Η ακρίβεια της επιλογής χαρακτηριστικών θα επηρεάσει την αποτελεσματικότητα αναγνώρισης του αντικειμένου που περιγράφεται από αυτό το σύνολο.

Ας εξετάσουμε ένα παράδειγμα αναγνώρισης απλών αντικειμένων με βάση ένα σύνολο χαρακτηριστικών. Κατά την εφαρμογή της μεθόδου, θα χρησιμοποιήσουμε δύο συναρτήσεις bwlabel και imfeature, οι οποίες είναι ενσωματωμένες στην εφαρμογή Image Processing Toolbox, ως κύριες.

Πρώτα διαβάζουμε την αρχική εικόνα δοκιμής στον χώρο εργασίας του Matlab

L=imread("test_image.bmp");

και οραματιστείτε το

Figure, imshow(L);

Ας κάνουμε μερικά σχόλια σχετικά με την αρχική εικόνα. Στην περίπτωσή μας, τα δεδομένα προέλευσης αντιπροσωπεύονται από μια δυαδική εικόνα. Αυτό απλοποιεί κάπως το έργο μας, καθώς η κύρια έμφαση σε αυτό το παράδειγμα είναι στην αναγνώριση αντικειμένων. Ωστόσο, κατά την επίλυση προβλημάτων αναγνώρισης που βασίζονται σε πραγματικές εικόνες, στις περισσότερες περιπτώσεις, το σημαντικό καθήκον είναι η μετατροπή της αρχικής εικόνας σε δυαδική. Η ποιότητα της λύσης σε αυτό το πρόβλημα καθορίζει σε μεγάλο βαθμό την αποτελεσματικότητα της περαιτέρω αναγνώρισης.

Οι λειτουργίες bwlabel και imfeature χρησιμοποιούν εικόνες 2D σε κλίμακα του γκρι ως είσοδο. Δεδομένου ότι η εικόνα test_image.bmp δημιουργήθηκε ως δυαδική, αλλά αποθηκεύτηκε σε μορφή bmp, τότε από την τρισδιάστατη μήτρα εικόνας L, η οποία περιέχει τρεις πανομοιότυπες μπάλες χρώματος, είναι απαραίτητο να επιλέξετε μία από τις μπάλες, για παράδειγμα, η πρώτη.

L=L(:,:,1);

Το ίδιο αποτέλεσμα μπορεί να επιτευχθεί χρησιμοποιώντας τη συνάρτηση rgb2gray. Έτσι, ο πίνακας L αντιπροσωπεύει μια δυαδική δισδιάστατη εικόνα.

Για περαιτέρω υπολογισμούς, προσδιορίζουμε τις διαστάσεις αυτής της εικόνας

Μέγεθος (L);

Στη συνέχεια θα πρέπει να τοπικοποιήσετε, π.χ. προσδιορίστε τη θέση των αντικειμένων στην εικόνα. Για να γίνει αυτό, θα χρησιμοποιήσουμε τη συνάρτηση bwlabel, η οποία αναζητά συνδεδεμένες περιοχές εικονοστοιχείων αντικειμένων σε μια δυαδική εικόνα και δημιουργεί μια μήτρα, κάθε στοιχείο της οποίας ισούται με τον αριθμό του αντικειμένου στο οποίο ανήκει το αντίστοιχο εικονοστοιχείο της αρχικής εικόνας. . Η παράμετρος num επιστρέφει επιπλέον τον αριθμό των αντικειμένων που βρέθηκαν στην αρχική δυαδική εικόνα.

Bwlabel(L,8);

Επιπλέον, η λειτουργία bwlabel καθορίζει μια ακόμη παράμετρο - την τιμή συνδεσιμότητας.

Στη συνέχεια, προχωράμε στον υπολογισμό των ιδιοτήτων των αντικειμένων που σημειώνονται στον πίνακα των αριθμών αντικειμένων L. Ας εξετάσουμε αυτό το ζήτημα με περισσότερες λεπτομέρειες. Οι τιμές των χαρακτηριστικών επιστρέφονται σε μια σειρά από δομές κατορθωμάτων. Όπως αναφέρθηκε προηγουμένως, οποιοδήποτε σύνολο χαρακτηριστικών μπορεί να χρησιμοποιηθεί στην αναγνώριση αντικειμένων.

Σε αυτό το παράδειγμα, θα εφαρμόσουμε την πιο οπτική στατιστική προσέγγιση για την ταξινόμηση αντικειμένων με βάση μορφομετρικά χαρακτηριστικά. Τα κύρια μορφομετρικά χαρακτηριστικά περιλαμβάνουν συντελεστές σχήματος:

  1. «στερεότητα» – συντελεστής κυρτότητας: ίσος με την αναλογία της περιοχής προς την κυρτή περιοχή του αντικειμένου. Αντιπροσωπεύεται ως αριθμός στο εύρος (0,1].
  2. «έκταση» – συντελεστής πλήρωσης: ίσος με τον λόγο του εμβαδού του αντικειμένου προς το εμβαδόν του οριοθετημένου ορθογωνίου. Αντιπροσωπεύεται ως αριθμός στο εύρος (0,1].
  3. «εκκεντρότητα» – εκκεντρότητα μιας έλλειψης με κύριες ροπές αδράνειας ίσες με τις κύριες ροπές αδράνειας του αντικειμένου. Αντιπροσωπεύεται ως αριθμός στο εύρος (0,1].

Εφόσον αυτό το παράδειγμα χρησιμοποιεί μια δοκιμαστική εικόνα αντικειμένων απλού σχήματος, από τις αναφερόμενες δυνατότητες στην υλοποίηση λογισμικού θα χρησιμοποιήσουμε μόνο τον παράγοντα πλήρωσης «έκταση». Όπως αναφέρθηκε προηγουμένως, η παράμετρος «έκταση» καθορίζεται από την αναλογία της περιοχής του αντικειμένου προς την περιοχή του οριοθετημένου ορθογωνίου. Για έναν κύκλο, αυτή η παράμετρος θα είναι ίση με , και για ένα τετράγωνο – 1. Αλλά αυτά τα δεδομένα δίνονται για την περίπτωση που ο κύκλος και το τετράγωνο έχουν ιδανικό σχήμα. Εάν το σχήμα του κύκλου ή του τετραγώνου είναι παραμορφωμένο, τότε οι τιμές παραμέτρων «έκταση» μπορεί επίσης να διαφέρουν από τις παραπάνω τιμές. Επομένως, οι συντελεστές σχήματος μπορούν να υπολογιστούν με κάποιο σφάλμα. Έτσι, εισάγοντας κάποιο σφάλμα στον παράγοντα μορφής, επιτρέπονται ορισμένες από τις παραμορφώσεις του. Επιπλέον, η τιμή του σφάλματος είναι ανάλογη του βαθμού παραμόρφωσης. Ωστόσο, μια πολύ μεγάλη τιμή σφάλματος μπορεί να οδηγήσει σε εσφαλμένη αναγνώριση αντικειμένου.

Επιπλέον, θα προσδιορίσουμε επίσης το κέντρο μάζας του αντικειμένου χρησιμοποιώντας την επιλογή «κεντροειδές».

Feats=imfeature(L,"Centroid","Extent",8);

Ας ξαναγράψουμε τις τιμές των χαρακτηριστικών από τον πίνακα δομών feats σε ξεχωριστούς πίνακες:

Έκταση=μηδενικά(αριθμός); CentX=μηδενικά(αριθμός); CentY=μηδενικά(αριθμός); για i=1:1:num; Έκταση(i)=κατορθώματα(i).Έκταση; CentX(i)=feats(i).Centroid(1); CentY(i)=feats(i).Centroid(2); τέλος;

Επίσης σε αυτό το παράδειγμα θα εφαρμόσουμε τα εξής. Για λόγους σαφήνειας, κάθε αναγνωρισμένο αντικείμενο θα επισημαίνεται. Υπάρχουν διάφορες προσεγγίσεις για να επιτευχθεί αυτό. Ένα από τα πιο απλά είναι να τοποθετήσετε μια εικόνα με το όνομά της δίπλα στο αναγνωρισμένο αντικείμενο. Για να γίνει αυτό, πρέπει πρώτα να δημιουργήσετε εικόνες με τα ονόματα των αντικειμένων και να τις διαβάσετε στον χώρο εργασίας του Matlab. Εφόσον η δοκιμαστική εικόνα περιέχει μόνο κύκλους και τετράγωνα, θα δημιουργήσει και θα μετρήσει τις αντίστοιχες εικόνες.

Krug=imread("krug.bmp"); Kvadrat=imread("kvadrat.bmp"); d=0,15; % σφάλματος παράγοντα σχήματος για i=1:num; L(στρογγυλός(CentY(i)):στρογγυλός(CentY(i))+1,στρογγυλός(CentX(i)):στρογγυλός(CentX(i))+1)=0; if (abs(Επίπεδο(i)-0,7822)

Ας φανταστούμε το αποτέλεσμα της αναγνώρισης

Figure, imshow(L);

Υπάρχουν επίσης άλλες προσεγγίσεις για την αναγνώριση αντικειμένων που βασίζονται σε ένα σύνολο χαρακτηριστικών. Διαφέρουν ως προς την υπολογιστική πολυπλοκότητα, την αποτελεσματικότητά τους κ.λπ. Ωστόσο, σε περαιτέρω υλικά θα εξετάσουμε εκείνες τις προσεγγίσεις που μπορούν να εφαρμοστούν χρησιμοποιώντας λειτουργίες ενσωματωμένες στο σύστημα Matlab.

Ως θέμα της έρευνας της τεχνητής νοημοσύνης, η αναγνώριση εικόνων έχει μακρά ιστορία και μεγάλη πρακτική σημασία. Χρησιμοποιήθηκε για πρώτη φορά για την αυτόματη ανάγνωση χειρόγραφων αριθμών. Επί του παρόντος, το πεδίο εφαρμογής του έχει επεκταθεί σημαντικά: από τη μέτρηση, τον έλεγχο, τη διαλογή και τη συναρμολόγηση στις διαδικασίες παραγωγής έως την ανάλυση εικόνων που διαβάζονται από απόσταση, διαγνωστικά από ιατρικές εικόνες, ποσοτική αξιολόγηση πειραματικών δεδομένων, ταυτοποίηση ανθρώπου, αυτόματο σχεδιασμό, κατανόηση εικόνες ως λειτουργία τεχνικό όραμα ρομπότ κ.λπ. Η διαδικασία της αναγνώρισης της ανθρώπινης εικόνας δεν είναι μια απλή επεξεργασία οπτικών πληροφοριών, αλλά μια πολύπλοκη διαδικασία στην οποία ψυχολογικοί παράγοντες παίζουν σημαντικό ρόλο. Ειδικότερα, η διαδικασία κατανόησης μιας εικόνας περιλαμβάνει σημασιολογικό συμπέρασμα, αλλά η εφαρμογή της απαιτεί τη συλλογή εκτεταμένων γνώσεων και διαισθητικών αποφάσεων που υπερβαίνουν τη λογική, επομένως είναι εξαιρετικά δύσκολο να προσομοιωθεί μια τέτοια διαδικασία σε έναν υπολογιστή.

Τα υπάρχοντα εργαλεία αναγνώρισης εικόνας χρησιμοποιούν διαφορετικές μεθόδους ανάλογα με το αν το αντικείμενο αναγνώρισης είναι τεχνητό ή φυσικό. Στην πρώτη περίπτωση, συνήθως ασχολούνται με μεμονωμένα αντικείμενα ξεκάθαρης μορφής, άρα μεγάλος αριθμός μελετών

εστιάζει στην αντιστοίχιση μοτίβων ανιχνεύοντας άκρες και άκρες ή συμπερασματικά τρισδιάστατα σχήματα χρησιμοποιώντας γεωμετρικούς κανόνες. Μεταξύ των φυσικών αντικειμένων, υπάρχουν πολλά αντικείμενα ακανόνιστου σχήματος με chiaroscuro, επομένως, συνήθως χρησιμοποιώντας ανάλυση συστάδων, χωρίζονται σε ομοιογενείς περιοχές και στη συνέχεια, με βάση τα χαρακτηριστικά των σχημάτων αυτών των περιοχών, βγαίνει ένα συμπέρασμα για το αντικείμενο. Επιπλέον, έχει διεξαχθεί πρόσφατα πολλή έρευνα για την αναπαραγωγή δισδιάστατων και τρισδιάστατων σχημάτων αντικειμένων που βασίζονται στην επεξεργασία μεγάλου αριθμού εικόνων. Στη ρομποτική, υπάρχει ανάγκη επεξεργασίας κινούμενων εικόνων σε πραγματικό χρόνο, δηλαδή, η ταχύτητα αναγνώρισης αποκτά μεγάλη σημασία.

Γενικά, η διαδικασία αναγνώρισης εικόνας με χρήση υπολογιστή είναι η εξής.

1. Λήψη πληροφοριών εικόνας με χρήση κάμερας ή άλλων μέσων και μετατροπή τους σε ψηφιακές πληροφορίες: ως αποτέλεσμα, τα καρέ χωρίζονται σε μεγάλο αριθμό στοιχείων και σε κάθε στοιχείο εκχωρείται χρώμα και αντίθεση.

2. Προθεραπεία. Αφαίρεση θορύβου, κανονικοποίηση για σύγκριση με ένα πρότυπο, τμηματοποίηση (επιλογή τοπικών πληροφοριών που είναι απαραίτητες για την αναγνώριση) κ.λπ.

3. Εξαγωγή χαρακτηριστικών. Τα χαρακτηριστικά της εικόνας μπορεί να έχουν διαφορετικά επίπεδα. Αυστηρά μιλώντας, η τμηματοποίηση είναι επίσης μέρος της εξαγωγής χαρακτηριστικών. Οι μέθοδοι εξαγωγής χαρακτηριστικών μπορεί να είναι τοπικές ή καθολικές. Ένα παράδειγμα τοπικής μεθόδου είναι η μέθοδος ανίχνευσης ακμών, καθολικής ομαδοποίησης και επέκτασης περιοχής. Η ανίχνευση ακμών χρησιμοποιεί ασυνέχειες μεταξύ περιοχών, ενώ η ομαδοποίηση είναι τμηματοποίηση που βασίζεται στην ανίχνευση ομοιογενών περιοχών. Εφόσον σε κάθε περίπτωση οι πληροφορίες εικόνας περιέχουν θόρυβο που δεν εξαλείφεται στο στάδιο της προεπεξεργασίας, η τμηματοποίηση απαιτεί επεξεργασία ασαφούς πληροφορίας. Η συνολική εξαγωγή χαρακτηριστικών πραγματοποιείται σε σχέση με το σχήμα, τις ιδιότητες, τη σχετική θέση και άλλα χαρακτηριστικά των επιλεγμένων περιοχών. Αυτή η διαδικασία έχει μεγάλη σημασία για την επόμενη φάση αξιολόγησης.

4. Κατανόηση και αξιολόγηση. Η διαδικασία κατανόησης μιας εικόνας

ονομάζονται είτε ταξινόμηση και ταυτοποίηση συγκρίνοντας τα συμπλέγματα που προκύπτουν με γνωστά μοντέλα, είτε κατασκευάζοντας μια τρισδιάστατη εικόνα του αρχικού αντικειμένου χρησιμοποιώντας συμπεράσματα. Το αποτέλεσμα αυτής της διαδικασίας είναι ο τελικός στόχος της αναγνώρισης εικόνας.

Επί του παρόντος, έχει διεξαχθεί ένας τεράστιος αριθμός μελετών σχετικά με τη διαδικασία αναγνώρισης εικόνων, αλλά τα αποτελέσματα εξακολουθούν να είναι εξαιρετικά μη ικανοποιητικά. Για παράδειγμα, ζητήματα όπως η κατανόηση σύνθετων εικόνων, ο αμοιβαίος μετασχηματισμός λεκτικών και βίντεο πληροφοριών, η αναγνώριση αντικειμένων με καμπυλόγραμμα και ακανόνιστα σχήματα, η αναγνώριση θολών εικόνων, η εξαιρετικά αποτελεσματική εξαγωγή χαρακτηριστικών, η σημασιολογική συναγωγή και η φαντασία κ.λπ. πρακτικά δεν αντιμετωπίστηκαν.

Οι κύριες μεθοδολογικές προσεγγίσεις που είναι επί του παρόντος αποδεκτές στην αναγνώριση είναι η στατιστική, η ανάλυση συστάδων, η έκπτωση στη λογική δύο τιμών και πολλές άλλες, αλλά όλες απέχουν πολύ από τη διαδικασία αναγνώρισης που είναι χαρακτηριστική των ανθρώπων. Η εξαγωγή χαρακτηριστικών είναι το πιο σημαντικό βήμα στην αναγνώριση εικόνας, αλλά είναι επίσης εξαιρετικά περίπλοκη. Πράγματι, τι είναι ένα χαρακτηριστικό εικόνας; Γιατί μια καρικατούρα μοιάζει περισσότερο με έναν άνθρωπο παρά μια φωτογραφία του; Προφανώς, σημαντικό ρόλο στη διαδικασία της ανθρώπινης αναγνώρισης παίζουν οι πληροφορίες που φαίνεται να μην είναι τίποτα άλλο από θόρυβος σε έναν υπολογιστή, αλλά με κάποιο τρόπο εξάγονται και παρουσιάζονται. Σημάδια αυτού του είδους μπορούν να αναγνωριστούν από τα συναισθήματα ενός ατόμου και όχι από τη λογική. Επιπλέον, κατά την αναγνώριση θολών εικόνων, δεν λειτουργούν οι αναλυτικές ικανότητες, αλλά οι ικανότητες γενίκευσης, δηλ. είναι επίσης μια διαισθητική διαδικασία. Για την προσομοίωση τέτοιων διαδικασιών, απαιτείται έρευνα για μεθόδους επεξεργασίας υποκειμενικών πληροφοριών και τεχνικών χειρισμού μακροπληροφοριών. Η έρευνα για την αναγνώριση ασαφούς εικόνας μόλις ξεκινά, αλλά η περαιτέρω ανάπτυξη μιας νέας μεθοδολογίας που πληροί τις απαιτήσεις που περιγράφονται παραπάνω αναμένεται ήδη.

Ας εξετάσουμε εν συντομία την κατάσταση της ασαφούς αναγνώρισης εικόνας. Δεδομένου ότι οι πληροφορίες βίντεο ακόμη και ενός αρκετά καθαρού αντικειμένου μπορούν να διαταραχθούν από το θόρυβο, η ασαφής λογική χρησιμοποιείται συχνότερα για την ανίχνευση περιγραμμάτων. Χαρακτηριστικό παράδειγμα είναι η ταξινόμηση

στοιχεία εικόνας χρησιμοποιώντας ασαφή ομαδοποίηση. Ωστόσο, δεδομένου ότι τα απολύτως πανομοιότυπα στοιχεία είναι σπάνια, η «ασαφής» ομαδοποίηση είναι απαραίτητη. Παρόμοιες μέθοδοι χρησιμοποιούνται κατά την ταξινόμηση εικόνων που έχουν εξάπλωση σε σχέση με την εικόνα αναφοράς (αναγνώριση χειρόγραφων χαρακτήρων, ομιλία κ.λπ.).

Κατά την άμεση ανίχνευση περιγραμμάτων, προκύπτει ένα πρόβλημα θορύβου που δεν μπορεί να λυθεί πλήρως με τη βοήθεια φίλτρων. Επιπλέον, χρειάζονται ευρήματα για την αναπλήρωση των χαμένων περιοχών. Για το σκοπό αυτό χρησιμοποιούνται ευρετικοί κανόνες, οι οποίοι όμως έχουν ασαφή ποιοτική φύση. Κατά τη μετάβαση στο στάδιο της κατανόησης της εικόνας, προκύπτει το πρόβλημα της αποτελεσματικότερης ασαφούς αντιστοίχισης των εικόνων, η οποία απαιτεί σύγκριση όχι μόνο στη μορφή, αλλά και στη σημασιολογία για τη λύση της. Ειδικότερα, αυτή η κατάσταση προκύπτει στον τομέα της διάγνωσης με χρήση ακτινογραφιών, όπου ο σχηματισμός κανόνων είναι αδύνατος.

Παρακάτω είναι μερικά χαρακτηριστικά παραδείγματα έρευνας αναγνώρισης εικόνων με χρήση ασαφούς λογικής.

Η ανίχνευση και η αναγνώριση αντικειμένων είναι αναπόσπαστο μέρος της ανθρώπινης δραστηριότητας. Δεν είναι ακόμη απολύτως σαφές πώς καταφέρνει ένα άτομο με τόση ακρίβεια και τόσο γρήγορα να αναγνωρίζει και να αναγνωρίζει τα απαραίτητα αντικείμενα στην ποικιλομορφία του περιβάλλοντος. Προσπάθειες να μάθουν αυτό έχουν γίνει από φυσιολόγους και ψυχολόγους για περισσότερα από εκατό χρόνια. Ωστόσο, ο στόχος μας εδώ δεν είναι να κατανοήσουμε τον μηχανισμό της αντίληψης του ανθρώπου (και των ζώων), αλλά να περιγράψουμε μεθόδους για την αυτοματοποιημένη αναγνώριση αντικειμένων από τις εικόνες τους: μια νέα τεχνολογία πληροφοριών, μια ισχυρή, πρακτική και, κατά μία έννοια, καθολική μεθοδολογία για επεξεργασία και αξιολόγηση πληροφοριών και εντοπισμός κρυφών προτύπων.

Η αναγνώριση τρισδιάστατων αντικειμένων από τις δισδιάστατες εικόνες τους έχει γίνει πρόσφατα μια από τις πιο σημαντικές εργασίες στην ανάλυση σκηνής και την όραση υπολογιστή. Οι αρχικές πληροφορίες για την αναγνώριση περιέχουν εικόνες σε διάφορα μέρη του πλήρους φάσματος ακτινοβολίας (οπτική, υπέρυθρη, υπερηχητική κ.λπ.), που λαμβάνονται με διάφορους τρόπους (τηλεόραση, φωτογραφική, λέιζερ, ραντάρ, ακτινοβολία κ.λπ.), μετατρέπονται σε ψηφιακή μορφή και παρουσιάζεται με τη μορφή κάποιου αριθμητικού πίνακα. Με τον όρο αντικείμενο εννοούμε όχι μόνο (και όχι τόσο) μια ψηφιακή αναπαράσταση ενός τοπικού τμήματος μιας δισδιάστατης σκηνής, αλλά κάποια κατά προσέγγιση περιγραφή του, με τη μορφή ενός συνόλου χαρακτηριστικών ιδιοτήτων (χαρακτηριστικών). Ο κύριος σκοπός των περιγραφών (εικόνες αντικειμένων) είναι η χρήση τους στη διαδικασία καθορισμού της αντιστοιχίας των αντικειμένων, που πραγματοποιείται μέσω σύγκρισης (αντίθεση). Το καθήκον της αναγνώρισης είναι ο προσδιορισμός της «κρυφής» ανήκειν ενός αντικειμένου σε μια συγκεκριμένη κλάση αναλύοντας το διάνυσμα των τιμών των παρατηρούμενων χαρακτηριστικών. Οι πληροφορίες σχετικά με τη σχέση μεταξύ των τιμών των χαρακτηριστικών ενός αντικειμένου και της συμμετοχής του σε μια συγκεκριμένη κλάση πρέπει να εξαχθούν από τον αλγόριθμο αναγνώρισης από ένα εκπαιδευτικό σύνολο αντικειμένων για τα οποία είτε οι τιμές και των δύο χαρακτηριστικών και κλάσεων, είτε μόνο οι τιμές τα χαρακτηριστικά τους είναι γνωστά. Στην πρώτη περίπτωση, το πρόβλημα ονομάζεται πρόβλημα μάθησης με επίβλεψη αναγνώρισης προτύπων και στη δεύτερη περίπτωση ονομάζεται πρόβλημα μάθησης χωρίς επίβλεψη. Εδώ θεωρείται ότι κάθε αντικείμενο «ανήκει» σε μία εικόνα από κάποιο σταθερό σύνολο. Κατά την εκχώρηση (ταξινόμηση) αντικειμένων, είναι απαραίτητο να εφαρμοστεί κάποιος κανόνας που καθιερώθηκε προηγουμένως για να αποφασίσετε σε ποια εικόνα (κλάση) ανήκει το αντικείμενο. Σε μια εργασία αναγνώρισης με εκπαίδευση, πρέπει να αναπτυχθεί ένας κανόνας ταξινόμησης που βασίζεται στη μελέτη ενός συνόλου αντικειμένων με γνωστή συμμετοχή σε διαφορετικές κλάσεις. Αυτά τα αντικείμενα ονομάζονται συλλογικά το σετ εκπαίδευσης ή δείγμα. Στο έργο του αυτόματου σχηματισμού εικόνας, τα αντικείμενα παρουσιάζονται σε έναν «παρατηρητή» χωρίς να υποδεικνύεται η συμμετοχή τους στην τάξη (αναγνώριση χωρίς επίβλεψη). Ο παρατηρητής (αλγόριθμος αναγνώρισης) πρέπει να κατασκευάσει ανεξάρτητα τον κατάλληλο ορισμό των κλάσεων (ανάλυση συστάδων). Φυσικά, αυτή η προσέγγιση στην ανάλυση εικόνας είναι επαρκής μόνο για μία από τις δύο πτυχές του διπλού έργου της ανίχνευσης και αναγνώρισης αντικειμένων σκηνής, δηλαδή, την πραγματική αναγνώριση της κατηγορίας ενός καλά καθορισμένου (επιλεγμένου) τμήματος εικόνας, που θεωρείται ως εξωτερική εκδήλωση κάποιας κρυφής εικόνας. Σε αυτή την περίπτωση, αναγκάζεται να υποθέσει ότι το έργο της τμηματοποίησης έχει ήδη λυθεί, δηλαδή ο καθορισμός των ορίων των θραυσμάτων, καθένα από τα οποία μπορεί να θεωρηθεί ως ένα ενιαίο σύνολο (αντικείμενο).

Η έρευνα για την αναγνώριση εικόνων χωροαντικειμένων διακρίνεται από μεγάλη ποικιλομορφία στη διατύπωση προβλημάτων και στην επιλογή των μέσων για την επίλυσή τους (μέθοδοι επεξεργασίας αντίστοιχων θραυσμάτων εικόνας), η οποία είναι συνέπεια της ποικιλίας των περιοχών πρακτικής εφαρμογής. Τα παραδοσιακά προβλήματα, τα οποία επιλύθηκαν στις πρώτες πειραματικές εξελίξεις των συστημάτων όρασης υπολογιστών, είναι η ανίχνευση και η αναγνώριση αντικειμένων που έχουν δεδομένο σχήμα με βάση θορυβώδεις και (πιθανώς) παραμορφωμένες εικόνες. Έτσι, ένα από τα πρώτα πρακτικά προβλήματα που ώθησαν τον σχηματισμό και την ανάπτυξη της θεωρίας της αναγνώρισης αντικειμένων ήταν το έργο της αναγνώρισης και αναγνώρισης ανθρώπινων προσώπων.

Ρύζι. 9.1. Απεικόνιση του προβλήματος της αναγνώρισης ανθρώπινων προσώπων και προσεγγίσεις για την επιλογή ενημερωτικών τμημάτων (πηγή)

Η πολυπλοκότητα αυτής της εργασίας οφείλεται στην ποικιλία των πιθανών γωνιών (κλίμακες, θέσεις, γωνίες περιστροφής) των αναγνωρισμένων όψεων (βλ. Εικ. 9.1). Εδώ είναι πρώτα απαραίτητο να κατασκευαστεί μια εσωτερική αναπαράσταση αντικειμένων, συμπεριλαμβανομένων των προβολών εικόνων. Αυτή η εργασία εξακολουθεί να χρησιμοποιείται ευρέως σε συστήματα ασφαλείας, επαλήθευση πιστωτικών καρτών, εγκληματολογική ανάλυση, τηλεδιασκέψεις κ.λπ. Για την επίλυσή του έχουν προταθεί μέθοδοι αναγνώρισης βασισμένες στη θεωρία των δικτύων νευροϋπολογιστών, αλγόριθμοι συσχέτισης-ακραίων, μέθοδοι υπολογισμού στατιστικών και αλγεβρικών ροπών, ανάλυση περιγράμματος, τρισδιάστατη μοντελοποίηση κ.λπ. Μεταξύ αυτών, δίνεται ιδιαίτερη προσοχή στην κατεύθυνση που σχετίζεται με την αυτόματη επιλογή χαρακτηριστικών (ενημερωτικών) χαρακτηριστικών αντικειμένων σκηνής, σε αυτήν την περίπτωση, τα στοιχεία των ματιών, της μύτης, του στόματος, του πηγουνιού - Εικ. 9.1.

Λίγο αργότερα, στα καθήκοντα παρακολούθησης (ελέγχου) του φυσικού περιβάλλοντος με χρήση αεροδιαστημικών εικόνων, προέκυψαν αρκετές πιο σημαντικές προσεγγίσεις για την κατασκευή πληροφοριακών χαρακτηριστικών. Ειδικότερα, όταν ελήφθησαν τα πρώτα πολυφασματικά και φασματοζωνικά δεδομένα τηλεπισκόπησης, οι περισσότεροι προγραμματιστές μεθόδων ερμηνείας μηχανών στράφηκαν στη μελέτη των φασματικών ιδιοτήτων των φυσικών αντικειμένων, καθώς η φωτεινότητα των αντίστοιχων στοιχείων εικόνας σε διάφορες φασματικές περιοχές επέτρεψε τον εντοπισμό τους σε σχετικά χαμηλό υπολογιστικό κόστος.

Ρύζι. 9.2. Ανάλυση συμπλέγματος της φασματικής φωτεινότητας των φυσικών αντικειμένων, που εμφανίζεται και ένα δισδιάστατο επίπεδο ενός ζεύγους φασματικών καναλιών πληροφοριών

Η πιο κοινή μέθοδος επεξεργασίας ήταν η «χωρίς επίβλεψη ταξινόμηση» με βάση την ανάλυση συστάδων, με τη βοήθεια της οποίας ο χώρος των φασματικών χαρακτηριστικών χωρίστηκε σε διακριτές ομάδες (συστάδες, βλ. Εικ. 9.2) και η ταξινόμηση των στοιχείων της εικόνας κατέστησε δυνατή την ταυτόχρονη τμηματοποιήστε τη σκηνή σε φασματικά ομοιογενείς περιοχές.

Επιπλέον, αποδείχθηκε ότι κατά την αναγνώριση φυσικών σχηματισμών, εκτός από τα φασματοζωνικά χαρακτηριστικά, εξαιρετικά σημαντικά αποδείχθηκαν επίσης χαρακτηριστικά που χαρακτηρίζουν την τοπική χωρική οργάνωση των ημιτόνων (υφή) των αντικειμένων ανάλυσης. Ένας έμπειρος διερμηνέας βασίζεται σε τέτοιες πληροφορίες (σχήμα, προσανατολισμός, κατανομή χαρακτηριστικών στοιχείων, πλαίσιο και άλλα χωρικά χαρακτηριστικά) μερικές φορές σε μεγαλύτερο βαθμό από ό,τι σε φασματοζωνικά χαρακτηριστικά. Σε κάθε περίπτωση, η χρήση χαρακτηριστικών υφής μπορεί να αυξήσει σημαντικά την αξιοπιστία της αναγνώρισης και να αυξήσει τον αριθμό των διακριτών κατηγοριών φυσικών αντικειμένων.

Σε πειραματικές μελέτες που στοχεύουν στην επίλυση συγκεκριμένων προβλημάτων, τα αρχικά δεδομένα είναι ένα ορισμένο σύνολο θραυσμάτων εικόνας (αντικείμενα σκηνής), που αποκρυπτογραφούνται από ειδικούς του θέματος και χρησιμεύουν ως υλικό εκπαίδευσης και ελέγχου. Εδώ, ο πρωταρχικός στόχος της ανάπτυξης ενός αλγορίθμου αναγνώρισης είναι να ληφθεί μια απάντηση στο ερώτημα εάν είναι δυνατή η αυτοματοποιημένη ανάλυση και ταξινόμηση των αντίστοιχων εικόνων αντικειμένων και, εάν ναι, ποιο σύνολο χαρακτηριστικών αποκρυπτογράφησης είναι πιο αποτελεσματικό και ποια δομή είναι ο κανόνας απόφασης και μέθοδος αποκωδικοποίησης θα πρέπει να έχει.

Σχόλιο: Η διάλεξη συζητά τα χαρακτηριστικά των προβλημάτων αναγνώρισης προτύπων και τους τύπους τους, τα βασικά της θεωρίας της ανάλυσης και της αναγνώρισης εικόνας (μέθοδος χαρακτηριστικών), την αναγνώριση με τη μέθοδο των αναλογιών. Ανάμεσα σε πολλά ενδιαφέροντα προβλήματα αναγνώρισης, εξετάζονται οι αρχές και η προσέγγιση της αναγνώρισης σε προβλήματα μηχανικής ανάγνωσης έντυπων και χειρόγραφων κειμένων.

Τα σύγχρονα ρομπότ, εξοπλισμένα με τηλεοπτικές κάμερες, μπορούν να βλέπουν αρκετά καλά ώστε να συνεργάζονται με τον πραγματικό κόσμο. Μπορούν να βγάλουν συμπεράσματα σχετικά με το είδος των αντικειμένων που υπάρχουν, τι σχέσεις έχουν μεταξύ τους, ποιες ομάδες σχηματίζουν, τι κείμενο περιέχουν κ.λπ. Ωστόσο, σύνθετες εργασίες αναγνώρισης, όπως η αναγνώριση παρόμοιων τρισδιάστατων αντικειμένων που κινούνται γρήγορα ή δυσανάγνωστα χειρόγραφο κείμενο, απαιτούν βελτιωτικές μεθόδους και μέσα για την επίλυσή τους. Σε αυτή τη διάλεξη θα δούμε τα βασικά μερικών παραδοσιακών μεθόδων αναγνώρισης. Θα ξεκινήσουμε την αναθεώρησή μας με τα πιο συχνά χρησιμοποιούμενα μέθοδος αναγνώρισης χαρακτηριστικών [ 1.4 ] , [ 4.1 ] .

Γενικά χαρακτηριστικά των προβλημάτων αναγνώρισης προτύπων και τα είδη τους.

Μια εικόνα νοείται ως μια δομημένη περιγραφή του αντικειμένου ή του φαινομένου που μελετάται, που αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών, κάθε στοιχείο του οποίου αντιπροσωπεύει την αριθμητική τιμή ενός από τα χαρακτηριστικά που χαρακτηρίζουν το αντίστοιχο αντικείμενο. Γενική δομή συστήματα αναγνώρισηςκαι τα στάδια της διαδικασίας ανάπτυξής του φαίνονται στο Σχ. 4.1.


Ρύζι. 4.1.

Η ουσία της αποστολής αναγνώρισης- να καθορίσει εάν τα αντικείμενα που μελετώνται έχουν ένα σταθερό πεπερασμένο σύνολο χαρακτηριστικών που τους επιτρέπει να ταξινομηθούν σε μια συγκεκριμένη κατηγορία.

Οι εργασίες αναγνώρισης έχουν τα εξής γνωρίσματα του χαρακτήρα.

  1. Αυτό εργασίες πληροφόρησης, που αποτελείται από δύο στάδια: α) τη μεταφορά των δεδομένων πηγής σε μια μορφή κατάλληλη για αναγνώριση. β) η ίδια η αναγνώριση (που υποδεικνύει ότι ένα αντικείμενο ανήκει σε μια συγκεκριμένη κλάση).
  2. Σε αυτές τις εργασίες μπορείτε εισάγουν την έννοια της αναλογίας ή της ομοιότητας των αντικειμένων και διατυπώνουν την έννοια της εγγύτητας των αντικειμένωνως βάση για την ταξινόμηση αντικειμένων στην ίδια κλάση ή σε διαφορετικές κλάσεις.
  3. Σε αυτές τις εργασίες μπορείτε λειτουργούν με ένα σύνολο προηγούμενων και παραδειγμάτων, η ταξινόμηση των οποίων είναι γνωστή και η οποία με τη μορφή επισημοποιημένων περιγραφών μπορεί να παρουσιαστεί στον αλγόριθμο αναγνώρισης για προσαρμογή στην εργασία κατά τη διάρκεια της μαθησιακής διαδικασίας.
  4. Για αυτές τις εργασίες είναι δύσκολο να χτίσεις επίσημες θεωρίες και να εφαρμόσεις κλασικές μαθηματικές μεθόδους(οι πληροφορίες για ένα ακριβές μαθηματικό μοντέλο δεν είναι συχνά διαθέσιμες ή τα οφέλη από τη χρήση του μοντέλου και των μαθηματικών μεθόδων δεν είναι ανάλογα με το κόστος).
  5. Σε αυτά τα καθήκοντα πιθανές «κακές» πληροφορίες(πληροφορίες με παραλείψεις, ετερογενείς, έμμεσες, ασαφείς, διφορούμενες, πιθανολογικές).

Συνιστάται να διακρίνετε τους ακόλουθους τύπους εργασιών αναγνώρισης.

  1. Η εργασία αναγνώρισης είναι να αντιστοιχίσετε το αντικείμενο που παρουσιάζεται σύμφωνα με την περιγραφή του σε μία από τις δεδομένες κλάσεις ( εκπαίδευση με δάσκαλο).
  2. Αυτόματη εργασία ταξινόμησης - ορίστε το διαμέρισμααντικείμενα (καταστάσεις) σύμφωνα με τις περιγραφές τους σε ένα σύστημα χωριστών τάξεων (ταξονομία, ανάλυση συστάδων, μάθηση χωρίς επίβλεψη).
  3. Το έργο της επιλογής ενός ενημερωτικού συνόλου χαρακτηριστικών σε αναγνώριση.
  4. Το έργο της μείωσης των δεδομένων πηγής σε μια μορφή κατάλληλη για αναγνώριση.
  5. Δυναμική αναγνώριση και δυναμική ταξινόμηση - εργασίες 1 και 2 για δυναμικά αντικείμενα.
  6. Ένα πρόβλημα πρόβλεψης είναι 5 προβλήματα στα οποία η απόφαση πρέπει να σχετίζεται με κάποιο σημείο στο μέλλον.

Βασικές αρχές της θεωρίας ανάλυσης και αναγνώρισης εικόνων.

Έστω ένα σύνολο M αντικειμένων δίνεται. σε αυτό το σύνολο υπάρχει μια κατάτμηση σε έναν πεπερασμένο αριθμό υποσυνόλων (κλάσεις) i = (1,m), Τα αντικείμενα καθορίζονται από τις τιμές ορισμένων χαρακτηριστικών x j, j= (1, N). Μια περιγραφή αντικειμένου ονομάζεται τυπική εάν παίρνει μια τιμή από το σύνολο των έγκυρων τιμών.

Ας δοθεί τραπέζι προπόνησης(Πίνακας 4.1). Η εργασία αναγνώρισης είναι, για ένα δεδομένο αντικείμενο και σύνολο κλάσεων, ..., σύμφωνα με τις πληροφορίες εκπαίδευσης στο τραπέζι προπόνησης σχετικά με τις κλάσεις και τις περιγραφές, υπολογίστε κατηγορήματα:

όπου i= (1,m), - άγνωστο.

Πίνακας 4.1. Τραπέζι προπόνησης
Ενα αντικείμενο Σημάδια και οι σημασίες τους Τάξη
x 1 x j x n
...
r11
...
...

Ας εξετάσουμε αλγόριθμους αναγνώρισης που βασίζονται στον υπολογισμό των βαθμολογιών. Βασίζονται στην αρχή του προηγούμενου (σε παρόμοιες καταστάσεις θα πρέπει κανείς να ενεργεί με παρόμοιο τρόπο).

Έστω ένα πλήρες σύνολο χαρακτηριστικών x 1, ..., x N. Ας επιλέξουμε ένα σύστημα υποσυνόλων του συνόλου χαρακτηριστικών S 1, ..., S k. Ας αφαιρέσουμε ένα αυθαίρετο σύνολο χαρακτηριστικών από τις γραμμές , , ..., και δηλώνουμε τις γραμμές που προκύπτουν με , , ..., , .

Ο κανόνας εγγύτητας, που μας επιτρέπει να αξιολογήσουμε την ομοιότητα των χορδών, είναι ο ακόλουθος. Έστω οι "περικομμένες" συμβολοσειρές περιέχουν τους πρώτους χαρακτήρες q, δηλαδή, και καθορίζονται τα κατώφλια... , Οι συμβολοσειρές και θεωρούνται παρόμοιες εάν ικανοποιούνται τουλάχιστον οι ακόλουθες ανισότητες:

Οι ποσότητες ... περιλαμβάνονται ως παράμετροι στο μοντέλο μιας κατηγορίας αλγορίθμων που βασίζονται σε εκτιμήσεις.

Έστω η αξιολόγηση του αντικειμένου ανά κλάση.

Οι περιγραφές των αντικειμένων που παρουσιάζονται για αναγνώριση μεταφράζονται σε έναν αριθμητικό πίνακα βαθμολογιών. Η απόφαση σχετικά με το ποια κλάση θα ταξινομηθεί ένα αντικείμενο λαμβάνεται με βάση τον υπολογισμό του βαθμού ομοιότητας μεταξύ της αναγνώρισης του αντικειμένου (συμβολοσειράς) και των συμβολοσειρών των οποίων η ανήκει σε συγκεκριμένες κλάσεις είναι γνωστή.

Ας επεξηγήσουμε τον περιγραφόμενο αλγόριθμο αναγνώρισης με ένα παράδειγμα. Καθορίζονται 10 κατηγορίες αντικειμένων (Εικ. 4.2a). Ανάγκη αναγνώρισης σημείων πίνακες εκμάθησης, κατώφλια και κατασκευάστε εκτιμήσεις εγγύτητας για τις κατηγορίες αντικειμένων που φαίνονται στο Σχ. 4.2β. Προτείνονται τα ακόλουθα σημάδια πίνακες εκμάθησης:

x 1 - αριθμός κατακόρυφων γραμμών ελάχιστου μεγέθους.