Muthukrishnan R, Radha M. — Αλγόριθμοι εξαγωγής ακμών για τμηματοποίηση εικόνας. Τμηματοποίηση σε χρωματικό χώρο RGB

Στείλτε την καλή δουλειά σας στη βάση γνώσεων είναι απλή. Χρησιμοποιήστε την παρακάτω φόρμα

Φοιτητές, μεταπτυχιακοί φοιτητές, νέοι επιστήμονες που χρησιμοποιούν τη βάση γνώσεων στις σπουδές και την εργασία τους θα σας είναι πολύ ευγνώμονες.

Δημοσιεύτηκε στο http://www.allbest.ru/

Υπουργείο Παιδείας και Επιστημών της Ρωσικής Ομοσπονδίας

Ryazan State Radio Engineering University

Τμήμα ΙΙΒΜΤ

Εργασία μαθήματος

Μέθοδοι επεξεργασίας εικόνας. Κατάτμηση

Ολοκληρωμένη Τέχνη. γρ. 432 εκ.:

Aleshin S.I.

Ελέγχθηκε από τον Αναπλ. τμήμα IIBMT:

Kaplan M.B.

Ryazan 2014

Εισαγωγή

1. Παρουσίαση εικόνων

3. Μορφές εικόνας

4. Τύποι εικόνων

5.1 Αλλαγή αντίθεσης

5.2 Εξομάλυνση θορύβου

5.3 Έμφαση στα σύνορα

5.4 Μέσο φιλτράρισμα

5.5 Τμηματοποίηση εικόνας

5.5.3 Περιγραφή

5.5.7 Μέθοδοι κοπής γραφημάτων

6. Περιγραφή λειτουργιών

7. Δοκιμή αλγορίθμων

συμπέρασμα

Εφαρμογή

Εισαγωγή

Στα μέσα του 20ου αιώνα, η επεξεργασία εικόνας ήταν κυρίως αναλογική και εκτελούνταν από οπτικές συσκευές. Τέτοιες οπτικές τεχνικές εξακολουθούν να είναι σημαντικές σήμερα, σε τομείς όπως η ολογραφία. Ωστόσο, με τη δραματική αύξηση της απόδοσης του υπολογιστή, αυτές οι μέθοδοι αντικαταστάθηκαν όλο και περισσότερο από μεθόδους επεξεργασίας ψηφιακής εικόνας. Οι μέθοδοι επεξεργασίας ψηφιακής εικόνας είναι γενικά πιο ακριβείς, αξιόπιστες, ευέλικτες και ευκολότερες στην εφαρμογή από τις αναλογικές μεθόδους. Η ψηφιακή επεξεργασία εικόνας κάνει εκτεταμένη χρήση εξειδικευμένου υλικού, όπως επεξεργαστές διοχέτευσης εντολών και συστήματα πολλαπλών επεξεργαστών. Αυτό ισχύει ιδιαίτερα για συστήματα επεξεργασίας βίντεο. Η επεξεργασία εικόνας εκτελείται επίσης με χρήση λογισμικού μαθηματικών υπολογιστών, για παράδειγμα, MATLAB, Mathcad, Maple, Mathematica κ.λπ. Για αυτό, χρησιμοποιούν τόσο βασικά εργαλεία όσο και πακέτα επέκτασης Επεξεργασίας εικόνας.

Το ενδιαφέρον για τις μεθόδους ψηφιακής επεξεργασίας εικόνας πηγάζει από δύο βασικούς τομείς εφαρμογής της, οι οποίοι είναι η βελτίωση εικόνας για τη βελτίωση της ανθρώπινης οπτικής αντίληψης και η επεξεργασία εικόνας για αποθήκευση, μετάδοση και παρουσίαση σε αυτόνομα συστήματα μηχανικής όρασης.

Μία από τις πιο σύνθετες μεθόδους ψηφιακής επεξεργασίας εικόνας είναι η κατάτμηση εικόνας. Η τμηματοποίηση είναι η διαδικασία διαίρεσης μιας ψηφιακής εικόνας σε πολλά τμήματα που διαφέρουν μεταξύ τους ως προς τα βασικά χαρακτηριστικά, όπως φωτεινότητα, χρώμα, υφή, σχήμα. Ο σκοπός της τμηματοποίησης είναι να απλοποιήσει και να αλλάξει την αναπαράσταση μιας εικόνας έτσι ώστε να είναι απλούστερη και ευκολότερη στην ανάλυση. Η εσφαλμένη επιλογή τμημάτων σε μια εικόνα μπορεί τελικά να επηρεάσει την ποιότητα της αναγνώρισης και να την καταστήσει αδύνατη. Επομένως, το έργο της τμηματοποίησης είναι εξαιρετικά σημαντικό και πολύ σχετικό.

Υπάρχουν πολλές μέθοδοι τμηματοποίησης εικόνων. Το τελικό αποτέλεσμα συχνά καθορίζεται από την ακρίβεια της τμηματοποίησης, επομένως όταν επιλέγετε μια συγκεκριμένη μέθοδο τμηματοποίησης, πρέπει να δίνετε μεγάλη προσοχή στην αξιοπιστία του αλγορίθμου. Ωστόσο, δεν υπάρχει μια ενιαία, γενικά αποδεκτή προσέγγιση που να αποτελεί τη βάση των περισσότερων αλγορίθμων. Δεν υπάρχει επίσης κανένας αλγόριθμος που θα επέτρεπε αποδεκτή κατάτμηση για οποιαδήποτε εικόνα. Αυτή είναι μια από τις δυσκολίες της τμηματοποίησης και αυτός είναι ο λόγος για τον μεγάλο αριθμό διαφορετικών προσεγγίσεων για την επίλυση αυτών των προβλημάτων επεξεργασίας εικόνας.

Παρά τη συνάφεια αυτής της θεματικής περιοχής, έχουν γραφτεί σχετικά λίγα βιβλία που αφορούν τόσο τις θεωρητικές βάσεις όσο και τις πτυχές λογισμικού για την επίλυση βασικών προβλημάτων τμηματοποίησης εικόνας.

Αυτή η εργασία περιγράφει τις βασικές μεθόδους επεξεργασίας ψηφιακής εικόνας. Ιδιαίτερη προσοχή δίνεται στις μεθόδους τμηματοποίησης εικόνων. Ένα πρόγραμμα για μία από τις μεθόδους τμηματοποίησης έχει υλοποιηθεί χρησιμοποιώντας το πακέτο εφαρμογής MatLAB.

1. Παρουσίαση εικόνων

Τα θεμελιώδη ζητήματα στη θεωρία της επεξεργασίας εικόνας είναι τα ζητήματα: σχηματισμός, εισαγωγή, αναπαράσταση σε υπολογιστή και οπτικοποίηση. Το σχήμα μιας επιφάνειας μπορεί να περιγραφεί ως συνάρτηση της απόστασης F(x, y) από την επιφάνεια έως ένα σημείο εικόνας με συντεταγμένες x και y. Λαμβάνοντας υπόψη ότι η φωτεινότητα ενός σημείου στην εικόνα εξαρτάται αποκλειστικά από τη φωτεινότητα της αντίστοιχης επιφάνειας, μπορούμε να υποθέσουμε ότι οι οπτικές πληροφορίες αντικατοπτρίζουν την κατάσταση φωτεινότητας ή διαφάνειας κάθε σημείου με έναν ορισμένο βαθμό ακρίβειας. Τότε μια εικόνα νοείται ως μια οριοθετημένη συνάρτηση δύο χωρικών μεταβλητών f(x, y), που ορίζονται σε ένα οριοθετημένο ορθογώνιο επίπεδο Oxy και έχουν ένα ορισμένο σύνολο τιμών του. Για παράδειγμα, μια ασπρόμαυρη φωτογραφία μπορεί να αναπαρασταθεί ως f(x, y)?0, όπου 0?x?a, 0?y?b και f(x, y) είναι η φωτεινότητα (μερικές φορές ονομάζεται οπτική πυκνότητα ή λευκότητα ) της εικόνας στο σημείο (x, y). α - πλάτος πλαισίου, β - ύψος πλαισίου.

Λόγω του γεγονότος ότι η ψηφιακή μνήμη ενός υπολογιστή είναι ικανή να αποθηκεύει μόνο συστοιχίες δεδομένων, η εικόνα μετατρέπεται πρώτα σε κάποια αριθμητική μορφή (μήτρα). Οι εικόνες εισάγονται στη μνήμη του υπολογιστή χρησιμοποιώντας αισθητήρες βίντεο. Ο αισθητήρας βίντεο μετατρέπει την οπτική κατανομή της φωτεινότητας της εικόνας σε ηλεκτρικά σήματα και στη συνέχεια σε ψηφιακούς κωδικούς. Δεδομένου ότι η εικόνα είναι συνάρτηση δύο χωρικών μεταβλητών x και y και το ηλεκτρικό σήμα είναι συνάρτηση μιας μεταβλητής t (χρόνος), χρησιμοποιείται σάρωση για τη μετατροπή. Για παράδειγμα, όταν χρησιμοποιείτε μια τηλεοπτική κάμερα, η εικόνα διαβάζεται γραμμή προς γραμμή και μέσα σε κάθε γραμμή, η εξάρτηση της φωτεινότητας από τη χωρική συντεταγμένη x μετατρέπεται σε αναλογική εξάρτηση του πλάτους του ηλεκτρικού σήματος από το χρόνο t. Η μετάβαση από το τέλος της προηγούμενης γραμμής στην αρχή της επόμενης γίνεται σχεδόν αμέσως.

Η εισαγωγή εικόνων σε έναν υπολογιστή περιλαμβάνει αναπόφευκτα τη δειγματοληψία εικόνων κατά μήκος των χωρικών συντεταγμένων x και y και τον κβαντισμό της τιμής φωτεινότητας σε κάθε διακριτό σημείο. Η διακριτοποίηση επιτυγχάνεται χρησιμοποιώντας ένα πλέγμα συντεταγμένων που σχηματίζεται από γραμμές παράλληλες στους άξονες x και y ενός καρτεσιανού συστήματος συντεταγμένων. Σε κάθε κόμβο ενός τέτοιου πλέγματος, γίνεται μια ανάγνωση της φωτεινότητας ή της διαφάνειας του φορέα οπτικά αντιληπτών πληροφοριών, οι οποίες στη συνέχεια κβαντίζονται και παρουσιάζονται στη μνήμη του υπολογιστή. Το στοιχείο της εικόνας που λαμβάνεται κατά τη διαδικασία δειγματοληψίας εικόνας ονομάζεται pixel. Για μια υψηλής ποιότητας αναπαράσταση μιας ημίτονης εικόνας, αρκούν 28 = 256 επίπεδα κβαντισμού, δηλ. 1 pixel μιας εικόνας κωδικοποιείται με 1 byte πληροφοριών.

Τα κύρια χαρακτηριστικά των εικόνων είναι:

1. Μέγεθος εικόνας.

2. Βάθος χρώματος.

3. Άδεια.

2. Κωδικοποίηση έγχρωμης εικόνας

Το χρώμα είναι ένα φαινόμενο που προκύπτει από την αλληλεπίδραση φωτός, αντικειμένου και συσκευής (παρατηρητής).

Έχει αποδειχθεί πειραματικά ότι οποιοδήποτε χρώμα μπορεί να αναπαρασταθεί ως το άθροισμα ορισμένων ποσοτήτων τριών γραμμικά ανεξάρτητων χρωμάτων.

Τρία γραμμικά ανεξάρτητα χρώματα ονομάζονται βασικά χρώματα.

Ορίζουν ένα σύστημα συντεταγμένων χρωμάτων (CCS) ή συνδυασμό χρωμάτων, δηλ. ένα σύνολο βασικών χρωμάτων για να λάβετε τα υπόλοιπα χρώματα.

Τα χρωματικά σχέδια χωρίζονται σε δύο ποικιλίες: χρωματικά σχέδια από εκπεμπόμενο φως και από ανακλώμενο φως.

Σύστημα RGB.

Τα βασικά του χρώματα είναι το κόκκινο με μήκος κύματος 700 nm, το πράσινο με μήκος κύματος 546,1 nm και το μπλε με μήκος κύματος 435,8 nm. Το σύστημα RGB είναι προσθετικό.

Σε αυτή την περίπτωση, αυτό ή εκείνο το χρώμα λαμβάνεται με την προσθήκη των βασικών χρωμάτων.

Σύστημα CMYK.

Αυτό το σύστημα χρησιμοποιείται για να σχηματίσει χρώματα έγχρωμων μη φωτεινών αντικειμένων που απορροφούν μέρος του φάσματος του φωτισμένου λευκού φωτός και αντανακλούν την υπόλοιπη ακτινοβολία.

Το σύστημα CMYK είναι η βάση για την έγχρωμη εκτύπωση.

Βασίζεται στο αφαιρετικό μοντέλο CMY (Κυανό - κυανό, Ματζέντα - ματζέντα, Κίτρινο) - ένα μοντέλο αφαίρεσης χρώματος. Υπάρχουν ακόμα τρία βασικά χρώματα εδώ.

Για τη βελτίωση της ποιότητας της εκτυπωμένης εικόνας, έχει προστεθεί μαύρο χρώμα στο σύστημα.

Σύστημα HSB.

Αυτό το σύστημα βασίζεται στη χρήση του Hue ή Hue, Saturation και Lightness. Η απόχρωση χαρακτηρίζει μια συγκεκριμένη απόχρωση χρώματος, τον κορεσμό - τη σχετική έντασή του, τη φωτεινότητα του χρώματος - την ποσότητα της μαύρης απόχρωσης για την παραγωγή μιας πιο σκούρας εικόνας.

Μια παραλλαγή αυτού του συστήματος είναι το σχήμα HSL.

3. Μορφές εικόνας

Υπάρχει ένας μεγάλος αριθμός διαφορετικών μορφών αρχείων γραφικών που χρησιμοποιούνται σήμερα. Οι πιο ευρέως χρησιμοποιούμενες μορφές είναι TIFF, GIF, JPEG, PNG και BMP.

Η μορφή TIFF (Tagget Image Format) είναι μία από τις πιο αξιόπιστες και ευέλικτες μορφές για την αποθήκευση σαρωμένων έγχρωμων εικόνων υψηλής ποιότητας. Μπορεί να χρησιμοποιήσει συμπίεση χρησιμοποιώντας τον αλγόριθμο LZW, π.χ. αναφέρεται σε μορφές αποθήκευσης εικόνων χωρίς απώλειες.

Η μορφή GIF (Graphics Interchange Format) έχει μια χρωματική παλέτα 256 χρωμάτων και χρησιμοποιεί τον αλγόριθμο LZW χωρίς απώλειες για συμπίεση. Εάν ο αρχικός αριθμός χρωμάτων είναι μεγαλύτερος από 256, τότε ορισμένες από τις πληροφορίες χρώματος θα χαθούν.

Η μορφή JPEG (Join Photographers Expert Group) βασίζεται στον ομώνυμο αλγόριθμο συμπίεσης εικόνας. Είναι ένας αλγόριθμος συμπίεσης με απώλειες και έχει σχεδιαστεί για την αποθήκευση έγχρωμων εικόνων με υψηλή αναλογία συμπίεσης. Όταν χρησιμοποιείτε τη μορφή, μπορείτε να ελέγξετε την παράμετρο ποιότητας από 0 (μέγιστη συμπίεση) έως 100 (μέγιστη ποιότητα). Ο λόγος συμπίεσης, ανάλογα με την ποιότητα, είναι από 10 έως 1000. Αυτή η μορφή χρησιμοποιείται συχνότερα για την αποθήκευση έγχρωμων φωτογραφικών εικόνων που δεν προορίζονται για περαιτέρω επεξεργασία.

Η μορφή PNG είναι μια μορφή ράστερ για την αποθήκευση πληροφοριών γραφικών που χρησιμοποιεί συμπίεση χωρίς απώλειες χρησιμοποιώντας τον αλγόριθμο Deflate. Η μορφή PNG έχει σχεδιαστεί για να αντικαταστήσει την παλαιότερη και απλούστερη μορφή GIF και σε κάποιο βαθμό για να αντικαταστήσει την πολύ πιο περίπλοκη μορφή TIFF. Η μορφή PNG τοποθετείται κυρίως για χρήση στο Διαδίκτυο και επεξεργασία γραφικών. Έχει τα ακόλουθα κύρια πλεονεκτήματα σε σχέση με το GIF: σχεδόν απεριόριστο αριθμό χρωμάτων στην εικόνα. προαιρετική υποστήριξη καναλιών άλφα. δυνατότητα διόρθωσης γάμμα. δισδιάστατη πλεγμένη σάρωση.

Η μορφή BMP (BitMaP) είναι μία από τις εγγενείς μορφές ράστερ του λειτουργικού συστήματος Windows. Είναι κατάλληλο για αποθήκευση εικόνων τόσο σε μορφή ευρετηρίου με παλέτα έως 256 χρωμάτων όσο και σε μορφή έγχρωμων εικόνων RGB με βάθος χρώματος 24 bit. Είναι δυνατή η χρήση του αλγόριθμου συμπίεσης RLE.

4. Τύποι εικόνων

4.1 Εικόνα δύο επιπέδων (ή μονόχρωμη).

Σε αυτήν την περίπτωση, όλα τα εικονοστοιχεία μπορούν να έχουν μόνο δύο τιμές, οι οποίες συνήθως ονομάζονται μαύρο (δυαδικό ένα ή το κύριο χρώμα) και λευκό (δυαδικό μηδέν ή χρώμα φόντου).

Κάθε pixel σε μια τέτοια εικόνα αντιπροσωπεύεται από ένα bit, επομένως είναι ο απλούστερος τύπος εικόνας.

1. Ημιτονική εικόνα. Μια τέτοια εικόνα με κλίμακα 2n επιπέδων αποτελείται από επίπεδα n-bit.

2. Έγχρωμη εικόνα. Μια τέτοια εικόνα περιγράφεται σε μία από τις μορφές που παρουσιάζονται παραπάνω.

3. Εικόνα συνεχούς τόνου. Αυτός ο τύπος εικόνας μπορεί να έχει πολλά παρόμοια χρώματα (ή ημίτονο). Όταν τα γειτονικά pixel διαφέρουν μόνο κατά ένα, είναι σχεδόν αδύνατο για το μάτι να διακρίνει τα χρώματά τους. Ως αποτέλεσμα, τέτοιες εικόνες μπορεί να περιέχουν περιοχές στις οποίες το χρώμα φαίνεται να αλλάζει συνεχώς στο μάτι. Σε αυτήν την περίπτωση, ένα εικονοστοιχείο αντιπροσωπεύεται είτε από έναν μεγάλο αριθμό (στην περίπτωση ημίτονου) είτε από τρία στοιχεία (στην περίπτωση μιας έγχρωμης εικόνας). Οι εικόνες συνεχούς τόνου είναι φυσικές ή φυσικές (σε αντίθεση με τις ανθρωπογενείς, τεχνητές). Συνήθως λαμβάνονται με λήψη με ψηφιακή φωτογραφική μηχανή ή με σάρωση φωτογραφιών ή σχεδίων.

4. Εικόνα διακριτού τόνου (ονομάζεται επίσης συνθετική). Συνήθως, αυτή η εικόνα λαμβάνεται τεχνητά. Μπορεί να έχει λίγα μόνο χρώματα ή πολλά χρώματα, αλλά είναι απαλλαγμένο από το θόρυβο και τις ατέλειες μιας φυσικής εικόνας. Παραδείγματα τέτοιων εικόνων περιλαμβάνουν φωτογραφίες τεχνητών αντικειμένων, μηχανών ή μηχανισμών, σελίδες κειμένου, χάρτες, σχέδια ή εικόνες σε οθόνη υπολογιστή. (Δεν θα είναι απαραίτητα κάθε τεχνητή εικόνα διακριτού τόνου. Μια εικόνα που δημιουργείται από υπολογιστή που προορίζεται να φαίνεται φυσική θα έχει συνεχείς τόνους παρά την τεχνητή προέλευσή της.) Τα τεχνητά αντικείμενα, το κείμενο και οι γραμμές έχουν σχήματα, καλά καθορισμένα όρια. Έχουν έντονη αντίθεση με την υπόλοιπη εικόνα (φόντο). Τα παρακείμενα εικονοστοιχεία μιας εικόνας διακριτού τόνου είναι συχνά μεμονωμένα ή ποικίλλουν πολύ σε τιμή. Τέτοιες εικόνες συμπιέζονται ελάχιστα χρησιμοποιώντας μεθόδους με απώλειες, καθώς η παραμόρφωση λίγων μόνο εικονοστοιχείων ενός γράμματος το καθιστά δυσανάγνωστο, μετατρέποντας το συνηθισμένο στυλ σε εντελώς δυσδιάκριτο. Οι εικόνες διακριτού τόνου συνήθως έχουν πολύ πλεονασμό. Πολλά από τα θραύσματά του επαναλαμβάνονται πολλές φορές σε διαφορετικά σημεία της εικόνας.

5. Εικόνες που μοιάζουν με κινούμενα σχέδια. Πρόκειται για έγχρωμες εικόνες που περιέχουν μεγάλες περιοχές του ίδιου χρώματος. Σε αυτή την περίπτωση, οι παρακείμενες περιοχές μπορεί να διαφέρουν πολύ ως προς το χρώμα.

5. Μέθοδοι επεξεργασίας εικόνας

Η προκαταρκτική ανάλυση των εικόνων μας επιτρέπει να συμπεράνουμε ότι:

Πρώτον, οι περισσότερες εικόνες, κατά τη διαδικασία σχηματισμού τους (φωτογράφηση σαρώσεων, κ.λπ.), επηρεάζονται από μια σειρά αρνητικών παραγόντων (δόνηση κάμερας, ανομοιόμορφη κίνηση του στοιχείου σάρωσης κ.λπ.), που οδηγεί σε θολότητα, εμφάνιση χαμηλού -αντίθεση και θορυβώδεις περιοχές κ.λπ.

Δεύτερον, η συντριπτική πλειοψηφία των μεθόδων βασίζεται στον εντοπισμό αντικειμένων στην εικόνα και στην περαιτέρω ανάλυσή τους.

Έτσι, πριν αναλυθεί, η εικόνα πρέπει να περάσει από το στάδιο προετοιμασίας, το οποίο συνίσταται στην εκτέλεση λειτουργιών για τη βελτίωση της οπτικής ποιότητας (αύξηση της αντίθεσης, εξάλειψη της θολότητας, έμφαση στις άκρες, φιλτράρισμα) και σε λειτουργίες για τη διαμόρφωση μιας γραφικής προετοιμασίας (τμηματοποίηση, επισήμανση περιγραμμάτων). η εικόνα.

5.1 Αλλαγή αντίθεσης

Η ασθενής αντίθεση προκαλείται συνήθως από ένα μικρό δυναμικό εύρος μεταβολών φωτεινότητας ή από έντονη μη γραμμικότητα στη μετάδοση των επιπέδων φωτεινότητας. Η απλούστερη μέθοδος αντίθεσης είναι η λειτουργική χαρτογράφηση της διαβάθμισης φωτεινότητας fij σε gij, δηλαδή gij = R(fij). Στην πράξη, πολύ συχνά χρησιμοποιούνται γραμμικές λειτουργικές αντιστοιχίσεις. Εάν, ως αποτέλεσμα ανομοιόμορφου φωτισμού κατά τη φωτογράφηση ή τη λήψη φωτογραφιών, προκύψει μια κατάσταση όπου διαφορετικές περιοχές της εικόνας έχουν διαφορετική αντίθεση. Σε αυτήν την περίπτωση, χρησιμοποιούνται προσαρμοστικοί αλγόριθμοι αντίθεσης για την αλλαγή της αντίθεσης. Ένα παράδειγμα είναι ο αλγόριθμος βελτίωσης τοπικής αντίθεσης. Πειραματικές μελέτες έχουν επιβεβαιώσει την υψηλή απόδοση του αλγορίθμου εάν η εικόνα περιέχει περιοχές με σαφώς πολύ υψηλές ή χαμηλές αντιθέσεις.

Η ουσία του αλγορίθμου είναι ότι η εικόνα θεωρείται ως ένα σύνολο ορισμένου αριθμού τοπικών περιοχών και αυτές οι περιοχές επεξεργάζονται λαμβάνοντας υπόψη τα χαρακτηριστικά τους. Η επεξεργασία πραγματοποιείται με την ακόλουθη σειρά: ο συντελεστής κέρδους των τμημάτων πυκνότητας p υπολογίζεται ξεχωριστά για κάθε τοπική περιοχή της εικόνας. Και κάθε pixel της εικόνας υποβάλλεται σε επεξεργασία. Εάν το p είναι ίσο με ένα, τότε δεν εκτελείται καμία ενέργεια σε μια τοπική περιοχή της εικόνας (αν το p είναι διαφορετικό από ένα, τότε η αντίθεση της τοπικής περιοχής αυξάνεται). Αρχικά υπολογίζεται η αντίθεση στο αναλυόμενο σημείο σε σχέση με την πλησιέστερη γειτονιά. Στη συνέχεια, η τιμή σχετικής αντίθεσης προστίθεται στη μονάδα και η τιμή που προκύπτει γίνεται αποδεκτή στον αλγόριθμο ως ο συντελεστής κέρδους p, και στη συνέχεια υπολογίζεται χρησιμοποιώντας τον τύπο:

αντίθεση προγράμματος τμηματοποίησης εικόνας

όπου είναι η νέα τιμή φωτεινότητας, είναι η τρέχουσα φωτεινότητα της επεξεργασμένης εικόνας, είναι η απαιτούμενη μέγιστη τιμή φωτεινότητας της επεξεργασμένης εικόνας.

5.2 Εξομάλυνση θορύβου

Οι εικόνες υπόκεινται σε προσθετικό και παρορμητικό θόρυβο κατά το στάδιο της ψηφιοποίησης. Ο προσθετικός θόρυβος είναι κάποιο τυχαίο σήμα που προστίθεται στο χρήσιμο σήμα στην έξοδο του συστήματος· στην περίπτωση που εξετάζουμε, ο πρόσθετος θόρυβος προκύπτει λόγω της κοκκοποίησης του φιλμ. Ο παλμικός θόρυβος, σε αντίθεση με τον πρόσθετο θόρυβο, χαρακτηρίζεται από την επίδρασή του στο χρήσιμο σήμα μόνο σε μεμονωμένα τυχαία σημεία (η τιμή του προκύπτοντος σήματος σε αυτά τα σημεία παίρνει μια τυχαία τιμή). Ο παλμικός θόρυβος είναι χαρακτηριστικός για συστήματα μετάδοσης και αποθήκευσης ψηφιακής εικόνας. Έτσι, κατά τη διαδικασία προετοιμασίας της εικόνας, προκύπτει το πρόβλημα της καταστολής του θορύβου.

Η απλούστερη μέθοδος εξομάλυνσης του θορύβου σε μια εικόνα είναι η εξομάλυνση, δηλ. αντικαθιστώντας την τιμή φωτεινότητας κάθε στοιχείου με τη μέση τιμή που βρίσκεται στη γειτονιά του:

πού είναι το σύνολο των σημείων που ανήκουν στη γειτονιά του σημείου (συμπεριλαμβανομένου του ίδιου του σημείου). - αριθμός σημείων στη γειτονιά.

Η εξεταζόμενη μέθοδος εξαλείφει αποτελεσματικά τον πρόσθετο και τον παλμικό θόρυβο σε κάθε στοιχείο εικόνας.

5.3 Έμφαση στα σύνορα

Οι τεχνικές εξομάλυνσης εικόνας μπορούν να αφαιρέσουν τον θόρυβο πολύ αποτελεσματικά. Ένα σημαντικό μειονέκτημα των αλγορίθμων anti-aliasing είναι το θάμπωμα της εικόνας (δηλαδή, η μείωση της ευκρίνειας των στοιχείων του περιγράμματος) και η ποσότητα θαμπώματος είναι ανάλογη με το μέγεθος της μάσκας που χρησιμοποιείται για εξομάλυνση. Για ξεκάθαρη ανάλυση εικόνας, ειδικά κατά τον υπολογισμό των γεωμετρικών χαρακτηριστικών των δομικών στοιχείων, είναι πολύ σημαντικό να αφαιρέσετε το θάμπωμα από τα περιγράμματα των αντικειμένων στην εικόνα, δηλαδή να βελτιώσετε τη διαφορά μεταξύ των διαβαθμίσεων φωτεινότητας των στοιχείων περιγράμματος του αντικειμένου και γειτονικά στοιχεία φόντου. Σε αυτή την περίπτωση, κατά την επεξεργασία εικόνων, χρησιμοποιούνται μέθοδοι για την έμφαση στα περιγράμματα.

Συνήθως, η βελτίωση των άκρων πραγματοποιείται χρησιμοποιώντας χωρικό φιλτράρισμα υψηλής συχνότητας. Τα χαρακτηριστικά των φίλτρων καθορίζονται ως μάσκα στην οποία η μέση τιμή πρέπει να είναι ίση με μηδέν.

Μια άλλη μέθοδος για την έμφαση στα όρια είναι η λεγόμενη στατική διαφοροποίηση. Σε αυτή τη μέθοδο, η τιμή φωτεινότητας κάθε στοιχείου διαιρείται με μια στατιστική εκτίμηση της τυπικής απόκλισης, δηλαδή (η τυπική απόκλιση υπολογίζεται σε κάποια γειτονιά του στοιχείου).

5.4 Μέσο φιλτράρισμα

Το διάμεσο φιλτράρισμα αναφέρεται σε μη γραμμικές μεθόδους επεξεργασίας εικόνας και έχει τα ακόλουθα πλεονεκτήματα σε σχέση με το γραμμικό φιλτράρισμα (κλασική διαδικασία εξομάλυνσης): διατηρεί έντονες αλλαγές (όρια). εξομαλύνει αποτελεσματικά τον παλμικό θόρυβο. δεν αλλάζει τη φωτεινότητα του φόντου.

Το διάμεσο φιλτράρισμα πραγματοποιείται μετακινώντας κάποιο διάφραγμα (μάσκα) κατά μήκος μιας διακριτής εικόνας και αντικαθιστώντας την τιμή του κεντρικού στοιχείου της μάσκας με τη διάμεση τιμή (μέση τιμή της διατεταγμένης ακολουθίας) των αρχικών στοιχείων μέσα στο διάφραγμα. Γενικά, το διάφραγμα μπορεί να έχει μεγάλη ποικιλία σχημάτων, αλλά στην πράξη το τετράγωνο διάφραγμα μεγέθους

5.5 Τμηματοποίηση εικόνας

Η κατάτμηση εικόνας νοείται ως η διαδικασία διαίρεσης της σε συστατικά μέρη που έχουν νόημα: αντικείμενα, τα όριά τους ή άλλα πληροφοριακά θραύσματα, χαρακτηριστικά γεωμετρικά χαρακτηριστικά κ.λπ. Στην περίπτωση αυτοματοποίησης των μεθόδων απόκτησης εικόνας, η τμηματοποίηση πρέπει να θεωρείται ως κύριο αρχικό στάδιο ανάλυσης, το οποίο συνίσταται στην κατασκευή μιας επίσημης περιγραφής εικόνων, η ποιότητα των οποίων καθορίζει σε μεγάλο βαθμό την επιτυχία της επίλυσης του προβλήματος της αναγνώρισης και ερμηνείας αντικειμένων.

Γενικά, η τμηματοποίηση είναι η λειτουργία κατάτμησης ενός πεπερασμένου συνόλου ενός επιπέδου στο οποίο η συνάρτηση της αρχικής εικόνας ορίζεται σε μη κενά συνδεδεμένα υποσύνολα σύμφωνα με κάποιο κατηγόρημα που ορίζεται στο σύνολο και τη λήψη πραγματικών τιμών όταν οποιοδήποτε ζεύγος Τα σημεία από κάθε υποσύνολο ικανοποιούν κάποιο κριτήριο ομοιογένειας (για παράδειγμα, κριτήριο ομοιογένειας που βασίζεται σε εκτίμηση της μέγιστης διαφοράς φωτεινότητας ενός μεμονωμένου pixel και της μέσης τιμής φωτεινότητας που υπολογίζεται στην αντίστοιχη περιοχή).

5.5.1 Μέθοδοι τμηματοποίησης κατωφλίου

Το κατώφλι είναι μια από τις κύριες μεθόδους για την κατάτμηση της εικόνας λόγω των διαισθητικών ιδιοτήτων του. Αυτή η μέθοδος επικεντρώνεται στην επεξεργασία εικόνων, μεμονωμένες ομοιογενείς περιοχές των οποίων διαφέρουν ως προς τη μέση φωτεινότητα. Η πιο συνηθισμένη μέθοδος τμηματοποίησης μέσω κατωφλίου είναι η δυαδική κατάτμηση, δηλαδή όταν έχουμε στη διάθεσή μας δύο τύπους ομοιογενών περιοχών.

Σε αυτή την περίπτωση, η εικόνα επεξεργάζεται pixel προς pixel και η μετατροπή κάθε pixel της εικόνας εισόδου στην έξοδο καθορίζεται από τη σχέση:

όπου είναι μια παράμετρος επεξεργασίας που ονομάζεται κατώφλι και είναι τα επίπεδα φωτεινότητας εξόδου. Η επεξεργασία με εικονοστοιχεία, η θέση των οποίων στην εικόνα δεν παίζει κανένα ρόλο, ονομάζεται επεξεργασία σημείου. Τα επίπεδα παίζουν το ρόλο των σημάτων. Χρησιμοποιούνται για να προσδιοριστεί ποιος τύπος ένα δεδομένο σημείο ταξινομείται ως: H0 ή H1. Ή λένε ότι το H0 αποτελείται από σημεία φόντου και το H1 από σημεία ενδιαφέροντος. Κατά κανόνα, τα επίπεδα αντιστοιχούν στα επίπεδα λευκού και μαύρου. Θα ονομάσουμε τις κλάσεις H1 (γνωστή και ως κλάση ενδιαφέροντος) την κλάση αντικειμένου και την κλάση H0 την κλάση φόντου.

Φυσικά, η τμηματοποίηση μπορεί να είναι όχι μόνο δυαδική, και σε αυτήν την περίπτωση υπάρχουν περισσότερες από δύο υπάρχουσες κλάσεις. Αυτός ο τύπος τμηματοποίησης ονομάζεται πολλαπλών επιπέδων. Η εικόνα που προκύπτει δεν είναι δυαδική, αλλά αποτελείται από τμήματα ποικίλης φωτεινότητας. Επίσημα, αυτή η λειτουργία μπορεί να γραφτεί ως εξής:

όπου είναι ο αριθμός των επιπέδων και είναι οι κατηγορίες εικόνων. Σε αυτήν την περίπτωση, για κάθε μία από τις κλάσεις, πρέπει να οριστεί ένα κατάλληλο όριο που θα διαχωρίζει αυτές τις κλάσεις μεταξύ τους. Οι δυαδικές εικόνες αποθηκεύονται και επεξεργάζονται ευκολότερα από τις εικόνες που έχουν πολλά επίπεδα φωτεινότητας.

Το πιο δύσκολο πράγμα σχετικά με το όριο είναι η ίδια η διαδικασία προσδιορισμού του κατωφλίου. Το όριο συχνά γράφεται ως συνάρτηση της φόρμας:

πού είναι η εικόνα και είναι κάποιο χαρακτηριστικό του σημείου της εικόνας, για παράδειγμα, η μέση φωτεινότητα στη γειτονιά με κέντρο σε αυτό το σημείο.

Εάν η τιμή κατωφλίου εξαρτάται μόνο από, δηλαδή η ίδια για όλα τα σημεία εικόνας, τότε ένα τέτοιο όριο ονομάζεται καθολικό. Εάν το κατώφλι εξαρτάται από χωρικές συντεταγμένες, τότε ένα τέτοιο όριο ονομάζεται τοπικό. Εάν εξαρτάται από τα χαρακτηριστικά, τότε ένα τέτοιο όριο ονομάζεται προσαρμοστικό. Έτσι, η επεξεργασία θεωρείται καθολική εάν ισχύει για ολόκληρη την εικόνα ως σύνολο και τοπική εάν εφαρμόζεται σε μια συγκεκριμένη επιλεγμένη περιοχή.

Εκτός από τις αναφερόμενες διακρίσεις μεταξύ αλγορίθμων, υπάρχουν πολλές περισσότερες μέθοδοι. Πολλά από αυτά είναι απλώς ένας συνδυασμός άλλων, αλλά τα περισσότερα από αυτά, με τον ένα ή τον άλλο τρόπο, βασίζονται στην ανάλυση του ιστογράμματος της αρχικής εικόνας, ωστόσο, υπάρχουν ουσιαστικά άλλες προσεγγίσεις που δεν επηρεάζουν άμεσα την ανάλυση των ιστογραμμάτων ή μεταβείτε από αυτές στην ανάλυση κάποιων άλλων συναρτήσεων.

5.5.2 Μέθοδοι για περιοχές καλλιέργειας

Οι μέθοδοι αυτής της ομάδας βασίζονται στη χρήση τοπικών χαρακτηριστικών εικόνας. Η ιδέα της μεθόδου καλλιέργειας της περιοχής είναι να αναλυθεί πρώτα το σημείο εκκίνησης, μετά τα γειτονικά σημεία του κ.λπ. σύμφωνα με κάποιο κριτήριο ομοιογένειας και την επακόλουθη συμπερίληψη των αναλυόμενων σημείων σε μια ή την άλλη ομάδα (ο αριθμός των σημείων εκκίνησης πρέπει να είναι ίσος με τον αριθμό των ομοιογενών περιοχών στην εικόνα). Οι πιο αποτελεσματικές εκδόσεις της μεθόδου δεν χρησιμοποιούν μεμονωμένα pixel ως σημείο εκκίνησης, αλλά διασπούν την εικόνα σε ορισμένες μικρές περιοχές. Στη συνέχεια, κάθε περιοχή ελέγχεται για ομοιομορφία και εάν το αποτέλεσμα της δοκιμής είναι αρνητικό, η αντίστοιχη περιοχή χωρίζεται σε μικρότερα τμήματα. Η διαδικασία συνεχίζεται έως ότου όλες οι επιλεγμένες περιοχές περάσουν το τεστ ομοιογένειας. Μετά από αυτό, αρχίζει ο σχηματισμός ομοιογενών περιοχών χρησιμοποιώντας επεκτάσεις.

Η κατάτμηση κατωφλίου και η τμηματοποίηση με βάση το κριτήριο της ομοιογένειας με βάση τη μέση φωτεινότητα συχνά δεν δίνουν τα επιθυμητά αποτελέσματα. Αυτή η τμηματοποίηση συνήθως οδηγεί σε σημαντικό αριθμό μικρών περιοχών που δεν έχουν πραγματικά πρωτότυπα στην εικόνα. Τα πιο αποτελεσματικά αποτελέσματα λαμβάνονται με τμηματοποίηση με βάση το κριτήριο ομοιογένειας με βάση την υφή (ή τα χαρακτηριστικά υφής).

5.5.3 Περιγραφή

Δεν είναι ασυνήθιστο να αντιμετωπίζουμε το πρόβλημα της εύρεσης περιμέτρων, καμπυλότητας, παραγόντων σχήματος, ειδικής επιφάνειας αντικειμένων κ.λπ. Όλες οι εργασίες που αναφέρονται σχετίζονται με τον ένα ή τον άλλο τρόπο με την ανάλυση των στοιχείων περιγράμματος των αντικειμένων.

Οι μέθοδοι αναγνώρισης περιγραμμάτων (περιγράμματα) σε μια εικόνα μπορούν να χωριστούν στις ακόλουθες κύριες κατηγορίες:

μέθοδοι φιλτραρίσματος υψηλής διέλευσης.

μέθοδοι χωρικής διαφοροποίησης·

Μέθοδοι λειτουργικής προσέγγισης.

Κοινή σε όλες αυτές τις μεθόδους είναι η τάση να θεωρούνται τα όρια ως περιοχή απότομης αλλαγής στη λειτουργία φωτεινότητας της εικόνας. Αυτό που τους διακρίνει είναι το εισαγόμενο μαθηματικό μοντέλο της έννοιας του ορίου και ο αλγόριθμος αναζήτησης οριακών σημείων.

Σύμφωνα με τις εργασίες που έχουν ανατεθεί, επιβάλλονται οι ακόλουθες απαιτήσεις στους αλγόριθμους εξαγωγής περιγράμματος: τα επιλεγμένα περιγράμματα πρέπει να είναι λεπτά, χωρίς σπασίματα και κλειστά. Έτσι, η διαδικασία αναγνώρισης περιγραμμάτων είναι κάπως περίπλοκη λόγω της ανάγκης εφαρμογής αλγορίθμων για την αραίωση και την εξάλειψη των κενών. Ωστόσο, αυτό δεν δίνει πάντα το επιθυμητό αποτέλεσμα - στις περισσότερες περιπτώσεις, τα περιγράμματα δεν είναι κλειστά και, ως εκ τούτου, ακατάλληλα για μια σειρά από διαδικασίες ανάλυσης.

Το πρόβλημα που έχει προκύψει μπορεί να επιλυθεί με τη διαμόρφωση περιγράμματος με έναν αλγόριθμο ανίχνευσης άκρων χρησιμοποιώντας τη μέθοδο "bug", η οποία σας επιτρέπει να επισημάνετε τα κλειστά περιγράμματα των αντικειμένων. Η ουσία του αλγορίθμου είναι η εξής: επιλέγεται ένα ορισμένο σημείο εκκίνησης στο αντικείμενο και το περίγραμμα ιχνηλατείται διαδοχικά μέχρι να επιτευχθεί το σημείο εκκίνησης. Στην περίπτωση ανίχνευσης του περιγράμματος δεξιόστροφα, για να φτάσετε στο σημείο εκκίνησης, εκτελείται μια κίνηση εικονοστοιχείου προς τα δεξιά εάν το εικονοστοιχείο βρίσκεται έξω από το αντικείμενο και προς τα αριστερά εάν είναι πάνω στο αντικείμενο.

Το περίγραμμα που επιλέγεται με αυτόν τον τρόπο είναι ένας κωδικός κλειστής αλυσίδας, δηλ. μια ακολουθία συντεταγμένων των οριακών σημείων ενός αντικειμένου, η οποία είναι πολύ βολική για την επίλυση εκχωρημένων προβλημάτων.

5.5.4 Μέθοδοι που βασίζονται σε ομαδοποίηση

Η μέθοδος K-means είναι μια επαναληπτική μέθοδος που χρησιμοποιείται για τη διαίρεση μιας εικόνας σε συμπλέγματα K. Ο βασικός αλγόριθμος δίνεται παρακάτω:

1. Επιλέξτε κέντρα συμπλέγματος K, τυχαία ή με βάση κάποια ευρετικά.

2. Τοποθετήστε κάθε εικονοστοιχείο εικόνας σε ένα σύμπλεγμα του οποίου το κέντρο είναι πιο κοντά σε αυτό το εικονοστοιχείο.

3. Υπολογίστε ξανά τα κέντρα συμπλέγματος υπολογίζοντας τον μέσο όρο όλων των pixel στο σύμπλεγμα.

4. Επαναλάβετε τα βήματα 2 και 3 μέχρι τη σύγκλιση (για παράδειγμα, όταν τα pixel παραμένουν στο ίδιο σύμπλεγμα).

Εδώ, η απόσταση συνήθως λαμβάνεται ως το άθροισμα των τετραγώνων ή των απόλυτων τιμών των διαφορών μεταξύ του εικονοστοιχείου και του κέντρου του συμπλέγματος. Η διαφορά βασίζεται συνήθως στο χρώμα, τη φωτεινότητα, την υφή και τη θέση των pixel ή ένα σταθμισμένο άθροισμα αυτών των παραγόντων.

Το K μπορεί να επιλεγεί χειροκίνητα, τυχαία ή ευρετικά.

Αυτός ο αλγόριθμος είναι εγγυημένο ότι συγκλίνει, αλλά μπορεί να μην οδηγήσει σε μια βέλτιστη λύση.

Η ποιότητα της λύσης εξαρτάται από το αρχικό σύνολο των συστάδων και την τιμή του K.

5.5.5 Μέθοδοι ιστογράμματος

Οι μέθοδοι που βασίζονται σε ιστογράμματα είναι πολύ αποτελεσματικές σε σύγκριση με άλλες μεθόδους τμηματοποίησης εικόνας επειδή απαιτούν μόνο ένα πέρασμα μέσα από τα εικονοστοιχεία. Σε αυτή τη μέθοδο, ένα ιστόγραμμα υπολογίζεται σε όλα τα εικονοστοιχεία της εικόνας και τα ελάχιστα και τα μέγιστα χρησιμοποιούνται για την εύρεση συστάδων στην εικόνα. Το χρώμα ή η φωτεινότητα μπορούν να χρησιμοποιηθούν σε σύγκριση.

Μια βελτίωση αυτής της μεθόδου είναι η αναδρομική εφαρμογή της στα συμπλέγματα της εικόνας για να τα χωρίσετε σε μικρότερα συμπλέγματα. Η διαδικασία επαναλαμβάνεται με όλο και μικρότερα συμπλέγματα μέχρι να μην εμφανιστούν νέα συμπλέγματα.

Ένα μειονέκτημα αυτής της μεθόδου είναι ότι μπορεί να δυσκολεύεται να βρει σημαντικά ελάχιστα και μέγιστα στην εικόνα. Σε αυτήν τη μέθοδο ταξινόμησης εικόνων, η μέτρηση απόστασης και η αντιστοίχιση ολοκληρωμένης περιοχής είναι παρόμοια.

Οι προσεγγίσεις που βασίζονται σε ιστογράμματα μπορούν επίσης να προσαρμοστούν γρήγορα σε πολλαπλά καρέ, διατηρώντας ταυτόχρονα το πλεονέκτημα ταχύτητας σε ένα μόνο πέρασμα. Ένα ιστόγραμμα μπορεί να κατασκευαστεί με διάφορους τρόπους όταν λαμβάνονται υπόψη πολλαπλά πλαίσια. Η ίδια προσέγγιση που χρησιμοποιείται για ένα καρέ μπορεί να εφαρμοστεί σε πολλά, και μόλις συνδυαστούν τα αποτελέσματα, τα χαμηλά και τα ψηλά που ήταν δύσκολο να απομονωθούν γίνονται πιο ορατά. Ένα ιστόγραμμα μπορεί επίσης να εφαρμοστεί σε βάση ανά εικονοστοιχείο, όπου οι πληροφορίες χρησιμοποιούνται για τον προσδιορισμό του πιο συνηθισμένου χρώματος για μια δεδομένη θέση εικονοστοιχείου. Αυτή η προσέγγιση χρησιμοποιεί τμηματοποίηση με βάση κινούμενα αντικείμενα και σταθερό περιβάλλον, το οποίο παρέχει έναν άλλο τύπο τμηματοποίησης χρήσιμο στην παρακολούθηση βίντεο.

5.5.6 Μέθοδοι για περιοχές καλλιέργειας

Η πρώτη ήταν η μέθοδος καλλιέργειας εκτάσεων από σπόρους. Αυτή η μέθοδος παίρνει εικόνες και ένα σύνολο σπόρων ως είσοδο. Οι σπόροι επισημαίνουν αντικείμενα προς επισήμανση. Οι περιοχές σταδιακά μεγαλώνουν συγκρίνοντας όλα τα μη κατειλημμένα γειτονικά pixel με την περιοχή. Η διαφορά d μεταξύ της φωτεινότητας των εικονοστοιχείων και της μέσης φωτεινότητας της περιοχής χρησιμοποιείται ως μέτρο ομοιότητας. Το pixel με τη μικρότερη τέτοια διαφορά προστίθεται στην αντίστοιχη περιοχή. Η διαδικασία συνεχίζεται μέχρι να προστεθούν όλα τα εικονοστοιχεία σε μία από τις περιοχές.

Η μέθοδος καλλιέργειας περιοχών από σπόρους απαιτεί πρόσθετη συμβολή. Το αποτέλεσμα της κατάτμησης εξαρτάται από την επιλογή των σπόρων. Ο θόρυβος στην εικόνα μπορεί να προκαλείται από κακώς τοποθετημένους σπόρους. Η μέθοδος καλλιέργειας περιοχών χωρίς τη χρήση σπόρων είναι ένας τροποποιημένος αλγόριθμος που δεν απαιτεί σαφείς σπόρους. Ξεκινά με μία περιοχή - το εικονοστοιχείο που επιλέγεται εδώ έχει μικρή επίδραση στην τελική τμηματοποίηση. Σε κάθε επανάληψη, εξετάζει τα γειτονικά εικονοστοιχεία με τον ίδιο τρόπο όπως η μέθοδος ανάπτυξης περιοχής χρησιμοποιώντας σπόρους. Αλλά εκεί διαφέρει, ότι αν το ελάχιστο δεν είναι μικρότερο από το καθορισμένο όριο, τότε προστίθεται στην κατάλληλη περιοχή. Διαφορετικά, το pixel θεωρείται πολύ διαφορετικό από όλες τις τρέχουσες περιοχές και δημιουργείται μια νέα περιοχή που περιέχει αυτό το pixel.

Μια παραλλαγή αυτής της μεθόδου βασίζεται στη χρήση της φωτεινότητας των εικονοστοιχείων. Ο μέσος όρος και η διακύμανση της περιοχής και η φωτεινότητα του υποψήφιου εικονοστοιχείου χρησιμοποιούνται για την κατασκευή των στατιστικών δοκιμής. Εάν η στατιστική δοκιμής είναι αρκετά μικρή, τότε το εικονοστοιχείο προστίθεται στην περιοχή και υπολογίζεται εκ νέου ο μέσος όρος και η διακύμανση της περιοχής. Διαφορετικά, το pixel αγνοείται και χρησιμοποιείται για τη δημιουργία μιας νέας περιοχής.

5.5.7 Μέθοδοι κοπής γραφημάτων

Οι μέθοδοι κοπής γραφήματος μπορούν να εφαρμοστούν αποτελεσματικά στην κατάτμηση εικόνας. Σε αυτές τις μεθόδους, μια εικόνα αναπαρίσταται ως ένα σταθμισμένο μη κατευθυνόμενο γράφημα. Συνήθως, ένα εικονοστοιχείο ή μια ομάδα εικονοστοιχείων συνδέεται με μια κορυφή και τα βάρη των ακμών καθορίζουν την ομοιότητα ή την ανομοιότητα των γειτονικών εικονοστοιχείων. Στη συνέχεια, το γράφημα κόβεται σύμφωνα με ένα κριτήριο που δημιουργήθηκε για να ληφθούν "καλά" συμπλέγματα. Κάθε τμήμα κορυφών (pixel) που παράγεται από αυτούς τους αλγόριθμους θεωρείται αντικείμενο στην εικόνα.

5.5.8 Τμηματοποίηση λεκάνης απορροής

Στην κατάτμηση λεκάνης απορροής, η εικόνα θεωρείται ως ένας χάρτης της περιοχής, όπου οι τιμές φωτεινότητας αντιπροσωπεύουν τιμές ύψους σε σχέση με ένα συγκεκριμένο επίπεδο. Εάν αυτή η περιοχή γεμίσει με νερό, τότε σχηματίζονται πισίνες. Όταν γεμίσουν περαιτέρω με νερό, αυτές οι πισίνες συνδυάζονται. Τα σημεία όπου ενώνονται αυτές οι λεκάνες επισημαίνονται ως γραμμές λεκάνης απορροής.

Σε αυτή την ερμηνεία, λαμβάνονται υπόψη τρεις τύποι σημείων:

1. Τοπικό ελάχιστο.

2. σημεία που βρίσκονται σε πλαγιά, δηλ. από το οποίο το νερό κυλά προς τα κάτω στο ίδιο τοπικό ελάχιστο.

3. τοπικά μέγιστα σημεία, δηλ. από το οποίο το νερό κυλάει σε περισσότερα από ένα ελάχιστα.

Ο διαχωρισμός των αντικειμένων που αγγίζουν μια εικόνα είναι ένα από τα σημαντικά προβλήματα της επεξεργασίας εικόνας. Συχνά για την επίλυση αυτού του προβλήματος χρησιμοποιείται η λεγόμενη μέθοδος απορροής του δείκτη. Οι μετασχηματισμοί που χρησιμοποιούν αυτή τη μέθοδο πρέπει να προσδιορίζουν "λεκάνες απορροής" και "γραμμές λεκάνης απορροής" στην εικόνα επεξεργάζοντας τοπικές περιοχές ανάλογα με τα χαρακτηριστικά φωτεινότητάς τους.

Η μέθοδος της λεκάνης απορροής δείκτη είναι μια από τις πιο αποτελεσματικές μεθόδους τμηματοποίησης εικόνας.

Κατά την εφαρμογή αυτής της μεθόδου, εκτελούνται οι ακόλουθες βασικές διαδικασίες:

1. Υπολογίζεται η συνάρτηση τμηματοποίησης. Αφορά εικόνες όπου αντικείμενα βρίσκονται σε σκοτεινές περιοχές και είναι δύσκολα ορατά.

2. Υπολογισμός δεικτών προσκηνίου εικόνων. Υπολογίζονται με βάση μια ανάλυση της συνδεσιμότητας pixel κάθε αντικειμένου.

3. Υπολογισμός δεικτών φόντου. Αντιπροσωπεύουν pixel που δεν είναι μέρη αντικειμένων.

4. Τροποποίηση της λειτουργίας τμηματοποίησης με βάση τις τιμές θέσης των δεικτών φόντου και των δεικτών προσκηνίου.

Μία από τις σημαντικότερες εφαρμογές της κατάτμησης κατά λεκάνες απορροής είναι η επιλογή αντικειμένων ομοιόμορφης φωτεινότητας (με τη μορφή κηλίδων) από το φόντο μιας εικόνας. Οι περιοχές που χαρακτηρίζονται από μικρές διακυμάνσεις στη φωτεινότητα έχουν μικρές τιμές κλίσης. Επομένως, στην πράξη, συμβαίνει συχνά μια κατάσταση όταν η μέθοδος κατάτμησης λεκάνης απορροής εφαρμόζεται όχι στην ίδια την εικόνα, αλλά στην κλίση της.

6. Περιγραφή λειτουργιών

Αυτή η εργασία παρουσιάζει έναν αλγόριθμο τμηματοποίησης εικόνας χρησιμοποιώντας τη μέθοδο της λεκάνης απορροής δείκτη.

Οι κύριες λειτουργίες που χρησιμοποιούνται κατά τη δημιουργία ενός προγράμματος:

Η συνάρτηση fspecial δημιουργεί ένα δισδιάστατο φίλτρο του καθορισμένου τύπου.

Η συνάρτηση εμφίλτρου είναι μια μορφολογική λειτουργία για τη δημιουργία εικόνας ντεγκραντέ.

Η συνάρτηση Watershed μετατρέπει μια λεκάνη απορροής από μια εικόνα.

Η συνάρτηση label2rgb μετατρέπει την αρχική εικόνα σε κλίμακα του γκρι.

Η συνάρτηση imregionalmax καθορίζει όλα τα τοπικά μέγιστα της εικόνας.

Η λειτουργία imextendedmin βρίσκει "χαμηλά" σημεία στην εικόνα που βρίσκονται πιο βαθιά από ένα ορισμένο επίπεδο κατωφλίου σε σύγκριση με το άμεσο περιβάλλον τους.

Η συνάρτηση imimposemin τροποποιεί την εικόνα σε κλίμακα του γκρι έτσι ώστε τα τοπικά ελάχιστα να επιτυγχάνονται μόνο σε σημειωμένες θέσεις. άλλες τιμές pixel αυξάνονται για να εξαλειφθούν όλα τα άλλα τοπικά ελάχιστα σημεία.

Λειτουργίες ανακατασκευή και ολοκλήρωση - ανακατασκευή εικόνας χρησιμοποιώντας μορφολογικές πράξεις ανοίγματος (κλείσιμο.)

7. Δοκιμή αλγορίθμων

Κατά την εφαρμογή αυτής της μεθόδου, πραγματοποιήθηκαν οι ακόλουθες διαδικασίες:

1. Διαβάστε την εικόνα και μετατρέψτε την σε κλίμακα του γκρι (Εικόνα 1).

Εικόνα 1. Πρωτότυπες (αριστερά) και ημίτονες (δεξιά) εικόνες.

2. Χρησιμοποιούμε τις τιμές κλίσης ως συνάρτηση τμηματοποίησης (Εικόνα 2).

Εικόνα 2. Τιμές κλίσης.

3. Πραγματοποιούμε μορφολογικές επεμβάσεις στην εικόνα (Εικόνα 3).

Εικόνα 3. Το αποτέλεσμα της εφαρμογής μορφολογικών πράξεων ανοίγματος-κλεισίματος μέσω ανακατασκευής εικόνας.

4. Υπολογίστε τους δείκτες προσκηνίου και φόντου της εικόνας (Εικόνα 4).

Εικόνα 4. Δείκτες προσκηνίου (αριστερά) και φόντου (δεξιά) μιας εικόνας.

5. Χτίζουμε τα όρια των λεκανών απορροής (Εικόνα 5).

Εικόνα 5. Όρια λεκάνης απορροής.

6. Εμφάνιση δεικτών και ορίων αντικειμένων σε μια ημίτονη εικόνα (Εικόνα 6).

Εικόνα 6. Δείκτες και όρια αντικειμένων.

7. Εμφανίστε το αποτέλεσμα τμηματοποίησης χρησιμοποιώντας μια έγχρωμη εικόνα (αριστερά) και χρησιμοποιώντας μια ημιδιαφανή λειτουργία (δεξιά).

Εικόνα 7 Αποτελέσματα τμηματοποίησης.

συμπέρασμα

Σε αυτό το άρθρο, αναπτύσσεται μια μέθοδος απορροής δείκτη για την κατάτμηση της εικόνας.

Η άμεση εφαρμογή του αλγορίθμου τμηματοποίησης λεκάνης απορροής οδηγεί σε πλεονάζουσα τμηματοποίηση, επομένως χρησιμοποιείται μια προσέγγιση που βασίζεται σε δείκτες για τη διαχείριση της πλεονάζουσας τμηματοποίησης.

Ένας δείκτης αντιπροσωπεύει ένα συνδεδεμένο στοιχείο που ανήκει σε μια εικόνα. Επίσης, πριν την κατάτμηση κατά λεκάνες απορροής, πραγματοποιήθηκε η απαραίτητη προεπεξεργασία της εικόνας.

Κατάλογος πηγών που χρησιμοποιήθηκαν

1. Gonzalez R., Woods R. Ψηφιακή επεξεργασία εικόνας. - Μ.: Τεχνόσφαιρα, 2005. 1072 σελ.

2. Pratt W. Ψηφιακή επεξεργασία εικόνας. - Μ.: Μιρ, βιβλίο 1, 1982. 312 σελ.

3. Yaroslavsky L.P. Εισαγωγή στην ψηφιακή επεξεργασία εικόνας. - Μ: Σοβ. ραδιόφωνο, 1979. 312 σελ.

4. Pratt W. Ψηφιακή επεξεργασία εικόνας. - Μ: Ειρήνη, βιβλίο. 1, 1982. 480 σελ.

5. http://www.ict.edu.ru/lib/

6. http://matlab.exponenta.ru/imageprocess/book2/76.php

7. Vizilter Yu.V. Επεξεργασία και ανάλυση ψηφιακών εικόνων με παραδείγματα σε LabVIEW και IMAQ Vision. - M: DMK, 2011. 464 σελ.

8. Gonzalez R., Woods R., Eddins S. Ψηφιακή επεξεργασία εικόνας στο MATLAB. - Μ: Τεχνόσφαιρα, 2006. 616 σελ.

9. http://matlab.exponenta.ru/imageprocess/book2/48.php

10. Salomon D. Συμπίεση δεδομένων, εικόνων και ήχου. - Μ.: Τεχνόσφαιρα, 2004. 368 σελ.

Εφαρμογή

Μετράμε την εικόνα

rgb=imread("C:\Users\Name\Documents\MATLAB\picture1.jpeg");

Ας το φανταστούμε ως ημίτονο

I=rgb2gray(rgb);figure,imshow(I);

Υπολογίστε την τιμή της κλίσης

hy=fspecial("sobel"); hx=hy";

Iy=imfilter(double(I), hy, "replicate");

Ix=imfilter(double(I), hx, "replicate");

gradmag=sqrt(Ix.^2+Iy.^2);

Ας εφαρμόσουμε τη μέθοδο της λεκάνης απορροής

L=λεκάνη απορροής(gradmag);Lrgb=label2rgb(L);

Μορφολογικές επεμβάσεις

se = strel("disk",15);

Ie = imerode(I, se);Iobr = imreconstruct(Ie, I);

Iobrd = αμβλύνω (Iobr, se);

Iobrcbr = imreconstruct(imcomplement(Iobrd), impcomplement(Iobr));

Iobrcbr = συμπλήρωμα(Iobrcbr);

Ας υπολογίσουμε τα τοπικά μέγιστα

fgm = imregionalmax(Iobrcbr);

Ας βάλουμε μαρκαδόρους στην εικόνα

I2 = I;I2(fgm) = 255;

Αφαίρεση μεμονωμένων εικονοστοιχείων

se2 = strel(ones(3,3));fgm2 = imclose(fgm, se2);fgm3 = imerode(fgm2, se2);

Αφαιρέστε έναν καθορισμένο αριθμό pixel

fgm4 = bwareaopen(fgm3, 20);

Τοποθετήστε το στην αρχική εικόνα

I3 = I;I3(fgm4) = 255;

Ας υπολογίσουμε τους δείκτες φόντου

bw = im2bw(Iobrcbr, graythresh(Iobrcbr));

Μέτρηση της απόστασης από τη γραμμή λεκάνης απορροής

D = bwdist(bw);DL = λεκάνη απορροής(D);bgm = DL == 0;

figure, imshow(bgm), title("bgm");

Ρύθμιση της τιμής κλίσης

gradmag2 = imimposemin(gradmag, bgm | fgm4);

L = λεκάνη απορροής (gradmag2);

Εφαρμόστε δείκτες και όρια αντικειμένων στην εικόνα προέλευσης

I4 = I;I4(imdilate(L == 0, ones(3, 3)) | bgm | fgm4) = 255;

Εμφανίστε το αποτέλεσμα χρησιμοποιώντας μια έγχρωμη εικόνα

Lrgb = label2rgb(L, "jet", "w", "shuffle");

Ας εφαρμόσουμε δείκτες και περιγράμματα αντικειμένων σε μια ημιδιαφανή εικόνα

φιγούρα, εμφανίζω(εγώ), κρατάω

himage = imshow(Lrgb);

set(image, "AlphaData", 0.3);

τίτλος ("Lrgb2");

Δημοσιεύτηκε στο Allbest.ru

...

Παρόμοια έγγραφα

    Ψηφιακά ακτινογραφικά συστήματα. Μέθοδοι για αυτόματη ανάλυση εικόνας στο περιβάλλον MatLab. Ανάλυση εικόνας με ακτίνες Χ. Φιλτράρισμα, τμηματοποίηση, βελτίωση εικόνας. Δυνατότητες υλικού για προκαταρκτική κανονικοποίηση εικόνας.

    εργασία μαθήματος, προστέθηκε 12/07/2013

    Επιλογή μεθόδων επεξεργασίας και τμηματοποίησης εικόνας. Μαθηματική βάση εφαρμοζόμενων φίλτρων. Ιστόγραμμα φωτεινότητας εικόνας. Εφαρμογή λογισμικού μιας πολύπλοκης μεθόδου επεξεργασίας εικόνας. Δοκιμή ανεπτυγμένου λογισμικού.

    εργασία μαθήματος, προστέθηκε 18/01/2017

    Μελέτη και εφαρμογή λογισμικού στο περιβάλλον Matlab μεθόδων επεξεργασίας, ανάλυσης, φιλτραρίσματος, τμηματοποίησης και βελτίωσης της ποιότητας των ιατρικών εικόνων ακτίνων Χ. Ψηφιακά ακτινογραφικά συστήματα. Ανάπτυξη αλγορίθμων στατικής βάσης.

    εργασία μαθήματος, προστέθηκε 20/01/2016

    Σύγχρονα συστήματα ανάλυσης υφής εικόνων. Παραδείγματα τμηματοποίησης υφής εικόνων μονού καναλιού. Χρησιμοποιώντας χαρακτηριστικά που λαμβάνονται από ένα ιστόγραμμα φωτεινότητας δεύτερης τάξης για την ταξινόμηση φασματοζωνικών αεροφωτογραφιών.

    περίληψη, προστέθηκε 15/01/2017

    Τα γραφικά υπολογιστών και η επεξεργασία εικόνας από ηλεκτρονικούς υπολογιστές είναι η πιο σημαντική πτυχή της χρήσης των υπολογιστών σε όλους τους τομείς της ανθρώπινης δραστηριότητας. Ανάπτυξη «υποσυστήματος γραμμικής τμηματοποίησης», περιγραφή αλγορίθμου και λογική.

    διατριβή, προστέθηκε 23/06/2008

    Προβλήματα ψηφιακής επεξεργασίας εικόνας. Μέθοδοι τμηματοποίησης κατωφλίου. Δημιουργία προγράμματος για την αναπαράσταση ενός σχεδίου με τη μορφή μήτρας και την εφαρμογή επεξεργασίας κατωφλίου σε αυτό. Ανάπτυξη διεπαφής για πρόγραμμα φόρτωσης και φιλτραρίσματος εικόνων με επιλεγμένο όριο.

    εργασία μαθήματος, προστέθηκε 11/12/2012

    Περιγραφή μαθηματικών μεθόδων αναπαράστασης και επεξεργασίας γραφικών εικόνων. Περιγραφή του αναπτυγμένου πρόσθετου λογισμικού. Περιγραφή των συναρτήσεων και των ιδιοτήτων τους. Παρουσίαση και επεξεργασία γραφικών εικόνων. Αποτελέσματα δοκιμών προγράμματος.

    εργασία μαθήματος, προστέθηκε 27/01/2015

    Το πρόβλημα της χωροχρονικής επεξεργασίας εικόνας παρουσία θορύβου και παρεμβολών. Μέθοδοι βελτιστοποίησης για χωροχρονική επεξεργασία εικόνας. Η δομή ενός εξειδικευμένου προγράμματος, περιγραφή της διεπαφής χρήστη του. Εκτίμηση κόστους.

    διατριβή, προστέθηκε 06/10/2013

    Ανίχνευση λεπτομερειών και των ορίων τους σε μια εικόνα. Εφαρμογή αλγορίθμων κατάταξης. Χρήση αλγορίθμων κβαντοποίησης προσαρμοστικής λειτουργίας σε λειτουργία επεξεργασίας θραύσματος προς θραύσμα. Γενικευμένο γραμμικό φιλτράρισμα εικόνας. Αποκατάσταση περιοχών που λείπουν.

    εργασία μαθήματος, προστέθηκε 17/06/2013

    Ανασκόπηση υπάρχοντος λογισμικού για την αυτοματοποίηση της επιλογής ακμών σε μια εικόνα. Ανάπτυξη μαθηματικού μοντέλου επεξεργασίας εικόνας και εξαγωγής περιγράμματος σε αποχρώσεις του γκρι και λογισμικού για αλγόριθμους επεξεργασίας εικόνας.

Ένα από τα κύρια καθήκοντα της επεξεργασίας και της ανάλυσης εικόνας είναι η κατάτμηση, δηλ. διαίρεση μιας εικόνας σε περιοχές για τις οποίες πληρούται ένα συγκεκριμένο κριτήριο ομοιογένειας, για παράδειγμα, επισήμανση περιοχών περίπου της ίδιας φωτεινότητας στην εικόνα. Η έννοια της περιοχής εικόνας χρησιμοποιείται για να ορίσει μια συνεκτική ομάδα στοιχείων εικόνας που έχουν ένα συγκεκριμένο κοινό χαρακτηριστικό (ιδιότητα).
Ένας από τους κύριους και απλούστερους τρόπους είναι η δημιουργία τμηματοποίησης χρησιμοποιώντας ένα όριο. Το κατώφλι είναι ένα σημάδι (ιδιότητα) που βοηθά στη διαίρεση του επιθυμητού σήματος σε κλάσεις. Η λειτουργία της διαίρεσης κατωφλίου είναι η σύγκριση της τιμής φωτεινότητας κάθε pixel στην εικόνα με μια καθορισμένη τιμή κατωφλίου.
Δυαδοποίηση

Η λειτουργία του κατωφλίου που οδηγεί σε μια δυαδική εικόνα ονομάζεται δυαδοποίηση. Ο σκοπός της λειτουργίας δυαδοποίησης είναι να μειώσει ριζικά την ποσότητα των πληροφοριών που περιέχονται στην εικόνα. Κατά τη διαδικασία δυαδοποίησης, η αρχική εικόνα ημίτονο, η οποία έχει ορισμένο αριθμό επιπέδων φωτεινότητας, μετατρέπεται σε ασπρόμαυρη εικόνα, τα εικονοστοιχεία της οποίας έχουν μόνο δύο τιμές - 0 και 1

Το κατώφλι μιας εικόνας μπορεί να γίνει με διαφορετικούς τρόπους.

Δυαδοποίηση με χαμηλότερο όριο
Δυαδοποίηση με χαμηλότερο όριο
Η δυαδοποίηση με χαμηλότερο όριο είναι η απλούστερη λειτουργία, η οποία χρησιμοποιεί μόνο μία τιμή κατωφλίου:

Όλες οι τιμές αντί για το κριτήριο γίνονται 1, σε αυτήν την περίπτωση 255 (λευκό) και όλες οι τιμές (πλάτη) των pixel που είναι μεγαλύτερες από το όριο t - 0 (μαύρο).

Δυαδοποίηση με ανώτερο όριο
Μερικές φορές μπορείτε να χρησιμοποιήσετε μια παραλλαγή της πρώτης μεθόδου, η οποία παράγει ένα αρνητικό της εικόνας που λαμβάνεται μέσω της διαδικασίας δυαδοποίησης. Λειτουργία δυαδοποίησης με ανώτερο όριο:

Δυαδοποίηση με διπλό περιορισμό
Για να επισημανθούν περιοχές στις οποίες οι τιμές φωτεινότητας των εικονοστοιχείων μπορεί να ποικίλλουν εντός ενός γνωστού εύρους, εισάγεται η δυαδοποίηση με διπλό περιορισμό (t 1
Άλλες παραλλαγές με κατώφλια είναι επίσης δυνατές, όπου μόνο μέρος των δεδομένων διέρχεται (φίλτρο μεσαίας ζώνης).

Ατελής όριο
Αυτός ο μετασχηματισμός παράγει μια εικόνα που μπορεί να είναι πιο εύκολο να αναλυθεί περαιτέρω επειδή στερείται φόντου με όλες τις λεπτομέρειες που υπάρχουν στην αρχική εικόνα.

Μετασχηματισμός κατωφλίου πολλαπλών επιπέδων
Αυτή η λειτουργία σχηματίζει μια εικόνα που δεν είναι δυαδική, αλλά αποτελείται από τμήματα με διαφορετική φωτεινότητα.

Όσο για τη δυαδοποίηση, αυτό είναι ουσιαστικά. Αν και μπορούμε να προσθέσουμε ότι υπάρχει μια καθολική, η οποία χρησιμοποιείται για ολόκληρη την εικόνα, και υπάρχει επίσης μια τοπική, η οποία καταγράφει μέρος της εικόνας (εικόνα).

Τοπικό κατώφλι
Μέθοδος Otsa
Η μέθοδος χρησιμοποιεί ένα ιστόγραμμα της κατανομής των τιμών φωτεινότητας των pixel εικόνας ράστερ. Ένα ιστόγραμμα κατασκευάζεται χρησιμοποιώντας τις τιμές p i =n i /N, όπου N είναι ο συνολικός αριθμός pixel στην εικόνα, n i είναι ο αριθμός pixel με επίπεδο φωτεινότητας i. Το εύρος φωτεινότητας χωρίζεται σε δύο κατηγορίες χρησιμοποιώντας το όριο επιπέδου φωτεινότητας k,k - μια ακέραια τιμή από 0 έως L. Κάθε κατηγορία αντιστοιχεί σε σχετικές συχνότητες ω 0 ω 1:

Μέση επίπεδα για καθεμία από τις δύο κατηγορίες εικόνων:
Στη συνέχεια, υπολογίζεται η μέγιστη τιμή για την αξιολόγηση της ποιότητας της διαίρεσης της εικόνας σε δύο μέρη:
όπου (σ cl)2=ω 0 ω 1 (μ 1 -μ 0) 2 είναι η διακλάδωση διακύμανσης και (σ σύνολο) 2 είναι η συνολική διακύμανση για ολόκληρη την εικόνα.

Κατώφλι με βάση τη διαβάθμιση φωτεινότητας της εικόνας
Ας υποθέσουμε ότι η αναλυόμενη εικόνα μπορεί να χωριστεί σε δύο κατηγορίες - αντικείμενα και φόντο. Ο αλγόριθμος για τον υπολογισμό της τιμής κατωφλίου αποτελείται από τα ακόλουθα 2 βήματα:
1. Η μονάδα της διαβάθμισης φωτεινότητας καθορίζεται για κάθε pixel
εικόνες

2. Υπολογισμός κατωφλίου:
Σύνολο
Με χαρά μοιράστηκα ό,τι βρήκα μαζί σας· στο μέλλον, αν τα καταφέρω και έχω χρόνο, θα προσπαθήσω να εφαρμόσω κάποιους από τους αλγόριθμους. Αυτό είναι μόνο ένα μικρό μέρος από όλα όσα υπάρχουν σήμερα, αλλά είμαι στην ευχάριστη θέση να το μοιραστώ κι αυτό.
Σας ευχαριστώ για την προσοχή σας.

Το άρθρο περιγράφει τη μελέτη μεθόδων τμηματοποίησης εικόνων χρησιμοποιώντας διάφορα παραδείγματα. Σκοπός της μελέτης είναι να ανακαλύψει τα πλεονεκτήματα και τα μειονεκτήματα ορισμένων γνωστών μεθόδων.


Μέθοδοι που θα συζητηθούν σε αυτό το άρθρο:

  1. Μέθοδος καλλιέργειας περιοχής;
  2. Μέθοδος λεκάνης απορροής;
  3. Κανονική μέθοδος κοπής.

Μελέτη μεθόδων τμηματοποίησης σε εικόνες μοντέλων

Η έρευνα για τις μεθόδους τμηματοποίησης πραγματοποιήθηκε αρχικά σε μοντέλα εικόνων. Ως μοντέλα χρησιμοποιήθηκαν εννέα τύποι εικόνων.




Τα αποτελέσματα της μελέτης έδειξαν:

  • Η μέθοδος ανάπτυξης περιοχής εντοπίζει ελαττώματα υφής, τόσο εκείνα που διαφέρουν έντονα από το φόντο όσο και εκείνα που σχηματίζονται από την περιστροφή και την αλλαγή της φωτεινότητας της υφής.
  • Η μέθοδος ανάπτυξης περιοχής εντοπίζει τα ελαττώματα σε διάφορους βαθμούς σε διαφορετικές γωνίες περιστροφής υφής.
  • Η θεωρούμενη μέθοδος κατάτμησης λεκάνης απορροής στην αρχική της μορφή δεν παρέχει εντοπισμό ελαττωμάτων υφής.
  • Η μέθοδος κανονικών περικοπών είναι καλή στον εντοπισμό της παρουσίας μιας υφής διαφορετικής από το φόντο, αλλά δεν επισημαίνει τις αλλαγές στη φωτεινότητα και την περιστροφή της υφής.

Μελέτη μεθόδων τμηματοποίησης σε εικόνες αντικειμένων

Για τη μελέτη των μεθόδων τμηματοποίησης, ετοιμάστηκε μια βάση δεδομένων με εικόνες διαφόρων αντικειμένων. Οι εικόνες που προέκυψαν τμηματοποιήθηκαν χρησιμοποιώντας διάφορες μεθόδους, τα αποτελέσματα των οποίων παρουσιάζονται στα σχήματα του πίνακα


Πρωτότυπη εικόνα Μέθοδος καλλιέργειας περιοχής Κανονική μέθοδος κοπής Μέθοδος λεκάνης απορροής

Αποτελέσματα:

  • Η μέθοδος ανάπτυξης περιοχής δεν παρέχει εντοπισμό τμημάτων σε εικόνες αντικειμένων.
  • Οι εξεταζόμενες μέθοδοι λεκάνης απορροής και κανονικών τμημάτων στην αρχική τους μορφή δεν παρέχουν εντοπισμό των παρουσιαζόμενων αντικειμένων.
  • Η μέθοδος κανονικών περικοπών παρέχει εντοπισμό αντικειμένων σε εικόνες αντικειμένων.

Αποτελέσματα

Αποτελέσματα της μελέτης:

  • Η μέθοδος των αναπτυσσόμενων περιοχών δεν παρέχει εντοπισμό τμημάτων τόσο σε εικόνες μοντέλων όσο και σε εικόνες αντικειμένων και παρέχει επίσης εντοπισμό στοιχείων της υποδομής οδικών μεταφορών.
  • Οι εξεταζόμενες μέθοδοι λεκάνης απορροής και κανονικών τομών στην αρχική τους μορφή δεν διασφαλίζουν πλήρως τον εντοπισμό των παρουσιαζόμενων αντικειμένων.
  • Η μέθοδος κανονικών περικοπών παρέχει εντοπισμό αντικειμένων τόσο σε εικόνες μοντέλων όσο και σε εικόνες αντικειμένων και παρέχει επίσης εντοπισμό στοιχείων της υποδομής οδικών μεταφορών.
  • Η μέθοδος καλλιέργειας περιοχής και η μέθοδος κανονικής διατομής μπορούν να προταθούν για χρήση σε αυτοματοποιημένα συστήματα οπτικής επιθεώρησης.

Αυτό το καλοκαίρι είχα την τύχη να κάνω καλοκαιρινή πρακτική στην εταιρεία Itseez . Μου ζητήθηκε να διερευνήσω σύγχρονες μεθόδους που θα μας επέτρεπαν να επισημάνουμε τις θέσεις των αντικειμένων σε μια εικόνα. Βασικά, τέτοιες μέθοδοι βασίζονται στην τμηματοποίηση, οπότε ξεκίνησα τη δουλειά μου εξοικειώνοντας αυτόν τον τομέα της όρασης υπολογιστή.
Τμηματοποίηση εικόνας - Αυτή είναι η διαίρεση μιας εικόνας σε πολλές περιοχές που την καλύπτουν. Η τμηματοποίηση χρησιμοποιείται σε πολλούς τομείς, για παράδειγμα, στην κατασκευή για να δείξει ελαττώματα κατά τη συναρμολόγηση εξαρτημάτων, στην ιατρική για την πρωτογενή επεξεργασία εικόνας, καθώς και για τη σύνταξη χαρτών εδάφους από δορυφορικές εικόνες. Για όσους ενδιαφέρονται να κατανοήσουν πώς λειτουργούν τέτοιοι αλγόριθμοι, καλώς ήρθατε στο cat. Θα εξετάσουμε διάφορες μεθόδους από τη βιβλιοθήκη όρασης υπολογιστή OpenCV .

Αλγόριθμος τμηματοποίησης κατά λεκάνη απορροής (WaterShed)


Ο αλγόριθμος λειτουργεί με την εικόνα ως συνάρτηση δύο μεταβλητών f=I(x,y) , Οπου x,y – συντεταγμένες pixel:


Η τιμή της συνάρτησης μπορεί να είναι η ένταση ή το μέγεθος της κλίσης. Για τη μεγαλύτερη αντίθεση, μπορείτε να πάρετε μια κλίση από την εικόνα. Αν κατά μήκος του άξονα ΟΖ Κατά τη σχεδίαση της απόλυτης τιμής της κλίσης, σχηματίζονται κορυφογραμμές σε μέρη όπου υπάρχει διαφορά στην ένταση και σχηματίζονται πεδιάδες σε ομοιογενείς περιοχές. Αφού βρούμε τα ελάχιστα της συνάρτησης φά , βρίσκεται σε εξέλιξη η διαδικασία πλήρωσης με «νερό», η οποία ξεκινά από το παγκόσμιο ελάχιστο. Μόλις η στάθμη του νερού φτάσει στο επόμενο τοπικό ελάχιστο, αρχίζει να γεμίζει με νερό. Όταν δύο περιοχές αρχίζουν να συγχωνεύονται, δημιουργείται ένα διαμέρισμα για να αποτρέψει τη συγχώνευση των περιοχών. Το νερό θα συνεχίσει να ανεβαίνει έως ότου οι περιοχές διαχωρίζονται μόνο από τεχνητά κατασκευασμένα χωρίσματα (Εικ. 1).




Εικ.1. Απεικόνιση της διαδικασίας πλήρωσης νερού

Ένας τέτοιος αλγόριθμος μπορεί να είναι χρήσιμος εάν η εικόνα έχει μικρό αριθμό τοπικών ελάχιστων, αλλά εάν υπάρχει μεγάλος αριθμός από αυτά, εμφανίζεται πλεονάζουσα κατάτμηση σε τμήματα. Για παράδειγμα, αν εφαρμόσουμε απευθείας τον αλγόριθμο στο Σχ. 2, έχουμε πολλές μικρές λεπτομέρειες στο Σχ. 3.


Ρύζι. 2. Πρωτότυπη εικόνα


Ρύζι. 3. Εικόνα μετά από τμηματοποίηση κατά αλγόριθμο Κοιλάς μεταξύ ποταμών

Πώς να αντιμετωπίσετε τις μικρές λεπτομέρειες;

Για να απαλλαγείτε από την περίσσεια μικρών λεπτομερειών, μπορείτε να ορίσετε περιοχές που θα συνδέονται με τα πλησιέστερα ελάχιστα. Το διαμέρισμα θα κατασκευαστεί μόνο εάν συγχωνευτούν δύο περιοχές με δείκτες, διαφορετικά αυτά τα τμήματα θα συγχωνευθούν. Αυτή η προσέγγιση αφαιρεί το αποτέλεσμα της πλεονάζουσας τμηματοποίησης, αλλά απαιτεί προεπεξεργασία της εικόνας για την επιλογή δεικτών που μπορούν να οριστούν διαδραστικά στην εικόνα στην Εικ. 4, 5.


Ρύζι. 4. Εικόνα με μαρκαδόρους


Ρύζι. 5. Εικόνα μετά από τμηματοποίηση κατά αλγόριθμο Κοιλάς μεταξύ ποταμώνχρησιμοποιώντας μαρκαδόρους

Εάν θέλετε να ενεργείτε αυτόματα χωρίς παρέμβαση χρήστη, μπορείτε να χρησιμοποιήσετε, για παράδειγμα, τη λειτουργία findContours() για να επισημάνετε δείκτες, αλλά και εδώ, για καλύτερη τμηματοποίηση, θα πρέπει να εξαιρεθούν μικρά περιγράμματα. 6., για παράδειγμα, αφαιρώντας τα κατά μήκος του κατωφλίου κατά μήκος του περιγράμματος. Ή χρησιμοποιήστε διάβρωση με διαστολή για να αφαιρέσετε μικρές λεπτομέρειες πριν τονίσετε τα περιγράμματα.


Ρύζι. 6. Ως δείκτες χρησιμοποιήθηκαν περιγράμματα με μήκος πάνω από ένα συγκεκριμένο όριο


Ως αποτέλεσμα του αλγορίθμου, λαμβάνουμε μια μάσκα με μια τμηματοποιημένη εικόνα, όπου τα εικονοστοιχεία ενός τμήματος επισημαίνονται με την ίδια ετικέτα και σχηματίζουν μια συνδεδεμένη περιοχή. Το κύριο μειονέκτημα αυτού του αλγορίθμου είναι η χρήση μιας διαδικασίας προεπεξεργασίας για εικόνες με μεγάλο αριθμό τοπικών ελάχιστων (εικόνες με πολύπλοκες υφές και πληθώρα διαφορετικών χρωμάτων).

Mat image = imread("coins.jpg", CV_LOAD_IMAGE_COLOR); // επιλέξτε τα περιγράμματα Mat imageGray, imageBin; cvtColor(image, imageGray, CV_BGR2GRAY); threshold(imageGray, imageBin, 100, 255, THRESH_BINARY); std:: vector >περίγραμμα? std:: vector ιεραρχία findContours(imageBin, περιγράμματα, ιεραρχία, CV_RETR_TREE, CV_CHAIN_APPROX_SIMPLE); Mat markers(image.size(), CV_32SC1); δείκτες = Scalar::all(0); int compCount = 0; for(int idx = 0; idx >= 0; idx = hierarchy, compCount++) ( drawContours(δείκτες, περιγράμματα, idx, Scalar::all(compCount+1), -1, 8, hierarchy, INT_MAX); ) std: :διάνυσμα colorTab(compCount); for(int i = 0; i< compCount; i++) { colorTab[i] = Vec3b(rand()&255, rand()&255, rand()&255); } watershed(image, markers); Mat wshed(markers.size(), CV_8UC3); for(int i = 0; i < markers.rows; i++) { for(int j = 0; j < markers.cols; j++) { int index = markers.at(i, j); αν(ευρετήριο == -1) πλυμένο.at (i, j) = Vec3b(0, 0, 0); αλλιώς αν (δείκτης == 0) πλυθεί.at (i, j) = Vec3b(255, 255, 255); άλλο πλυμένο.στο (i, j) = colorTab; ) ) imshow("μετασχηματισμός λεκάνης απορροής", wshed); waitKey(0);

Αλγόριθμος τμηματοποίησης MeanShift

Το MeanShift ομαδοποιεί αντικείμενα με παρόμοια χαρακτηριστικά. Τα εικονοστοιχεία με παρόμοια χαρακτηριστικά συνδυάζονται σε ένα τμήμα και η έξοδος είναι μια εικόνα με ομοιογενείς περιοχές.


Για παράδειγμα, ως συντεταγμένες στο χώρο χαρακτηριστικών μπορείτε να επιλέξετε συντεταγμένες pixel (x, y) και εξαρτήματα RGB εικονοκύτταρο. Σχεδιάζοντας pixel στο χώρο χαρακτηριστικών, μπορείτε να δείτε συστάδες σε ορισμένα σημεία.

Ρύζι. 7. (α) Pixel στο χώρο χαρακτηριστικών 2D. (β) Τα εικονοστοιχεία που φτάνουν στο ίδιο τοπικό μέγιστο έχουν το ίδιο χρώμα. (γ) - συνάρτηση πυκνότητας, τα μέγιστα αντιστοιχούν στις θέσεις της υψηλότερης συγκέντρωσης pixel. Η εικόνα προέρχεται από το άρθρο.

Για να διευκολυνθεί η περιγραφή των συμπυκνώσεων σημείων, εισάγουμε συνάρτηση πυκνότητας :
– διάνυσμα χαρακτηριστικών Εγώ -ο εικονοστοιχείο, ρε - αριθμός πινακίδων, Ν - αριθμός pixel, η - η παράμετρος που είναι υπεύθυνη για την ομαλότητα είναι ο πυρήνας. Τα μέγιστα της συνάρτησης βρίσκονται στα σημεία συμπύκνωσης των pixel της εικόνας στον χώρο χαρακτηριστικών. Τα εικονοστοιχεία που ανήκουν στο ίδιο τοπικό μέγιστο συνδυάζονται σε ένα τμήμα. Αποδεικνύεται ότι για να βρείτε σε ποιο από τα κέντρα συγκέντρωσης ανήκει ένα pixel, πρέπει να περπατήσετε κατά μήκος της κλίσης για να βρείτε το πλησιέστερο τοπικό μέγιστο.

Εκτίμηση κλίσης από τη συνάρτηση πυκνότητας

Το μέσο διάνυσμα μετατόπισης μπορεί να χρησιμοποιηθεί για την εκτίμηση της κλίσης της συνάρτησης πυκνότητας
Ο πυρήνας Epanechnikov χρησιμοποιείται ως πυρήνας στο OpenCV:


- αυτός είναι ο τόμος ρε -διαστατική σφαίρα με μονάδα ακτίνας.


σημαίνει ότι το άθροισμα δεν υπερβαίνει όλα τα εικονοστοιχεία, αλλά μόνο πάνω από αυτά που εμπίπτουν σε μια σφαίρα με ακτίνα η με κέντρο στο σημείο όπου το διάνυσμα δείχνει στον χώρο χαρακτηριστικών. Αυτό εισάγεται ειδικά για τη μείωση του αριθμού των υπολογισμών. - Ενταση ΗΧΟΥ ρε -διαστατική σφαίρα με ακτίνα h. Μπορείτε να ορίσετε ξεχωριστά την ακτίνα για τις χωρικές συντεταγμένες και ξεχωριστά την ακτίνα στο χρωματικό χώρο. - ο αριθμός των pixel που πέφτουν στη σφαίρα. Μέγεθος μπορεί να θεωρηθεί ως εκτίμηση της αξίας στην περιοχή .


Επομένως, για να περπατήσετε κατά μήκος της κλίσης, αρκεί να υπολογίσετε την τιμή - μέσο διάνυσμα μετατόπισης. Θα πρέπει να θυμάστε ότι εάν επιλέξετε διαφορετικό πυρήνα, το μέσο διάνυσμα μετατόπισης θα φαίνεται διαφορετικό.


Όταν επιλέγετε συντεταγμένες εικονοστοιχείων και εντάσεις χρώματος ως χαρακτηριστικά, τα εικονοστοιχεία με παρόμοια χρώματα και βρίσκονται κοντά το ένα στο άλλο θα συνδυάζονται σε ένα τμήμα. Αντίστοιχα, εάν επιλέξετε ένα διαφορετικό διάνυσμα χαρακτηριστικών, τότε τα εικονοστοιχεία θα συνδυαστούν σε τμήματα χρησιμοποιώντας το. Για παράδειγμα, εάν αφαιρέσουμε συντεταγμένες από τα χαρακτηριστικά, τότε ο ουρανός και η λίμνη θα θεωρηθούν ένα τμήμα, αφού τα εικονοστοιχεία αυτών των αντικειμένων στον χώρο χαρακτηριστικών θα έπεφταν σε ένα τοπικό μέγιστο.

Εάν το αντικείμενο που θέλουμε να επιλέξουμε αποτελείται από περιοχές που διαφέρουν πολύ ως προς το χρώμα, τότε MeanShiftδεν θα μπορεί να συνδυάσει αυτές τις περιοχές σε μία και το αντικείμενο μας θα αποτελείται από πολλά τμήματα. Αλλά είναι καλό να αντιμετωπίζετε ένα αντικείμενο ομοιόμορφου χρώματος σε ποικίλο φόντο. Περισσότερο MeanShiftχρησιμοποιείται κατά την εφαρμογή αλγορίθμου για την παρακολούθηση κινούμενων αντικειμένων.

Δείγμα κώδικα για την εκτέλεση του αλγόριθμου:

Mat image = imread("strawberry.jpg", CV_LOAD_IMAGE_COLOR); Mat imageSegment; int spatialRadius = 35; int colorRadius = 60; int pyramidLevels = 3; pyrMeanShiftFiltering(image, imageSegment, spatialRadius, colorRadius, pyramidLevels); imshow("MeanShift", imageSegment); waitKey(0);
Αποτέλεσμα:


Ρύζι. 8. Πρωτότυπη εικόνα


Ρύζι. 9. Μετά την τμηματοποίηση από τον αλγόριθμο MeanShift

Αλγόριθμος τμηματοποίησης FloodFill

Με τη χρήση FloodFill(μέθοδος πλήρωσης ή «πλημμύρας») μπορείτε να επιλέξετε περιοχές ομοιόμορφου χρώματος. Για να γίνει αυτό, πρέπει να επιλέξετε το αρχικό pixel και να ορίσετε το διάστημα για την αλλαγή του χρώματος των γειτονικών pixel σε σχέση με το αρχικό. Το διάστημα μπορεί επίσης να είναι ασύμμετρο. Ο αλγόριθμος θα συνδυάσει pixel σε ένα τμήμα (γεμίζοντάς τα με το ίδιο χρώμα) εάν εμπίπτουν στο καθορισμένο εύρος. Η έξοδος θα είναι ένα τμήμα γεμάτο με ένα συγκεκριμένο χρώμα και την περιοχή του σε pixel.

Αυτός ο αλγόριθμος μπορεί να είναι χρήσιμος για την πλήρωση μιας περιοχής με μικρές χρωματικές διαφορές με ομοιόμορφο φόντο. Μία περίπτωση χρήσης FloodFillΜπορεί να είναι δυνατός ο εντοπισμός των κατεστραμμένων άκρων ενός αντικειμένου. Για παράδειγμα, εάν, γεμίζοντας ομοιογενείς περιοχές με ένα συγκεκριμένο χρώμα, ο αλγόριθμος γεμίζει και γειτονικές περιοχές, τότε η ακεραιότητα του ορίου μεταξύ αυτών των περιοχών έχει παραβιαστεί. Στην παρακάτω εικόνα μπορείτε να δείτε ότι διατηρείται η ακεραιότητα των ορίων των γεμισμένων περιοχών:

Ρύζι. 10, 11. Η αρχική εικόνα και το αποτέλεσμα μετά την πλήρωση πολλών περιοχών

Και οι παρακάτω εικόνες δείχνουν την επιλογή εργασίας FloodFillεάν ένα από τα όρια της προηγούμενης εικόνας είναι κατεστραμμένο.


Ρύζι. 12, 13. Εικονογράφηση έργου FloodFillόταν παραβιάζεται η ακεραιότητα του ορίου μεταξύ των γεμισμένων περιοχών

Δείγμα κώδικα για την εκτέλεση του αλγόριθμου:

Mat image = imread("cherry.jpg", CV_LOAD_IMAGE_COLOR); Σημείο έναρξης; startPoint.x = image.cols/2; startPoint.y = image.rows/2; Scalar loDiff(20, 20, 255); Scalar upDiff(5, 5, 255); Scalar fillColor(0, 0, 255); int γείτονες = 8; Rect domain; int area = floodFill(εικόνα, σημείο εκκίνησης, fillColor, &domain, loDiff, upDiff, γείτονες); ορθογώνιο(εικόνα, τομέας, Scalar(255, 0, 0)); imshow("τμηματοποίηση floodFill", εικόνα); waitKey(0);
Σε μια μεταβλητή περιοχήΟ αριθμός των "γεμισμένων" pixel θα καταγραφεί.
Αποτέλεσμα:


Αλγόριθμος τμηματοποίησης GrabCut

Αυτός είναι ένας διαδραστικός αλγόριθμος επιλογής αντικειμένων, που αναπτύχθηκε ως μια πιο βολική εναλλακτική λύση στο μαγνητικό λάσο (για να επιλέξει ένα αντικείμενο, ο χρήστης έπρεπε να εντοπίσει το περίγραμμά του με το ποντίκι). Για να λειτουργήσει ο αλγόριθμος, αρκεί να περικλείσετε το αντικείμενο μαζί με μέρος του φόντου σε ένα ορθογώνιο (αρπάξτε). Το αντικείμενο θα τμηματοποιηθεί αυτόματα (κομμένο).


Ενδέχεται να προκύψουν δυσκολίες κατά την κατάτμηση εάν υπάρχουν χρώματα μέσα στο πλαίσιο οριοθέτησης που εμφανίζονται σε μεγάλες ποσότητες όχι μόνο στο αντικείμενο, αλλά και στο παρασκήνιο. Σε αυτήν την περίπτωση, μπορείτε να προσθέσετε πρόσθετα σημάδια αντικειμένου (κόκκινη γραμμή) και φόντου (μπλε γραμμή).


Ας εξετάσουμε την ιδέα του αλγορίθμου. Η βάση είναι ο διαδραστικός αλγόριθμος τμηματοποίησης GraphCut, όπου ο χρήστης πρέπει να τοποθετήσει δείκτες στο φόντο και στο αντικείμενο. Η εικόνα αντιμετωπίζεται ως πίνακας .Ζ - τιμές έντασης εικονοστοιχείων, Ν -συνολικός αριθμός pixel. Για να διαχωρίσει ένα αντικείμενο από το φόντο, ο αλγόριθμος καθορίζει τις τιμές των στοιχείων του πίνακα διαφάνειας και μπορεί να πάρει δύο τιμές εάν = 0 , τότε το pixel ανήκει στο φόντο αν = 1 , μετά το αντικείμενο. Η εσωτερική παράμετρος περιέχει ένα ιστόγραμμα της κατανομής της έντασης του προσκηνίου και ένα ιστόγραμμα του φόντου:
.
Το καθήκον της τμηματοποίησης είναι η εύρεση αγνώστων. Η ενεργειακή συνάρτηση θεωρείται:

Επιπλέον, η ελάχιστη ενέργεια αντιστοιχεί στην καλύτερη κατάτμηση.


V(a,z) - ο όρος είναι υπεύθυνος για τη σύνδεση μεταξύ των pixel. Το άθροισμα πηγαίνει σε όλα τα ζεύγη pixel που είναι γειτονικά, dis(m,n) - Ευκλείδεια απόσταση. είναι υπεύθυνη για τη συμμετοχή ζευγών pixel στο σύνολο αν a n = a m , τότε αυτό το ζεύγος δεν θα ληφθεί υπόψη.
- είναι υπεύθυνος για την ποιότητα της τμηματοποίησης, δηλ. διαχωρισμός του αντικειμένου από το φόντο.

Έχοντας βρει το συνολικό ελάχιστο της συνάρτησης ενέργειας μι , λαμβάνουμε έναν πίνακα διαφάνειας. Για να ελαχιστοποιηθεί η ενεργειακή συνάρτηση, η εικόνα περιγράφεται ως γράφημα και αναζητείται η ελάχιστη περικοπή του γραφήματος. Σε αντίθεση με το GraphCut στον αλγόριθμο GrabCutΤα εικονοστοιχεία λαμβάνονται υπόψη στον χώρο RGB, επομένως χρησιμοποιείται ένα μοντέλο Gaussian Mixture Model (GMM) για την περιγραφή των στατιστικών χρωμάτων. Λειτουργία αλγορίθμου GrabCutμπορείτε να δείτε εκτελώντας το δείγμα OpenCV

Η επεξεργασία εικόνων και η δημιουργία κολάζ θα ήταν μια πολύ συναρπαστική διαδικασία εάν δεν χρειαζόταν να αφιερώνετε τον περισσότερο χρόνο σας επιμελώς μαρκάροντας αντικείμενα. Το έργο γίνεται ακόμα πιο δύσκολο όταν τα όρια των αντικειμένων είναι ασαφή ή υπάρχει διαφάνεια. Τα εργαλεία του Photoshop όπως το Magnetic Lasso και το Magic Wand δεν είναι πολύ έξυπνα επειδή κοιτάζουν μόνο χαρακτηριστικά χαμηλού επιπέδου σε μια εικόνα. Επιστρέφουν σκληρά όρια, τα οποία στη συνέχεια πρέπει να διορθωθούν χειροκίνητα. Η προσέγγιση Semantic Soft Segmentation από τους ερευνητές της Adobe βοηθά στην επίλυση αυτού του δύσκολου προβλήματος διαιρώντας την εικόνα σε επίπεδα που αντιστοιχούν σε σημασιολογικά σημαντικές περιοχές και προσθέτοντας ομαλές μεταβάσεις στις άκρες.

"Απαλή" κατάτμηση

Μια ομάδα ερευνητών από το εργαστήριο CSAIL στο MIT και το ελβετικό πανεπιστήμιο ETH Zürich, που εργάζονται υπό την ηγεσία του Yagiz Aksoy, πρότειναν να προσεγγίσουν αυτό το πρόβλημα με βάση τη φασματική τμηματοποίηση, προσθέτοντας σε αυτό σύγχρονες εξελίξεις στη βαθιά μάθηση. Χρησιμοποιώντας πληροφορίες υφής και χρώματος, καθώς και σημασιολογικά χαρακτηριστικά υψηλού επιπέδου που εξάγονται, δημιουργείται ένας ειδικός τύπος γραφήματος από την εικόνα. Στη συνέχεια, χρησιμοποιώντας αυτό το γράφημα, κατασκευάζεται ένας πίνακας Kirchhoff (Laplacian matrix). Χρησιμοποιώντας τη φασματική αποσύνθεση αυτού του πίνακα, ο αλγόριθμος δημιουργεί απαλά περιγράμματα αντικειμένων. Η διαίρεση της εικόνας σε επίπεδα που ελήφθησαν χρησιμοποιώντας ιδιοδιανύσματα μπορεί στη συνέχεια να χρησιμοποιηθεί για επεξεργασία.

Επισκόπηση της προτεινόμενης προσέγγισης

Περιγραφή μοντέλου

Ας δούμε τη μέθοδο δημιουργίας σημασιολογικά σημαντικών επιπέδων βήμα προς βήμα:

1. Φασματική μάσκα.Η προτεινόμενη προσέγγιση συνεχίζει το έργο του Levin και των συναδέλφων του, οι οποίοι ήταν οι πρώτοι που χρησιμοποίησαν τη μήτρα Kirchhoff στο έργο της αυτόματης κατασκευής μιας μάσκας. Δημιούργησαν έναν πίνακα L, ο οποίος καθορίζει την ομοιότητα ανά ζεύγη μεταξύ των εικονοστοιχείων σε μια συγκεκριμένη τοπική περιοχή. Χρησιμοποιώντας αυτόν τον πίνακα, ελαχιστοποιούν το τετραγωνικό λειτουργικό αᵀLα με περιορισμούς που καθορίζονται από τον χρήστη, όπου το α καθορίζει ένα διάνυσμα τιμών διαφάνειας για όλα τα εικονοστοιχεία σε ένα δεδομένο επίπεδο. Κάθε μαλακό περίγραμμα είναι ένας γραμμικός συνδυασμός ιδιοδιανυσμάτων K που αντιστοιχούν στις μικρότερες ιδιοτιμές του L, που μεγιστοποιεί τη λεγόμενη αραιότητα της μάσκας.

2. Συγγένεια χρώματος.Για τον υπολογισμό των μη τοπικών χαρακτηριστικών εγγύτητας χρώματος, οι ερευνητές δημιουργούν 2.500 superpixel και εκτιμούν την εγγύτητα μεταξύ κάθε superpixel και όλων των superpixel σε μια γειτονιά με ακτίνα 20% του μεγέθους της εικόνας. Η χρήση μη τοπικής εγγύτητας διασφαλίζει ότι οι περιοχές με πολύ παρόμοια χρώματα παραμένουν συνεκτικές σε πολύπλοκες σκηνές όπως η παρακάτω.

Μη τοπική χρωματική εγγύτητα

3. Σημασιολογική εγγύτητα.Αυτό το στάδιο σάς επιτρέπει να προσδιορίσετε σημασιολογικά συνδεδεμένες περιοχές της εικόνας. Η σημασιολογική εγγύτητα ενθαρρύνει τη συγχώνευση εικονοστοιχείων που ανήκουν στο ίδιο αντικείμενο σκηνής και τιμωρεί τη συγχώνευση εικονοστοιχείων από διαφορετικά αντικείμενα. Εδώ, οι ερευνητές επωφελούνται από προηγούμενες εξελίξεις στην αναγνώριση προτύπων και υπολογίζουν, για κάθε εικονοστοιχείο, ένα διάνυσμα χαρακτηριστικών που συσχετίζεται με το αντικείμενο του οποίου είναι μέρος του εικονοστοιχείου. Τα διανύσματα χαρακτηριστικών υπολογίζονται χρησιμοποιώντας ένα νευρωνικό δίκτυο, το οποίο θα συζητήσουμε αργότερα με περισσότερες λεπτομέρειες. Η σημασιολογική εγγύτητα, όπως και η χρωματική εγγύτητα, προσδιορίζεται στα superpixel. Ωστόσο, σε αντίθεση με τη χρωματική εγγύτητα, η σημασιολογική εγγύτητα συνδέει μόνο κοντινά superpixel, ενθαρρύνοντας τη δημιουργία συνεκτικών αντικειμένων. Ο συνδυασμός μη τοπικής χρωματικής εγγύτητας και τοπικής σημασιολογικής εγγύτητας καθιστά δυνατή τη δημιουργία επιπέδων που καλύπτουν χωρικά διαχωρισμένες εικόνες ενός τμήματος ενός σημασιολογικά σχετικού αντικειμένου (για παράδειγμα, βλάστηση, ουρανός, άλλοι τύποι φόντου).

Σημασιολογική εγγύτητα

4. Δημιουργία επιπέδων.Σε αυτό το βήμα, κατασκευάζεται ένας πίνακας L χρησιμοποιώντας τις προηγουμένως υπολογισμένες γειτνιάζουσες. χτισμένο. Στη συνέχεια, ο αριθμός των επιπέδων μειώνεται ξανά χρησιμοποιώντας τον αλγόριθμο ομαδοποίησης k-means στο k = 5. Αυτό λειτουργεί καλύτερα από το να σπανίσουμε απλώς τα 100 ιδιοδιανύσματα σε πέντε, καθώς μια τόσο ισχυρή μείωση της διάστασης κάνει το πρόβλημα να υπερκαθορίζεται. Οι ερευνητές επέλεξαν έναν τελικό αριθμό περιγραμμάτων 5 και ισχυρίζονται ότι αυτός είναι ένας λογικός αριθμός για τις περισσότερες εικόνες. Ωστόσο, αυτός ο αριθμός μπορεί να αλλάξει χειροκίνητα ανάλογα με την εικόνα που επεξεργάζεται.


Απαλά περιγράμματα πριν και μετά την ομαδοποίηση

5. Διανύσματα σημασιολογικών χαρακτηριστικών.Για τον υπολογισμό της σημασιολογικής εγγύτητας, χρησιμοποιήθηκαν διανύσματα χαρακτηριστικών που υπολογίστηκαν χρησιμοποιώντας ένα νευρωνικό δίκτυο. Η βάση του νευρωνικού δικτύου ήταν το DeepLab-ResNet-101, εκπαιδευμένο στο έργο της πρόβλεψης μετρήσεων. Κατά τη διάρκεια της εκπαίδευσης, ενθαρρύνθηκε η μεγιστοποίηση της απόστασης L2 μεταξύ χαρακτηριστικών διαφορετικών αντικειμένων. Έτσι, το νευρωνικό δίκτυο ελαχιστοποιεί την απόσταση μεταξύ των χαρακτηριστικών που αντιστοιχούν σε μια κλάση και μεγιστοποιεί την απόσταση στην άλλη περίπτωση.

Ποιοτική σύγκριση με παρόμοιες μεθόδους

Οι παρακάτω εικόνες δείχνουν τα αποτελέσματα της προτεινόμενης προσέγγισης (με την ένδειξη "Το αποτέλεσμα μας") σε σύγκριση με τα αποτελέσματα της πλησιέστερης προσέγγισης μαλακής τμηματοποίησης - της μεθόδου φασματικής μάσκας - και δύο μεθόδων σημασιολογικής τμηματοποίησης τελευταίας τεχνολογίας: την επεξεργασία σκηνής PSPNet μέθοδος και τη μέθοδο τμηματοποίησης αντικειμένων Mask R-CNN.


Ποιοτικές συγκρίσεις μαλακής σημασιολογικής κατάτμησης με άλλες προσεγγίσεις

Μπορεί να αντικατασταθεί ότι το PSPNet και το Mask R-CNN τείνουν να κάνουν λάθη στα όρια των αντικειμένων και τα μαλακά περιγράμματα που κατασκευάζονται με τη φασματική μέθοδο συχνά υπερβαίνουν τα όρια των αντικειμένων. Ταυτόχρονα, η περιγραφόμενη μέθοδος καλύπτει πλήρως το αντικείμενο χωρίς να το συνδυάζει με άλλα, και επιτυγχάνει υψηλή ακρίβεια στις άκρες, προσθέτοντας απαλές μεταβάσεις όπου απαιτείται. Ωστόσο, αξίζει να σημειωθεί ότι τα σημασιολογικά χαρακτηριστικά που χρησιμοποιούνται σε αυτή τη μέθοδο δεν κάνουν διάκριση μεταξύ δύο διαφορετικών αντικειμένων που ανήκουν στην ίδια κλάση. Ως αποτέλεσμα, πολλαπλά αντικείμενα αναπαρίστανται σε ένα μόνο στρώμα, όπως φαίνεται στις εικόνες καμηλοπαρδάλεων και αγελάδων.

Επεξεργασία εικόνων με μαλακά σημασιολογικά περιγράμματα

Παρακάτω είναι μερικά παραδείγματα χρήσης απαλών περιγραμμάτων για την επεξεργασία εικόνων και τη δημιουργία κολάζ. Τα απαλά περιγράμματα μπορούν να χρησιμοποιηθούν για την εφαρμογή συγκεκριμένων αλλαγών σε διαφορετικά επίπεδα: προσθήκη θολώματος κίνησης αμαξοστοιχίας (2), ξεχωριστές ρυθμίσεις χρωμάτων για άτομα και φόντο (5, 6), ξεχωριστή διαμόρφωση για αερόστατο, ουρανό, τοπίο και άτομο ( 8) . Φυσικά, το ίδιο πράγμα μπορεί να γίνει χρησιμοποιώντας χειροκίνητες μάσκες ή κλασικούς αλγόριθμους επιλογής περιγράμματος, αλλά με την αυτόματη επιλογή σημασιολογικά σημαντικών αντικειμένων, μια τέτοια επεξεργασία γίνεται πολύ πιο εύκολη.

Χρήση μαλακής σημασιολογικής τμηματοποίησης για επεξεργασία εικόνας

συμπέρασμα

Αυτή η μέθοδος δημιουργεί αυτόματα απαλά περιγράμματα που αντιστοιχούν σε σημασιολογικά σημαντικές περιοχές της εικόνας χρησιμοποιώντας ένα μείγμα πληροφοριών υψηλού επιπέδου από ένα νευρωνικό δίκτυο και χαρακτηριστικών χαμηλού επιπέδου. Ωστόσο, αυτή η μέθοδος έχει αρκετούς περιορισμούς. Πρώτον, είναι σχετικά αργός: ο χρόνος επεξεργασίας για μια εικόνα με διαστάσεις 640 x 480 είναι 3-4 λεπτά. Δεύτερον, αυτή η μέθοδος δεν δημιουργεί ξεχωριστά επίπεδα για διαφορετικά αντικείμενα της ίδιας κλάσης. Και τρίτον, όπως φαίνεται παρακάτω, αυτή η μέθοδος μπορεί να αποτύχει νωρίς σε περιπτώσεις όπου τα χρώματα των αντικειμένων είναι πολύ παρόμοια (πάνω παράδειγμα) ή όταν συγχωνεύονται μαλακές ακμές κοντά σε μεγάλες περιοχές μετάβασης (κάτω παράδειγμα).

Περιπτώσεις σφαλμάτων αλγορίθμου

Ωστόσο, οι απαλές άκρες που δημιουργούνται με αυτήν τη μέθοδο παρέχουν μια χρήσιμη ενδιάμεση αναπαράσταση της εικόνας, επιτρέποντάς σας να ξοδεύετε λιγότερο χρόνο και προσπάθεια για την επεξεργασία εικόνων.