Ταξινόμηση νευρωνικών δικτύων. Μοντέλα νευρωνικών δικτύων που χρησιμοποιούνται συχνότερα αυτή τη στιγμή. Εκμάθηση χωρίς επίβλεψη

Καλησπέρα, με λένε Natalia Efremova και είμαι ερευνήτρια στο NtechLab. Σήμερα θα μιλήσω για τα είδη των νευρωνικών δικτύων και τις εφαρμογές τους.

Αρχικά, θα πω λίγα λόγια για την εταιρεία μας. Η εταιρεία είναι νέα, ίσως πολλοί από εσάς δεν ξέρετε ακόμα τι κάνουμε. Πέρυσι κερδίσαμε τον διαγωνισμό MegaFace. Πρόκειται για έναν διεθνή διαγωνισμό αναγνώρισης προσώπου. Την ίδια χρονιά άνοιξε η εταιρεία μας, δηλαδή βρισκόμαστε στην αγορά περίπου ένα χρόνο, έστω και λίγο παραπάνω. Αντίστοιχα, είμαστε μια από τις κορυφαίες εταιρείες στην αναγνώριση προσώπου και την επεξεργασία βιομετρικών εικόνων.

Το πρώτο μέρος της έκθεσής μου θα απευθύνεται σε όσους δεν είναι εξοικειωμένοι με τα νευρωνικά δίκτυα. Ασχολούμαι άμεσα με τη βαθιά μάθηση. Εργάζομαι σε αυτόν τον τομέα για περισσότερα από 10 χρόνια. Αν και εμφανίστηκε πριν από λίγο λιγότερο από μια δεκαετία, υπήρχαν κάποια βασικά στοιχεία νευρωνικών δικτύων που ήταν παρόμοια με το σύστημα βαθιάς μάθησης.

Τα τελευταία 10 χρόνια, η βαθιά μάθηση και η όραση των υπολογιστών έχουν αναπτυχθεί με απίστευτο ρυθμό. Όλα όσα έχουν γίνει και είναι σημαντικά σε αυτόν τον τομέα έχουν συμβεί τα τελευταία χρόνια 6.

Θα σας πω για πρακτικές πτυχές: πού, πότε, τι να χρησιμοποιήσω όσον αφορά τη βαθιά μάθηση για επεξεργασία εικόνας και βίντεο, για αναγνώριση εικόνας και προσώπου, αφού εργάζομαι σε μια εταιρεία που το κάνει αυτό. Θα σας πω λίγα λόγια για την αναγνώριση συναισθημάτων και ποιες προσεγγίσεις χρησιμοποιούνται στα παιχνίδια και τη ρομποτική. Θα μιλήσω επίσης για τη μη τυπική εφαρμογή της βαθιάς μάθησης, κάτι που μόλις αναδύεται από τα επιστημονικά ιδρύματα και εξακολουθεί να χρησιμοποιείται ελάχιστα στην πράξη, πώς μπορεί να εφαρμοστεί και γιατί είναι δύσκολο να εφαρμοστεί.

Η έκθεση θα αποτελείται από δύο μέρη. Δεδομένου ότι οι περισσότεροι είναι εξοικειωμένοι με τα νευρωνικά δίκτυα, πρώτα θα καλύψω γρήγορα πώς λειτουργούν τα νευρωνικά δίκτυα, τι είναι τα βιολογικά νευρωνικά δίκτυα, γιατί είναι σημαντικό για εμάς να γνωρίζουμε πώς λειτουργεί, τι είναι τα τεχνητά νευρωνικά δίκτυα και ποιες αρχιτεκτονικές χρησιμοποιούνται σε ποιες περιοχές .

Ζητώ συγγνώμη αμέσως, θα πηδήξω λίγο Αγγλική ορολογία, γιατί δεν ξέρω καν τα περισσότερα από αυτά που λέγονται στα ρωσικά. Ίσως και εσύ.

Έτσι, το πρώτο μέρος της έκθεσης θα είναι αφιερωμένο στα συνελικτικά νευρωνικά δίκτυα. Θα σας πω πώς λειτουργεί το συνελικτικό νευρωνικό δίκτυο (CNN) και η αναγνώριση εικόνας χρησιμοποιώντας ένα παράδειγμα από την αναγνώριση προσώπου. Θα σας πω λίγα λόγια για τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) και την ενισχυτική μάθηση χρησιμοποιώντας το παράδειγμα συστημάτων βαθιάς μάθησης.

Οπως και μη τυπικές εφαρμογέςνευρωνικά δίκτυα, θα μιλήσω για το πώς λειτουργεί το CNN στην ιατρική για να αναγνωρίσει εικόνες voxel, πώς χρησιμοποιούνται τα νευρωνικά δίκτυα για την αναγνώριση της φτώχειας στην Αφρική.

Τι είναι τα νευρωνικά δίκτυα

Το πρωτότυπο για τη δημιουργία νευρωνικών δικτύων ήταν, παραδόξως, βιολογικά νευρωνικά δίκτυα. Πολλοί από εσάς μπορεί να γνωρίζετε πώς να προγραμματίζετε ένα νευρωνικό δίκτυο, αλλά από πού προήλθε, νομίζω ότι κάποιοι δεν ξέρουν. Τα δύο τρίτα όλων των αισθητηριακών πληροφοριών που έρχονται σε εμάς προέρχονται από τα οπτικά όργανα της αντίληψης. Περισσότερο από το ένα τρίτο της επιφάνειας του εγκεφάλου μας καταλαμβάνεται από τις δύο πιο σημαντικές οπτικές περιοχές - τη ραχιαία οπτική οδό και την κοιλιακή οπτική οδό.

Η ραχιαία οπτική οδός ξεκινά από την κύρια οπτική ζώνη, στο στέμμα μας, και συνεχίζει προς τα πάνω, ενώ η κοιλιακή οδός αρχίζει στο πίσω μέρος του κεφαλιού μας και τελειώνει περίπου πίσω από τα αυτιά. Όλη η σημαντική αναγνώριση προτύπων που μας συμβαίνει, ό,τι έχει νόημα που γνωρίζουμε, γίνεται ακριβώς εκεί, πίσω από τα αυτιά.

Γιατί είναι σημαντικό? Επειδή είναι συχνά απαραίτητο να κατανοήσουμε τα νευρωνικά δίκτυα. Πρώτον, όλοι μιλούν για αυτό, και έχω ήδη συνηθίσει να συμβαίνει αυτό, και δεύτερον, το γεγονός είναι ότι όλες οι περιοχές που χρησιμοποιούνται στα νευρωνικά δίκτυα για την αναγνώριση εικόνας ήρθαν σε εμάς ακριβώς από την κοιλιακή οπτική οδό, όπου η καθεμία ένα μικρό ζώνη είναι υπεύθυνη για την αυστηρά καθορισμένη λειτουργία της.

Η εικόνα μας έρχεται από τον αμφιβληστροειδή, διέρχεται από μια σειρά οπτικών ζωνών και καταλήγει στη χρονική ζώνη.

Στη μακρινή δεκαετία του '60 του περασμένου αιώνα, όταν μόλις ξεκινούσε η μελέτη των οπτικών περιοχών του εγκεφάλου, έγιναν τα πρώτα πειράματα σε ζώα, επειδή δεν υπήρχε fMRI. Ο εγκέφαλος μελετήθηκε χρησιμοποιώντας ηλεκτρόδια εμφυτευμένα σε διάφορες οπτικές περιοχές.

Η πρώτη οπτική περιοχή μελετήθηκε από τους David Hubel και Torsten Wiesel το 1962. Έκαναν πειράματα σε γάτες. Στις γάτες έδειξαν διάφορα κινούμενα αντικείμενα. Αυτό στο οποίο ανταποκρίθηκαν τα εγκεφαλικά κύτταρα ήταν το ερέθισμα που αναγνώρισε το ζώο. Ακόμη και τώρα πολλά πειράματα γίνονται με αυτούς τους δρακόντειους τρόπους. Ωστόσο, αυτός είναι ο πιο αποτελεσματικός τρόπος για να μάθετε τι κάνει κάθε μικρό κύτταρο στον εγκέφαλό μας.

Με τον ίδιο τρόπο, ανακαλύφθηκαν πολλές ακόμη σημαντικές ιδιότητες των οπτικών περιοχών, τις οποίες χρησιμοποιούμε στη βαθιά μάθηση τώρα. Μία από τις πιο σημαντικές ιδιότητες είναι η αύξηση των δεκτικών πεδίων των κυττάρων μας καθώς μετακινούμαστε από τις πρωτεύουσες οπτικές περιοχές στους κροταφικούς λοβούς, δηλαδή στις μεταγενέστερες οπτικές περιοχές. Το δεκτικό πεδίο είναι εκείνο το μέρος της εικόνας που επεξεργάζεται κάθε κύτταρο του εγκεφάλου μας. Κάθε κελί έχει το δικό του δεκτικό πεδίο. Η ίδια ιδιότητα διατηρείται στα νευρωνικά δίκτυα, όπως πιθανώς όλοι γνωρίζετε.

Επίσης, καθώς αυξάνονται τα δεκτικά πεδία, αυξάνονται και τα πολύπλοκα ερεθίσματα που τυπικά αναγνωρίζουν τα νευρωνικά δίκτυα.

Εδώ βλέπετε παραδείγματα της πολυπλοκότητας των ερεθισμάτων, των διαφορετικών δισδιάστατων σχημάτων που αναγνωρίζονται στις περιοχές V2, V4 και διάφορα μέρη των χρονικών πεδίων σε πιθήκους μακάκου. Γίνεται επίσης μια σειρά από πειράματα μαγνητικής τομογραφίας.

Εδώ μπορείτε να δείτε πώς γίνονται τέτοια πειράματα. Αυτό είναι ένα τμήμα 1 νανομέτρου των ζωνών του φλοιού πληροφορικής του πιθήκου όταν επισημαίνεται η αναγνώριση διαφόρων αντικειμένων.

Ας το συνοψίσουμε. Μια σημαντική ιδιότητα που θέλουμε να υιοθετήσουμε από τις οπτικές περιοχές είναι ότι το μέγεθος των δεκτικών πεδίων αυξάνεται και η πολυπλοκότητα των αντικειμένων που αναγνωρίζουμε αυξάνεται.

Υπολογιστική όραση

Πριν μάθουμε να το εφαρμόζουμε στην όραση υπολογιστή, γενικά, δεν υπήρχε ως τέτοιο. Σε κάθε περίπτωση, δεν λειτούργησε τόσο καλά όσο λειτουργεί τώρα.

Μεταφέρουμε όλες αυτές τις ιδιότητες στο νευρωνικό δίκτυο και τώρα λειτουργεί, αν δεν συμπεριλάβετε μια μικρή απόκλιση στα σύνολα δεδομένων, για την οποία θα σας πω αργότερα.

Αλλά πρώτα, λίγα για το απλούστερο perceptron. Σχηματίζεται επίσης στην εικόνα και την ομοίωση του εγκεφάλου μας. Το πιο απλό στοιχείοπου μοιάζει με εγκεφαλικό κύτταρο - νευρώνα. Διαθέτει στοιχεία εισόδου που από προεπιλογή είναι διατεταγμένα από αριστερά προς τα δεξιά, περιστασιακά από κάτω προς τα πάνω. Στα αριστερά είναι τα μέρη εισόδου του νευρώνα, στα δεξιά τα τμήματα εξόδου του νευρώνα.

Το απλούστερο perceptron είναι ικανό να εκτελεί μόνο τις απλούστερες πράξεις. Για να εκτελέσουμε πιο σύνθετους υπολογισμούς, χρειαζόμαστε μια δομή με μεγάλο ποσόκρυφά στρώματα.

Στην περίπτωση της όρασης υπολογιστή, χρειαζόμαστε ακόμη περισσότερα κρυφά επίπεδα. Και μόνο τότε το σύστημα θα αναγνωρίσει με νόημα αυτό που βλέπει.

Έτσι, θα σας πω τι συμβαίνει κατά την αναγνώριση εικόνας χρησιμοποιώντας το παράδειγμα των προσώπων.

Για να δούμε αυτή την εικόνα και να πούμε ότι δείχνει ακριβώς το πρόσωπο του αγάλματος είναι πολύ απλό. Ωστόσο, πριν από το 2010, αυτό ήταν ένα απίστευτα δύσκολο έργο για την όραση υπολογιστή. Όσοι έχουν ασχοληθεί με αυτό το θέμα πριν από αυτή τη φορά πιθανότατα ξέρουν πόσο δύσκολο ήταν να περιγράψουμε το αντικείμενο που θέλουμε να βρούμε στην εικόνα χωρίς λόγια.

Χρειαζόταν να το κάνουμε αυτό με κάποιο γεωμετρικό τρόπο, να περιγράψουμε το αντικείμενο, να περιγράψουμε τις σχέσεις του αντικειμένου, πώς αυτά τα μέρη μπορούν να συσχετιστούν μεταξύ τους, στη συνέχεια να βρούμε αυτήν την εικόνα στο αντικείμενο, να τα συγκρίνουμε και να πάρουμε αυτό που δεν αναγνωρίσαμε καλά. Συνήθως ήταν λίγο καλύτερο από το να γυρίσεις ένα κέρμα. Λίγο καλύτερο από το επίπεδο της ευκαιρίας.

Δεν λειτουργεί έτσι τώρα. Χωρίζουμε την εικόνα μας είτε σε εικονοστοιχεία είτε σε ορισμένες ενημερωμένες εκδόσεις: 2x2, 3x3, 5x5, 11x11 pixel - όπως είναι βολικό για τους δημιουργούς του συστήματος στο οποίο χρησιμεύουν ως το στρώμα εισόδου στο νευρωνικό δίκτυο.

Τα σήματα από αυτά τα στρώματα εισόδου μεταδίδονται από στρώμα σε στρώμα χρησιμοποιώντας συνάψεις, καθένα από τα στρώματα έχει τους δικούς του συγκεκριμένους συντελεστές. Περνάμε λοιπόν από στρώμα σε στρώμα, από στρώμα σε στρώμα, μέχρι να καταλάβουμε ότι έχουμε αναγνωρίσει το πρόσωπο.

Συμβατικά, όλα αυτά τα μέρη μπορούν να χωριστούν σε τρεις κατηγορίες, θα τα συμβολίσουμε X, W και Y, όπου X είναι η εικόνα εισόδου μας, Y είναι ένα σύνολο ετικετών και πρέπει να πάρουμε τα βάρη μας. Πώς υπολογίζουμε το W;

Δεδομένων των X και Y μας, αυτό φαίνεται απλό. Ωστόσο, αυτό που υποδεικνύεται με έναν αστερίσκο είναι μια πολύ σύνθετη μη γραμμική πράξη, η οποία, δυστυχώς, δεν έχει αντίστροφο. Ακόμα και με 2 δεδομένες συνιστώσες της εξίσωσης, είναι πολύ δύσκολο να το υπολογίσεις. Επομένως, πρέπει σταδιακά, με δοκιμή και λάθος, επιλέγοντας το βάρος W, να βεβαιωθούμε ότι το σφάλμα μειώνεται όσο το δυνατόν περισσότερο, κατά προτίμηση ώστε να γίνει ίσο με το μηδέν.

Αυτή η διαδικασία συμβαίνει επαναληπτικά, μειώνουμε συνεχώς μέχρι να βρούμε την τιμή του βάρους W που μας ταιριάζει αρκετά.

Παρεμπιπτόντως, ούτε ένα νευρωνικό δίκτυο με το οποίο δούλεψα δεν πέτυχε σφάλμα ίσο με μηδέν, αλλά λειτούργησε αρκετά καλά.

Αυτό είναι το πρώτο δίκτυο που κέρδισε τον διεθνή διαγωνισμό ImageNet το 2012. Αυτό είναι το λεγόμενο AlexNet. Αυτό είναι το δίκτυο που πρώτο δήλωσε ότι υπάρχει συνελικτικό νευρωνικά δίκτυακαι από τότε, τα συνελικτικά νευρωνικά δίκτυα δεν εγκατέλειψαν ποτέ τις θέσεις τους σε όλους τους διεθνείς διαγωνισμούς.

Παρά το γεγονός ότι αυτό το δίκτυο είναι αρκετά μικρό (έχει μόνο 7 κρυφά επίπεδα), περιέχει 650 χιλιάδες νευρώνες με 60 εκατομμύρια παραμέτρους. Για να μάθουμε επαναληπτικά να βρίσκουμε τα απαραίτητα βάρη, χρειαζόμαστε πολλά παραδείγματα.

Το νευρωνικό δίκτυο μαθαίνει από το παράδειγμα μιας εικόνας και μιας ετικέτας. Ακριβώς όπως μας διδάσκουν στην παιδική ηλικία «αυτή είναι μια γάτα και αυτός είναι ένας σκύλος», τα νευρωνικά δίκτυα εκπαιδεύονται επίσης σε μεγάλες ποσότητεςεικόνες. Αλλά το γεγονός είναι ότι μέχρι το 2010 δεν υπήρχε αρκετά μεγάλο σύνολο δεδομένων που θα μπορούσε να διδάξει έναν τέτοιο αριθμό παραμέτρων για την αναγνώριση εικόνων.

Οι μεγαλύτερες βάσεις δεδομένων που υπήρχαν πριν από αυτήν την εποχή ήταν η PASCAL VOC, η οποία είχε μόνο 20 κατηγορίες αντικειμένων και η Caltech 101, η οποία αναπτύχθηκε στο Ινστιτούτο Τεχνολογίας της Καλιφόρνια. Το τελευταίο είχε 101 κατηγορίες, και αυτό ήταν πολύ. Όσοι δεν μπορούσαν να βρουν τα αντικείμενά τους σε καμία από αυτές τις βάσεις δεδομένων έπρεπε να κοστίσουν τις βάσεις δεδομένων τους, κάτι που, θα πω, είναι τρομερά οδυνηρό.

Ωστόσο, το 2010 εμφανίστηκε η βάση δεδομένων ImageNet, η οποία περιείχε 15 εκατομμύρια εικόνες, χωρισμένες σε 22 χιλιάδες κατηγορίες. Αυτό έλυσε το πρόβλημα της εκπαίδευσης των νευρωνικών δικτύων. Τώρα όλοι όσοι έχουν ακαδημαϊκή διεύθυνση μπορούν εύκολα να μεταβούν στον ιστότοπο της βάσης, να ζητήσουν πρόσβαση και να λάβουν αυτήν τη βάση για την εκπαίδευση των νευρωνικών τους δικτύων. Αποκρίνονται αρκετά γρήγορα, κατά τη γνώμη μου, την επόμενη μέρα.

Σε σύγκριση με προηγούμενα σύνολα δεδομένων, αυτή είναι μια πολύ μεγάλη βάση δεδομένων.

Το παράδειγμα δείχνει πόσο ασήμαντα ήταν όλα όσα προηγήθηκαν. Ταυτόχρονα με τη βάση ImageNet, εμφανίστηκε ο διαγωνισμός ImageNet, μια διεθνής πρόκληση στην οποία μπορούν να λάβουν μέρος όλες οι ομάδες που επιθυμούν να διαγωνιστούν.

Φέτος το νικητήριο δίκτυο δημιουργήθηκε στην Κίνα, είχε 269 επίπεδα. Δεν ξέρω πόσες παράμετροι υπάρχουν, υποψιάζομαι ότι υπάρχουν και πολλές.

Αρχιτεκτονική βαθιάς νευρωνικού δικτύου

Συμβατικά, μπορεί να χωριστεί σε 2 μέρη: σε αυτούς που σπουδάζουν και σε αυτούς που δεν σπουδάζουν.

Το μαύρο υποδεικνύει εκείνα τα μέρη που δεν μαθαίνουν όλα τα άλλα επίπεδα. Υπάρχουν πολλοί ορισμοί του τι βρίσκεται μέσα σε κάθε συνελικτικό στρώμα. Μία από τις αποδεκτές σημειώσεις είναι ότι ένα στρώμα με τρία συστατικά χωρίζεται σε στάδιο συνέλιξης, στάδιο ανιχνευτή και στάδιο συγκέντρωσης.

Δεν θα υπεισέλθω σε λεπτομέρειες. Θα στο πω με ένα παράδειγμα.

Επειδή οι διοργανωτές μου ζήτησαν να μην αναφέρω πολλές φόρμουλες, τις πέταξα εντελώς έξω.

Έτσι, η εικόνα εισόδου εμπίπτει σε ένα δίκτυο επιπέδων, το οποίο μπορεί να ονομαστεί φίλτρα διαφορετικά μεγέθηκαι η ποικίλη πολυπλοκότητα των στοιχείων που αναγνωρίζουν. Αυτά τα φίλτρα συνθέτουν το δικό τους ευρετήριο ή σύνολο χαρακτηριστικών, το οποίο στη συνέχεια πηγαίνει στον ταξινομητή. Συνήθως αυτό είναι είτε SVM είτε MLP - πολυστρωματικό perceptron, όποιο σας βολεύει.

Με τον ίδιο τρόπο όπως ένα βιολογικό νευρωνικό δίκτυο, αναγνωρίζονται αντικείμενα ποικίλης πολυπλοκότητας. Καθώς ο αριθμός των στρωμάτων αυξανόταν, όλα έχασαν την επαφή με τον φλοιό, καθώς υπάρχει περιορισμένος αριθμός ζωνών στο νευρωνικό δίκτυο. 269 ​​ή πολλές, πολλές ζώνες αφαίρεσης, επομένως διατηρείται μόνο μια αύξηση στην πολυπλοκότητα, τον αριθμό των στοιχείων και τα δεκτικά πεδία.

Αν κοιτάξουμε το παράδειγμα της αναγνώρισης προσώπου, τότε το δεκτικό μας πεδίο του πρώτου στρώματος θα είναι μικρό, μετά λίγο μεγαλύτερο, μεγαλύτερο και ούτω καθεξής μέχρι τελικά να μπορέσουμε να αναγνωρίσουμε ολόκληρο το πρόσωπο.

Από την άποψη του τι υπάρχει μέσα στα φίλτρα μας, πρώτα θα υπάρχουν κεκλιμένα μπαστούνια συν λίγο χρώμα, μετά τμήματα προσώπων και μετά ολόκληρα πρόσωπα θα αναγνωρίζονται από κάθε κελί του στρώματος.

Υπάρχουν άνθρωποι που ισχυρίζονται ότι ένα άτομο αναγνωρίζει πάντα καλύτερα από ένα δίκτυο. Είναι έτσι?

Το 2014, οι επιστήμονες αποφάσισαν να δοκιμάσουν πόσο καλά αναγνωρίζουμε σε σύγκριση με τα νευρωνικά δίκτυα. Πήραν τα 2 καλύτερα αυτή τη στιγμήδίκτυα - αυτό είναι το AlexNet και το δίκτυο των Matthew Ziller και Fergus, και σε σύγκριση με την απόκριση διαφορετικών περιοχών του εγκεφάλου ενός μακάκου, το οποίο διδάχθηκε επίσης να αναγνωρίζει ορισμένα αντικείμενα. Τα αντικείμενα ήταν από τον κόσμο των ζώων για να μην μπερδεύεται η μαϊμού και έγιναν πειράματα για να δούμε ποιος μπορούσε να αναγνωρίσει καλύτερα.

Δεδομένου ότι είναι αδύνατο να ληφθεί μια σαφής απόκριση από τον πίθηκο, εμφυτεύτηκαν ηλεκτρόδια σε αυτόν και μετρήθηκε άμεσα η απόκριση κάθε νευρώνα.

Αποδείχθηκε ότι υπό κανονικές συνθήκες, τα εγκεφαλικά κύτταρα ανταποκρίθηκαν καθώς και το μοντέλο αιχμής εκείνης της εποχής, δηλαδή το δίκτυο του Μάθιου Τσίλερ.

Ωστόσο, με την αύξηση της ταχύτητας εμφάνισης αντικειμένων και την αύξηση της ποσότητας θορύβου και αντικειμένων στην εικόνα, η ταχύτητα και η ποιότητα αναγνώρισης του εγκεφάλου μας και του εγκεφάλου των πρωτευόντων πέφτουν σημαντικά. Ακόμη και το πιο απλό συνελικτικό νευρωνικό δίκτυο μπορεί να αναγνωρίσει καλύτερα αντικείμενα. Δηλαδή, επίσημα τα νευρωνικά δίκτυα λειτουργούν καλύτερα από τον εγκέφαλό μας.

Κλασικά προβλήματα συνελικτικών νευρωνικών δικτύων

Στην πραγματικότητα δεν υπάρχουν πολλά από αυτά, ανήκουν σε τρεις κατηγορίες. Μεταξύ αυτών είναι εργασίες όπως η αναγνώριση αντικειμένων, η σημασιολογική κατάτμηση, η αναγνώριση προσώπου, η αναγνώριση τμημάτων του ανθρώπινου σώματος, η σημασιολογική ανίχνευση άκρων, η επισήμανση αντικειμένων προσοχής σε μια εικόνα και η επισήμανση των κανονικών επιφανειών. Μπορούν να χωριστούν χονδρικά σε 3 επίπεδα: από τις εργασίες χαμηλότερου επιπέδου έως τις εργασίες υψηλότερου επιπέδου.

Χρησιμοποιώντας αυτήν την εικόνα ως παράδειγμα, ας δούμε τι κάνει κάθε εργασία.

  • Καθορισμός ορίων- Αυτή είναι η εργασία χαμηλότερου επιπέδου για την οποία χρησιμοποιούνται ήδη κλασικά συνελικτικά νευρωνικά δίκτυα.
  • Προσδιορισμός του διανύσματος στο κανονικόμας επιτρέπει να ανακατασκευάσουμε τρισδιάστατη εικόνααπό δισδιάστατη.
  • Υπεροχή, αναγνώριση αντικειμένων προσοχής- αυτό θα πρόσεχε ένα άτομο όταν κοιτούσε αυτήν την εικόνα.
  • Σημασιολογική κατάτμησησας επιτρέπει να διαιρέσετε τα αντικείμενα σε κλάσεις ανάλογα με τη δομή τους, χωρίς να γνωρίζετε τίποτα για αυτά τα αντικείμενα, δηλαδή ακόμη και πριν να αναγνωριστούν.
  • Επισήμανση νοηματικών ορίων- αυτή είναι η επιλογή των ορίων χωρισμένα σε τάξεις.
  • Τονίζοντας τα μέρη του ανθρώπινου σώματος.
  • Και η εργασία υψηλότερου επιπέδου είναι αναγνώριση των ίδιων των αντικειμένων, το οποίο θα εξετάσουμε τώρα χρησιμοποιώντας το παράδειγμα της αναγνώρισης προσώπου.

Αναγνώριση προσώπου

Το πρώτο πράγμα που κάνουμε είναι να εκτελέσουμε τον ανιχνευτή προσώπου πάνω από την εικόνα για να βρούμε ένα πρόσωπο. Στη συνέχεια, κανονικοποιούμε το πρόσωπο και το τρέχουμε για επεξεργασία σε ένα νευρωνικό δίκτυο περιγράφει τα χαρακτηριστικά αυτού του προσώπου.

Στη συνέχεια, μπορούμε να συγκρίνουμε αυτό το διάνυσμα χαρακτηριστικών με όλα τα διανύσματα χαρακτηριστικών που είναι αποθηκευμένα στη βάση δεδομένων μας και να λάβουμε μια αναφορά σε ένα συγκεκριμένο άτομο, στο όνομά του, στο προφίλ του - όλα όσα μπορούμε να αποθηκεύσουμε στη βάση δεδομένων.

Αυτός είναι ακριβώς ο τρόπος με τον οποίο λειτουργεί το προϊόν FindFace - είναι μια δωρεάν υπηρεσία που σας βοηθά να αναζητήσετε προφίλ ατόμων στη βάση δεδομένων VKontakte.

Επιπλέον, έχουμε ένα API για εταιρείες που θέλουν να δοκιμάσουν τα προϊόντα μας. Παρέχουμε υπηρεσίες ανίχνευσης προσώπου, επαλήθευσης και αναγνώρισης χρήστη.

Τώρα έχουμε αναπτύξει 2 σενάρια. Το πρώτο είναι η αναγνώριση, η αναζήτηση ενός ατόμου σε μια βάση δεδομένων. Το δεύτερο είναι η επαλήθευση, αυτή είναι μια σύγκριση δύο εικόνων με μια ορισμένη πιθανότητα ότι πρόκειται για το ίδιο άτομο. Επιπλέον, αυτή τη στιγμή αναπτύσσουμε την αναγνώριση συναισθημάτων, την αναγνώριση εικόνας στο βίντεο και την ανίχνευση ζωντάνιας - αυτή είναι η κατανόηση του εάν το άτομο μπροστά από την κάμερα ή μια φωτογραφία είναι ζωντανό.

Μερικά στατιστικά στοιχεία. Κατά την αναγνώριση, κατά την αναζήτηση 10 χιλιάδων φωτογραφιών, έχουμε ακρίβεια περίπου 95%, ανάλογα με την ποιότητα της βάσης δεδομένων και ακρίβεια επαλήθευσης 99%. Και εκτός από αυτό αυτόν τον αλγόριθμοπολύ ανθεκτικό στις αλλαγές - δεν χρειάζεται να κοιτάμε την κάμερα, μπορεί να έχουμε κάποια αντικείμενα που εμποδίζουν: γυαλιά, γυαλιά ηλίου, γένια, ιατρική μάσκα. Σε ορισμένες περιπτώσεις, μπορούμε ακόμη και να ξεπεράσουμε τις απίστευτες προκλήσεις για την όραση του υπολογιστή, όπως γυαλιά και μάσκα.

Πολύ γρήγορη αναζήτηση, χρειάζεται 0,5 δευτερόλεπτα για την επεξεργασία 1 δισεκατομμυρίου φωτογραφιών. Έχουμε αναπτύξει ένα μοναδικό ευρετήριο γρήγορης αναζήτησης. Μπορούμε επίσης να εργαστούμε με εικόνες Χαμηλή ποιότητα, που ελήφθη από κάμερες CCTV. Όλα αυτά μπορούμε να τα επεξεργαστούμε σε πραγματικό χρόνο. Μπορείτε να ανεβάσετε φωτογραφίες μέσω της διεπαφής ιστού, μέσω Android, iOS και να πραγματοποιήσετε αναζήτηση σε 100 εκατομμύρια χρήστες και στις 250 εκατομμύρια φωτογραφίες τους.

Όπως είπα ήδη, πήραμε την πρώτη θέση στον διαγωνισμό MegaFace - ένα ανάλογο για το ImageNet, αλλά για την αναγνώριση προσώπου. Λειτουργεί εδώ και αρκετά χρόνια, πέρυσι ήμασταν οι καλύτεροι ανάμεσα σε 100 ομάδες από όλο τον κόσμο, συμπεριλαμβανομένης της Google.

Επαναλαμβανόμενα νευρωνικά δίκτυα

Χρησιμοποιούμε επαναλαμβανόμενα νευρωνικά δίκτυα όταν δεν μας αρκεί να αναγνωρίσουμε μόνο μια εικόνα. Σε περιπτώσεις όπου είναι σημαντικό για εμάς να διατηρήσουμε τη συνέπεια, χρειαζόμαστε τη σειρά του τι συμβαίνει, χρησιμοποιούμε συνηθισμένα επαναλαμβανόμενα νευρωνικά δίκτυα.

Χρησιμοποιείται για αναγνώριση φυσικής γλώσσας, επεξεργασία βίντεο, ακόμη και για αναγνώριση εικόνας.

Δεν θα μιλήσω για την αναγνώριση φυσικής γλώσσας - μετά την έκθεσή μου θα υπάρξουν άλλες δύο που θα στοχεύουν στην αναγνώριση φυσικής γλώσσας. Ως εκ τούτου, θα μιλήσω για το έργο των επαναλαμβανόμενων δικτύων χρησιμοποιώντας το παράδειγμα της αναγνώρισης συναισθημάτων.

Τι είναι τα επαναλαμβανόμενα νευρωνικά δίκτυα; Αυτό είναι περίπου το ίδιο με τα συνηθισμένα νευρωνικά δίκτυα, αλλά με ανάδραση. Χρειαζόμαστε ανατροφοδότηση για να μεταδώσουμε την προηγούμενη κατάσταση του συστήματος στην είσοδο του νευρωνικού δικτύου ή σε κάποια από τα στρώματά του.

Ας πούμε ότι επεξεργαζόμαστε τα συναισθήματα. Ακόμα και σε ένα χαμόγελο - ένα από τα πιο απλά συναισθήματα - υπάρχουν αρκετές στιγμές: από μια ουδέτερη έκφραση του προσώπου μέχρι τη στιγμή που έχουμε ένα γεμάτο χαμόγελο. Διαδέχονται ο ένας τον άλλον διαδοχικά. Για να το καταλάβουμε αυτό καλά, πρέπει να είμαστε σε θέση να παρατηρήσουμε πώς συμβαίνει αυτό και να μεταφέρουμε αυτό που υπήρχε στο προηγούμενο πλαίσιο στο επόμενο βήμα του συστήματος.

Το 2005, στον διαγωνισμό Emotion Recognition in the Wild, μια ομάδα από το Μόντρεαλ παρουσίασε ένα επαναλαμβανόμενο σύστημα ειδικά για την αναγνώριση συναισθημάτων, το οποίο φαινόταν πολύ απλό. Είχε μόνο μερικά συνελικτικά στρώματα και λειτουργούσε αποκλειστικά με βίντεο. Φέτος πρόσθεσαν επίσης αναγνώριση ήχου και συγκεντρώθηκαν δεδομένα καρέ-καρέ που προέρχονται από συνελικτικά νευρωνικά δίκτυα, δεδομένα σήματος ήχου με λειτουργία επαναλαμβανόμενου νευρωνικού δικτύου (με επιστροφή κατάστασης) και έλαβαν την πρώτη θέση στον διαγωνισμό.

Ενισχυτική μάθηση

Ο επόμενος τύπος νευρωνικών δικτύων, που χρησιμοποιείται πολύ συχνά τελευταία, αλλά δεν έχει λάβει τόση δημοσιότητα όπως οι προηγούμενοι 2 τύποι, είναι η βαθιά ενισχυτική μάθηση.

Γεγονός είναι ότι στις δύο προηγούμενες περιπτώσεις χρησιμοποιούμε βάσεις δεδομένων. Έχουμε είτε δεδομένα από πρόσωπα, είτε δεδομένα από εικόνες, είτε δεδομένα με συναισθήματα από βίντεο. Αν δεν το έχουμε αυτό, αν δεν μπορούμε να το κινηματογραφήσουμε, πώς μπορούμε να διδάξουμε ένα ρομπότ να μαζεύει αντικείμενα; Αυτό το κάνουμε αυτόματα - δεν ξέρουμε πώς λειτουργεί. Ένα άλλο παράδειγμα: η σύνταξη μεγάλων βάσεων δεδομένων σε παιχνίδια υπολογιστή είναι δύσκολη και δεν είναι απαραίτητη.

Όλοι πιθανότατα έχουν ακούσει για την επιτυχία της βαθιάς ενισχυτικής μάθησης στο Atari and Go.

Ποιος έχει ακούσει για το Atari; Λοιπόν, κάποιος άκουσε, εντάξει. Νομίζω ότι όλοι έχουν ακούσει για το AlphaGo, οπότε δεν θα σας πω καν τι ακριβώς συμβαίνει εκεί.

Τι συμβαίνει στο Atari; Η αρχιτεκτονική αυτού του νευρωνικού δικτύου φαίνεται στα αριστερά. Μαθαίνει παίζοντας με τον εαυτό της για να πάρει τη μέγιστη ανταμοιβή. Η μέγιστη ανταμοιβή είναι το ταχύτερο δυνατό αποτέλεσμα του παιχνιδιού με την υψηλότερη δυνατή βαθμολογία.

Πάνω δεξιά είναι το τελευταίο στρώμα του νευρωνικού δικτύου, το οποίο απεικονίζει ολόκληρο τον αριθμό των καταστάσεων του συστήματος, το οποίο έπαιξε εναντίον του για μόλις δύο ώρες. Τα επιθυμητά αποτελέσματα του παιχνιδιού με τη μέγιστη ανταμοιβή απεικονίζονται με κόκκινο χρώμα και τα ανεπιθύμητα απεικονίζονται με μπλε. Το δίκτυο χτίζει ένα συγκεκριμένο πεδίο και κινείται μέσω των εκπαιδευμένων στρωμάτων του στην κατάσταση που θέλει να επιτύχει.

Στη ρομποτική η κατάσταση είναι λίγο διαφορετική. Γιατί; Εδώ έχουμε αρκετές δυσκολίες. Πρώτον, δεν έχουμε πολλές βάσεις δεδομένων. Δεύτερον, πρέπει να συντονίσουμε τρία συστήματα ταυτόχρονα: την αντίληψη του ρομπότ, τις ενέργειές του με τη βοήθεια χειριστών και τη μνήμη του - τι έγινε στο προηγούμενο βήμα και πώς έγινε. Γενικά, όλο αυτό είναι πολύ δύσκολο.

Το γεγονός είναι ότι ούτε ένα νευρωνικό δίκτυο, ακόμη και η βαθιά εκμάθηση αυτή τη στιγμή, δεν μπορεί να αντεπεξέλθει σε αυτό το έργο αρκετά αποτελεσματικά, επομένως η βαθιά μάθηση είναι μόνο ένα κομμάτι αυτού που πρέπει να κάνουν τα ρομπότ. Για παράδειγμα, ο Sergei Levin δημιούργησε πρόσφατα ένα σύστημα που διδάσκει σε ένα ρομπότ να αρπάζει αντικείμενα.

Εδώ είναι τα πειράματα που έκανε στους 14 ρομποτικούς βραχίονες του.

Τι συμβαίνει εδώ? Σε αυτές τις λεκάνες που βλέπετε μπροστά σας, υπάρχουν διάφορα αντικείμενα: στυλό, γόμες, μικρότερες και μεγαλύτερες κούπες, κουρέλια, διαφορετικές υφές, διαφορετική σκληρότητα. Δεν είναι σαφές πώς να διδάξετε ένα ρομπότ να τα συλλαμβάνει. Για πολλές ώρες, ακόμα και εβδομάδες, τα ρομπότ εκπαιδεύονταν για να μπορούν να αρπάζουν αυτά τα αντικείμενα και δημιουργήθηκαν βάσεις δεδομένων σχετικά με αυτό.

Οι βάσεις δεδομένων είναι ένα είδος περιβαλλοντικής απόκρισης που πρέπει να συσσωρεύσουμε για να μπορέσουμε να εκπαιδεύσουμε το ρομπότ να κάνει κάτι στο μέλλον. Στο μέλλον, τα ρομπότ θα μάθουν από αυτό το σύνολο καταστάσεων συστήματος.

Μη τυπικές εφαρμογές νευρωνικών δικτύων

Δυστυχώς, αυτό είναι το τέλος, δεν έχω πολύ χρόνο. Θα σου πω για αυτά μη τυποποιημένες λύσεις, που υπάρχουν πλέον και που σύμφωνα με πολλές προβλέψεις θα έχουν κάποια εφαρμογή στο μέλλον.

Έτσι, οι επιστήμονες του Στάνφορντ πρόσφατα κατέληξαν σε ένα πολύ ασυνήθιστη εφαρμογήΝευρωνικό δίκτυο CNN για την πρόβλεψη της φτώχειας. Τι έκαναν?

Η ιδέα είναι στην πραγματικότητα πολύ απλή. Γεγονός είναι ότι στην Αφρική το επίπεδο της φτώχειας ξεπερνά κάθε νοητό και ασύλληπτο όριο. Δεν έχουν καν τη δυνατότητα συλλογής κοινωνικών δημογραφικών δεδομένων. Επομένως, από το 2005 δεν έχουμε καθόλου στοιχεία για το τι συμβαίνει εκεί.

Οι επιστήμονες συνέλεξαν χάρτες ημέρας και νύχτας από δορυφόρους και τους τροφοδοτούσαν σε ένα νευρωνικό δίκτυο για μια χρονική περίοδο.

Το νευρωνικό δίκτυο είχε διαμορφωθεί εκ των προτέρων στο ImageNet, δηλαδή, τα πρώτα στρώματα φίλτρων διαμορφώθηκαν έτσι ώστε να μπορεί να αναγνωρίσει μερικά πολύ απλά πράγματα, για παράδειγμα, στέγες σπιτιών, για να αναζητήσει οικισμούς σε χάρτες ημέρας σε σύγκριση με νυχτερινούς χάρτες φωτισμό της ίδιας περιοχής της επιφάνειας για να πούμε πόσα χρήματα έχει ο πληθυσμός για να φωτίσει τουλάχιστον τα σπίτια του κατά τη διάρκεια της νύχτας.

Εδώ βλέπετε τα αποτελέσματα της πρόβλεψης που κατασκευάστηκε από το νευρωνικό δίκτυο. Η πρόβλεψη έγινε με διαφορετικές αποφάσεις. Και βλέπετε - το τελευταίο πλαίσιο - πραγματικά δεδομένα που συνέλεξε η κυβέρνηση της Ουγκάντα ​​το 2005.

Μπορείτε να δείτε ότι το νευρωνικό δίκτυο έκανε μια αρκετά ακριβή πρόβλεψη, ακόμη και με μια μικρή μετατόπιση από το 2005.

Φυσικά και υπήρχαν παρενέργειες. Οι επιστήμονες που ασχολούνται με τη βαθιά μάθηση εκπλήσσονται πάντα όταν ανακαλύπτουν διάφορες παρενέργειες. Για παράδειγμα, όπως το γεγονός ότι το δίκτυο έχει μάθει να αναγνωρίζει νερό, δάση, μεγάλα εργοτάξια, δρόμους - όλα αυτά χωρίς δασκάλους, χωρίς προκατασκευασμένες βάσεις δεδομένων. Γενικά, εντελώς ανεξάρτητα. Υπήρχαν ορισμένα στρώματα που αντιδρούσαν, για παράδειγμα, στους δρόμους.

Και η τελευταία εφαρμογή για την οποία θα ήθελα να μιλήσω είναι η σημασιολογική κατάτμηση τρισδιάστατων εικόνων στην ιατρική. Γενικά, η ιατρική απεικόνιση είναι ένας πολύπλοκος τομέας με τον οποίο είναι πολύ δύσκολο να δουλέψεις.

Υπάρχουν διάφοροι λόγοι για αυτό.

  • Έχουμε πολύ λίγες βάσεις δεδομένων. Δεν είναι τόσο εύκολο να βρεις μια εικόνα ενός εγκεφάλου, επιπλέον, μιας κατεστραμμένης, και είναι επίσης αδύνατο να την πάρεις από οπουδήποτε.
  • Ακόμα κι αν έχουμε μια τέτοια εικόνα, πρέπει να πάρουμε έναν γιατρό και να τον αναγκάσουμε να τοποθετήσει χειροκίνητα όλες τις εικόνες πολλαπλών επιπέδων, κάτι που είναι πολύ χρονοβόρο και εξαιρετικά αναποτελεσματικό. Δεν έχουν όλοι οι γιατροί τους πόρους για να το κάνουν αυτό.
  • Απαιτείται πολύ υψηλή ακρίβεια. Το ιατρικό σύστημα δεν μπορεί να κάνει λάθη. Κατά την αναγνώριση, για παράδειγμα, οι γάτες δεν αναγνωρίστηκαν - δεν είναι μεγάλη υπόθεση. Και αν δεν αναγνωρίζαμε τον όγκο, τότε αυτό δεν είναι πλέον πολύ καλό. Οι απαιτήσεις για την αξιοπιστία του συστήματος είναι ιδιαίτερα αυστηρές εδώ.
  • Οι εικόνες είναι σε τρισδιάστατα στοιχεία - voxels, όχι pixels, γεγονός που φέρνει πρόσθετη πολυπλοκότητα στους προγραμματιστές συστημάτων.
Πώς όμως προέκυψε αυτό το θέμα σε αυτή την περίπτωση; Το CNN ήταν διπλής ροής. Ένα μέρος επεξεργάστηκε περισσότερο κανονική ανάλυση, το άλλο είναι μια ελαφρώς υποβαθμισμένη ανάλυση προκειμένου να μειωθεί ο αριθμός των επιπέδων που πρέπει να εκπαιδεύσουμε. Λόγω αυτού, ο χρόνος που απαιτείται για την εκπαίδευση του δικτύου μειώθηκε ελαφρώς.

Πού χρησιμοποιείται: εντοπισμός βλάβης μετά από πρόσκρουση, αναζήτηση όγκου στον εγκέφαλο, στην καρδιολογία για προσδιορισμό του τρόπου λειτουργίας της καρδιάς.

Ακολουθεί ένα παράδειγμα για τον προσδιορισμό του όγκου του πλακούντα.

Αυτόματα λειτουργεί καλά, αλλά όχι αρκετά καλά για να κυκλοφορήσει στην παραγωγή, οπότε μόλις ξεκινάει. Υπάρχουν αρκετές startups για τη δημιουργία τέτοιων συστημάτων ιατρικής όρασης. Γενικά, θα υπάρξουν πολλές startups στο deep learning στο εγγύς μέλλον. Λένε ότι οι επενδυτές επιχειρηματικών κεφαλαίων έχουν διαθέσει περισσότερο προϋπολογισμό σε startups βαθιάς μάθησης τους τελευταίους έξι μήνες σε σχέση με τα τελευταία 5 χρόνια.

Αυτή η περιοχή αναπτύσσεται ενεργά, πολλοί ενδιαφέρουσες κατευθύνσεις. Ζούμε σε ενδιαφέρουσες εποχές. Εάν ασχολείστε με τη βαθιά μάθηση, τότε μάλλον ήρθε η ώρα να ανοίξετε τη δική σας startup.

Λοιπόν, μάλλον θα το κλείσω εδώ. Ευχαριστώ πολύ.

Τα νευρωνικά δίκτυα ταξινομούνται σύμφωνα με τους ακόλουθους τύπους εκπαίδευσης:

  1. νευρωνικά δίκτυα που υπόκεινται σε εποπτευόμενη μάθηση·
  2. νευρωνικά δίκτυα που εκπαιδεύονται χωρίς δάσκαλο.

Ας δούμε αυτούς τους τύπους λίγο πιο αναλυτικά.

Τα νευρωνικά δίκτυα υπόκεινται σε εποπτευόμενη μάθηση.

Η εποπτευόμενη μάθηση υποθέτει ότι κάθε διάνυσμα που περιλαμβάνεται σε ένα υπάρχον διάνυσμα στόχο αντιπροσωπεύει την απαιτούμενη έξοδο. Μαζί αποτελούν ένα διδακτικό ζευγάρι. Το δίκτυο εκπαιδεύεται σε πολλά προπονητικά ζεύγη.
Παρέχεται το διάνυσμα εξόδου, προσδιορίζεται η έξοδος δικτύου και συγκρίνεται με τα διανύσματα που παρουσιάζονται.
Στη συνέχεια, αλλάξτε τα βάρη σύμφωνα με μαθηματικός αλγόριθμος, που επιδιώκει να μειώσει το σφάλμα.
Τα διανύσματα ενός συνόλου δεδομένων εκπαίδευσης παρουσιάζονται διαδοχικά. Καθώς προχωράτε, τα σφάλματα και τα βάρη υπολογίζονται και προσαρμόζονται για όλα τα διανύσματα έως ότου το σφάλμα στα δεδομένα εκπαίδευσης φτάσει στο επιθυμητό επίπεδο.

Νευρωνικά δίκτυα που μαθαίνουν χωρίς τη βοήθεια δασκάλου.

Η μάθηση χωρίς επίβλεψη φαίνεται να είναι ένα πολύ πιο κοινό μοντέλο μάθησης, ιδιαίτερα κοινό στα βιολογικά νευρωνικά δίκτυα.

Αναπτύχθηκε από άλλους επιστήμονες, δεν απαιτεί διάνυσμα-στόχο για εξόδους. Από αυτό προκύπτει ότι δεν απαιτούνται συγκρίσεις με προηγουμένως προετοιμασμένα. ιδανικές επιλογέςαπαντήσεις. Τα δεδομένα εκπαίδευσης αποτελούνται μόνο από διανύσματα εισόδου.

Ο αλγόριθμος εκμάθησης αλλάζει τα βάρη του δικτύου του έτσι ώστε να παράγονται συνεπή διανύσματα εξόδου, δηλαδή ότι η παροχή επαρκώς όμοιων διανυσμάτων εισόδου παράγει παρόμοια αποτελέσματα.
Η διαδικασία μάθησης, επαναληπτικά, καθορίζει τις στατιστικές ιδιότητες των παρεχόμενων δεδομένων εκπαίδευσης και ομαδοποιεί παρόμοια διανύσματα σε τάξεις.

Αλλαγή βαρών

Τα νευρωνικά δίκτυα χωρίζονται επίσης στις ακόλουθες ομάδες. ΜΕ σταθερές συνδέσεις – τα βάρη των οποίων επιλέγονται εκ των προτέρων με βάση την εργασία και με δυναμικές συνδέσεις– τα οποία αναδιατάσσουν τα βάρη τους κατά τη μαθησιακή διαδικασία.

Τύπος εισόδου

Τα δεδομένα εισόδου χωρίζονται επίσης σε πολλά. αναλογικά δεδομένα εισόδουπαρουσιάζεται στη φόρμα πραγματικούς αριθμούςΚαι δυάδικοςτων οποίων οι πληροφορίες αναπαρίστανται με τη μορφή μηδενικών και μονάδων.

Μοντέλα νευρωνικών δικτύων που χρησιμοποιούνται συχνότερα αυτή τη στιγμή

Άμεσα δίκτυα διανομής– όλες οι συνδέσεις αυτού του δικτύου έχουν μια αυστηρή κατεύθυνση από τους νευρώνες εισόδου προς τις εξόδους τους. Μεταξύ τέτοιων δικτύων θα ήθελα να σημειώσω: απλούστερο perceptronο συγγραφέας του οποίου είναι πολυστρωματικό perceptron.

Επαναλαμβανόμενα νευρωνικά δίκτυα– τα δεδομένα από τους νευρώνες εξόδου ή από το κρυφό στρώμα μεταδίδονται εν μέρει πίσω στους νευρώνες εισόδου.

Λειτουργίες ακτινικής βάσηςείναι ένα νευρωνικό δίκτυο που βασίζεται στην παρουσία ενός κρυφού στρώματος ακτινικών στοιχείων και ενός στρώματος εξόδου γραμμικών στοιχείων. Τέτοια δίκτυα είναι αρκετά συμπαγή και μαθαίνουν αρκετά γρήγορα.

Προτάθηκαν σε έργα Broomhead and Lowe (1988)Και Moody and Darkin (1989).
Δίκτυο ακτινικής βάσηςχρησιμοποιεί τις ακόλουθες μοναδικές ιδιότητες: ένα κρυφό στρώμα, οι νευρώνες μόνο του κρυφού στρώματος έχουν μια συνάρτηση μη γραμμικής ενεργοποίησης και τα συναπτικά βάρη του κρυφού και του επιπέδου εισόδου είναι ενότητα.

Δίκτυα Kohonenή Αυτοοργάνωση χαρτών– Αυτή η κατηγορία δικτύων συνήθως εκπαιδεύεται χωρίς τη βοήθεια δασκάλου και χρησιμοποιείται συχνά σε προβλήματα που σχετίζονται με την αναγνώριση εικόνων.
Τέτοια δίκτυα είναι ικανά να εντοπίζουν νέα στοιχεία στα δεδομένα εισόδου: εάν, μετά την εκπαίδευση, το δίκτυο δει ένα σύνολο δεδομένων που δεν μοιάζει με κανένα από τα γνωστά δείγματα, τότε θα ταξινομήσει ένα τέτοιο σύνολο και δεν θα εντοπίσει την καινοτομία του.
Δίκτυο Kohonenέχει μόνο δύο στρώματα: έξοδο και είσοδο, που αποτελούνται από ακτινικά στοιχεία.

Από σημεία σε ένα επίπεδο και συνδέσεις μεταξύ τους, μπορείτε να κατασκευάσετε πολλά γραφικά σχήματα που ονομάζονται γραφήματα. Αν φανταστούμε κάθε σημείο ως έναν νευρώνα και τις συνδέσεις μεταξύ των σημείων ως δενδρίτες και συνάψεις, τότε έχουμε ένα νευρωνικό δίκτυο.

Αλλά δεν θα είναι αποτελεσματική ή ακόμη και ενδεδειγμένη κάθε σύνδεση νευρώνων. Επομένως, σήμερα υπάρχουν μόνο λίγες αρχιτεκτονικές νευρωνικών δικτύων που λειτουργούν και εφαρμόζονται σε λογισμικό. Θα περιγράψω μόνο εν συντομία το σχεδιασμό τους και τις κατηγορίες προβλημάτων που επιλύουν.

Με βάση την αρχιτεκτονική των συνδέσεων, τα νευρωνικά δίκτυα μπορούν να ομαδοποιηθούν σε δύο κατηγορίες: απευθείας δίκτυα διανομής, στην οποία οι δεσμοί δεν έχουν βρόχους Εικόνα 1, και επαναλαμβανόμενα δίκτυα, στην οποία είναι δυνατή η ανατροφοδότηση Εικόνα 3

Εικόνα 2 Προοδευτικά νευρωνικά δίκτυα

Εικόνα 3 Επαναλαμβανόμενα νευρωνικά δίκτυα

Τα δίκτυα τροφοδοσίας χωρίζονται σε perceptron μονής στρώσης (δίκτυα) και σε πολυστρωματικά perceptrons (δίκτυα). Το όνομα perceptron για τα νευρωνικά δίκτυα επινοήθηκε από τον Αμερικανό νευροφυσιολόγο F. Rosenblatt, ο οποίος εφηύρε το πρώτο το 1957. στοιχείο νευροεπεξεργαστή (NPE), δηλαδή ένα νευρωνικό δίκτυο. Απέδειξε επίσης τη σύγκλιση της περιοχής λύσης για το perceptron κατά την εκπαίδευσή του. Αμέσως μετά, άρχισε ταχεία έρευνα σε αυτόν τον τομέα και δημιουργήθηκε ο πρώτος νευροϋπολογιστής, ο Mark I.

Τα πολυστρωματικά δίκτυα διακρίνονται από το γεγονός ότι μεταξύ των δεδομένων εισόδου και εξόδου υπάρχουν πολλά λεγόμενα κρυφά στρώματα νευρώνων, προσθέτοντας περισσότερες μη γραμμικές συνδέσεις στο μοντέλο.

Ας εξετάσουμε τον σχεδιασμό του απλούστερου πολυεπίπεδου νευρωνικού δικτύου. Οποιοδήποτε νευρωνικό δίκτυο αποτελείται από στρώμα εισόδου και στρώμα εξόδου. Οι ανεξάρτητες και οι εξαρτημένες μεταβλητές παρουσιάζονται ανάλογα. Τα δεδομένα εισόδου μετασχηματίζονται από τους νευρώνες του δικτύου και συγκρίνονται με την έξοδο. Εάν η απόκλιση είναι μεγαλύτερη από μια δεδομένη, τότε τα βάρη των συνδέσεων μεταξύ των νευρώνων και οι τιμές κατωφλίου των νευρώνων αλλάζουν με ιδιαίτερο τρόπο. Η διαδικασία υπολογισμού της τιμής εξόδου και σύγκρισής της με το πρότυπο εμφανίζεται ξανά. Εάν οι αποκλίσεις είναι μικρότερες από το καθορισμένο σφάλμα, τότε η διαδικασία εκμάθησης σταματά.

Εκτός από τα επίπεδα εισόδου και εξόδου σε ένα πολυστρωματικό δίκτυο, υπάρχουν τα λεγόμενα κρυφά στρώματα. Είναι νευρώνες που δεν έχουν άμεσες εισόδους των αρχικών δεδομένων, αλλά συνδέονται μόνο με τις εξόδους του στρώματος εισόδου και με την είσοδο του στρώματος εξόδου. Έτσι, τα κρυφά επίπεδα μετασχηματίζουν περαιτέρω πληροφορίες και προσθέτουν μη γραμμικότητα στο μοντέλο. Για να κατανοήσετε καλύτερα τον σχεδιασμό ενός πολυστρωματικού perceptron, δείτε το σχήμα 4

Σχήμα 4 Πολυστρωματικό perceptron

Εάν ένα νευρωνικό δίκτυο μονού επιπέδου αντιμετωπίζει πολύ καλά προβλήματα ταξινόμησης, αφού το στρώμα εξόδου των νευρώνων συγκρίνει τις τιμές που ελήφθη από το προηγούμενο επίπεδο με ένα κατώφλι και παράγει μια τιμή είτε μηδέν, δηλαδή μικρότερη από το κατώφλι τιμή, ή ένα, περισσότερο από το όριο (για την περίπτωση μιας συνάρτησης εσωτερικού νευρώνα κατωφλίου) και δεν είναι ικανό να λύσει τα περισσότερα πρακτικά προβλήματα (που αποδείχθηκε από τους Minsky και Papert), τότε ένα πολυστρωματικό perceptron με συναρτήσεις σιγμοειδούς απόφασης είναι ικανό να προσεγγίσει οποιαδήποτε συναρτησιακή εξάρτηση (αυτό αποδείχθηκε με τη μορφή θεωρήματος). Αλλά ταυτόχρονα, δεν είναι γνωστός ούτε ο απαιτούμενος αριθμός επιπέδων, ούτε ο απαιτούμενος αριθμός κρυμμένων νευρώνων, ούτε ο χρόνος που απαιτείται για την εκπαίδευση του δικτύου. Αυτά τα προβλήματα εξακολουθούν να αντιμετωπίζουν ερευνητές και προγραμματιστές νευρωνικών δικτύων. Προσωπικά, μου φαίνεται ότι όλος ο ενθουσιασμός στη χρήση των νευρωνικών δικτύων βασίζεται ακριβώς στην απόδειξη αυτού του θεωρήματος. Στη συνέχεια, εγώ ο ίδιος θα δείξω πώς οι νευρώνες μπορούν να μοντελοποιήσουν διάφορες κατηγορίες συναρτήσεων, αλλά δεν ισχυρίζομαι ότι είμαι πλήρης στην απόδειξη.



Η κατηγορία των επαναλαμβανόμενων νευρωνικών δικτύων είναι πολύ ευρύτερη και τα ίδια τα δίκτυα είναι πιο πολύπλοκα στο σχεδιασμό.

Η συμπεριφορά των επαναλαμβανόμενων δικτύων περιγράφεται με διαφορικές εξισώσεις ή εξισώσεις διαφοράς, συνήθως πρώτης τάξης. Αυτό διευρύνει πολύ τους τομείς εφαρμογής των νευρωνικών δικτύων και τις μεθόδους εκπαίδευσής τους. Το δίκτυο είναι οργανωμένο έτσι ώστε κάθε νευρώνας να λαμβάνει είσοδο από άλλους νευρώνες, πιθανώς από τον εαυτό του και από το περιβάλλον. Αυτός ο τύπος δικτύου έχει σπουδαίος, αφού μπορούν να χρησιμοποιηθούν για την προσομοίωση μη γραμμικών δυναμικών συστημάτων.

Μεταξύ των επαναλαμβανόμενων δικτύων μπορούμε να διακρίνουμε Δίκτυα Hopfield και δίκτυα Kohonen.

Τα δίκτυα Hopfield μπορούν να χειριστούν μη ταξινομημένα (χειρόγραφα γράμματα), χρονικά (χρονικές σειρές) ή χωρικά διατεταγμένα (γραφήματα). Ένα επαναλαμβανόμενο νευρωνικό δίκτυο του απλούστερου τύπου εισήχθη από τον Hopfield και κατασκευάστηκε από Ν νευρώνες, καθένας συνδεδεμένος με όλους εκτός από τον εαυτό του, και όλοι οι νευρώνες εξάγονται. Το νευρωνικό δίκτυο Hopfield μπορεί να χρησιμοποιηθεί ως συσχετιστική μνήμη. Η αρχιτεκτονική του δικτύου Hopfield φαίνεται στο Σχήμα 5

Εικόνα 5 Αρχιτεκτονική δικτύου Hopfield

Το δίκτυο Kohonen ονομάζεται επίσης «αυτο-οργανωτικός χάρτης χαρακτηριστικών». Αυτός ο τύπος δικτύου έχει σχεδιαστεί για αυτοεκπαίδευσηΚατά τη διάρκεια της προπόνησης, δεν είναι απαραίτητο να της πείτε τις σωστές απαντήσεις. Κατά τη διάρκεια της εκπαιδευτικής διαδικασίας, διάφορα δείγματα τροφοδοτούνται στην είσοδο του δικτύου. Το δίκτυο καταγράφει τα χαρακτηριστικά της δομής τους και χωρίζει τα δείγματα σε συστάδες, και το ήδη εκπαιδευμένο δίκτυο αντιστοιχίζει κάθε νεοαφιχθέν παράδειγμα σε ένα από τα συμπλέγματα, καθοδηγούμενο από κάποιο κριτήριο «εγγύτητας». Το δίκτυο αποτελείται από ένα επίπεδο εισόδου και ένα επίπεδο εξόδου. Ο αριθμός των στοιχείων στο επίπεδο εξόδου καθορίζει άμεσα πόσα διαφορετικά συμπλέγματα μπορεί να αναγνωρίσει το δίκτυο. Κάθε ένα από τα στοιχεία εξόδου λαμβάνει ολόκληρο το διάνυσμα εισόδου ως είσοδο. Όπως σε κάθε νευρωνικό δίκτυο, σε κάθε σύνδεση εκχωρείται ένα ορισμένο συναπτικό βάρος. Στις περισσότερες περιπτώσεις, κάθε στοιχείο εξόδου συνδέεται επίσης με τους γείτονές του. Αυτές οι ενδοεπίπεδες συνδέσεις παίζουν σημαντικό ρόλο στη διαδικασία εκμάθησης, καθώς τα βάρη προσαρμόζονται μόνο κοντά στο στοιχείο που ανταποκρίνεται καλύτερα στην επόμενη είσοδο. Τα στοιχεία εξόδου ανταγωνίζονται μεταξύ τους για το δικαίωμα να μπουν σε δράση και να «πάρουν ένα μάθημα». Νικητής είναι αυτός του οποίου το διάνυσμα βάρους είναι πιο κοντά στο διάνυσμα εισόδου.

Ένας τεχνητός νευρώνας είναι ένα απλό στοιχείο που υπολογίζει πρώτα ένα σταθμισμένο άθροισμα V των ποσοτήτων εισόδου xi:

Εδώ N είναι η διάσταση του χώρου των σημάτων εισόδου. Το άθροισμα που προκύπτει συγκρίνεται στη συνέχεια με την τιμή κατωφλίου W0, μετά την οποία τίθεται σε ισχύ η μη γραμμική συνάρτηση ενεργοποίησης f. Οι συντελεστές Wi στο σταθμισμένο άθροισμα ονομάζονται συνήθως συναπτικοί συντελεστέςή ζυγαριά. Θα ονομάσουμε το ίδιο το σταθμισμένο άθροισμα V δυναμικό του νευρώνα i. Το σήμα εξόδου έχει τότε τη μορφή f(V). Η τιμή του φραγμού κατωφλίου μπορεί να θεωρηθεί ως ένας άλλος παράγοντας στάθμισης για ένα σταθερό σήμα εισόδου. Σε αυτή την περίπτωση μιλάμε για διευρυμένο χώρο εισόδου: Ένας νευρώνας με είσοδο Ν-διάστασης έχει N+1 βάρη. Εάν εισάγουμε την τιμή κατωφλίου W0 στην εξίσωση, θα ξαναγραφεί ως εξής:

Ανάλογα με τη μέθοδο μετασχηματισμού του σήματος και τη φύση της ενεργοποίησης, προκύπτουν διαφορετικοί τύποι νευρικών δομών. Υπάρχει ντετερμινιστικούς νευρώνες, όταν η συνάρτηση ενεργοποίησης υπολογίζει μοναδικά την έξοδο από την είσοδο, και πιθανολογικούς νευρώνες, του οποίου η κατάσταση τη χρονική στιγμή t είναι μια τυχαία συνάρτηση του δυναμικού και η κατάσταση τη στιγμή t-1. Ας εξετάσουμε τους ντετερμινιστικούς νευρώνες.

Δομή νευρωνικού δικτύου

Χρησιμοποιείται ένα νευρωνικό δίκτυο 3 επιπέδων, η δομή του οποίου φαίνεται στο Σχ. 2.

Ρύζι. 2. Δομή του εφαρμοζόμενου νευρωνικού δικτύου (n – αριθμός αναγνωρισμένων γραμμάτων)

Το τρίτο στρώμα σχηματίζεται από νευρώνες εξόδου. Σε ένα νευρωνικό δίκτυο της επιλεγμένης δομής, κάθε στοιχείο του κατώτερου στρώματος μεταδίδει το σήμα εξόδου του στις εισόδους όλων των στοιχείων του επόμενου στρώματος. Ο αριθμός των στοιχείων στο πρώτο και το δεύτερο στρώμα του νευρωνικού δικτύου μπορεί να ποικίλλει. Συγκεκριμένα, στο παράδειγμα που αναλύεται, το δεύτερο στρώμα περιέχει 8 και το τρίτο – 24 νευρώνες.

Λειτουργίες ενεργοποίησηςΟι τεχνητοί νευρώνες μπορούν να έχουν διαφορετικές λειτουργίες ενεργοποίησης, αλλά στα προγράμματα που χρησιμοποιώ και στη γνωστή βιβλιογραφία, υποδεικνύονται μόνο οι ακόλουθοι τύποι συναρτήσεων: Γραμμική: το σήμα εξόδου του νευρώνα είναι ίσο με το δυναμικό του, κατώφλι: ο νευρώνας επιλέγει μια λύση από δύο επιλογές: ενεργό / ανενεργό, Multithreshold: το σήμα εξόδου μπορεί να λάβει μία από τις τιμές q, που καθορίζεται από το όριο (q-1) εντός των οριακών τιμών. Σιγμοειδές: εξετάζονται δύο τύποι σιγμοειδών συναρτήσεων:

με τιμές εξόδου μεταξύ και

με τιμές εξόδου στην περιοχή [-1,1]. Ο συντελεστής b καθορίζει την κλίση του σιγμοειδούς. Δεδομένου ότι η σιγμοειδής συνάρτηση είναι μια ομαλή αντιστοίχιση μιας άπειρης συνάρτησης στο διάστημα (-1,1), η κλίση μπορεί να ληφθεί υπόψη μέσω των τιμών των βαρών και των ορίων και χωρίς απώλεια γενικότητας μπορεί να θεωρηθεί ότι είναι ίσο με την ενότητα. Οι γραφικές εικόνες του απλούστερου νευρώνα και οι τύποι συναρτήσεων με τα γραφήματα τους φαίνονται στο Σχ. 2.
ΣΧΗΜΑ 2. Ένα παράδειγμα απλού νευρώνα με τη μορφή μαθηματικού μοντέλου

Τύποι αρχιτεκτονικών νευρωνικών δικτύων

Από σημεία σε ένα επίπεδο και συνδέσεις μεταξύ τους, μπορείτε να κατασκευάσετε πολλά γραφικά σχήματα που ονομάζονται γραφήματα. Αν φανταστούμε κάθε σημείο ως έναν νευρώνα και τις συνδέσεις μεταξύ των σημείων ως δενδρίτες και συνάψεις, τότε έχουμε ένα νευρωνικό δίκτυο. Αλλά δεν θα είναι αποτελεσματική ή ακόμη και ενδεδειγμένη κάθε σύνδεση νευρώνων. Επομένως, σήμερα υπάρχουν μόνο λίγες αρχιτεκτονικές νευρωνικών δικτύων που λειτουργούν και εφαρμόζονται σε λογισμικό. Θα περιγράψω μόνο εν συντομία το σχεδιασμό τους και τις κατηγορίες προβλημάτων που επιλύουν. Με βάση την αρχιτεκτονική των συνδέσεων, τα νευρωνικά δίκτυα μπορούν να ομαδοποιηθούν σε δύο κατηγορίες: απευθείας δίκτυα διανομής, στις οποίες οι συνδέσεις δεν έχουν βρόχους ( βλέπε εικ. 3), Και επαναλαμβανόμενα δίκτυα, στο οποίο είναι δυνατή η ανατροφοδότηση ( βλέπε εικ. 4)

ΣΧΗΜΑ 3. Προοδευτικά νευρωνικά δίκτυα ΣΧΗΜΑ 4. Επαναλαμβανόμενα νευρωνικά δίκτυα

Τα δίκτυα τροφοδοσίας χωρίζονται σε perceptron μονής στρώσης (δίκτυα) και σε πολυστρωματικά perceptrons (δίκτυα). Το όνομα perceptron για τα νευρωνικά δίκτυα επινοήθηκε από τον Αμερικανό νευροφυσιολόγο F. Rosenblatt, ο οποίος εφηύρε το πρώτο το 1957. στοιχείο νευροεπεξεργαστή (NPE), δηλαδή ένα νευρωνικό δίκτυο. Απέδειξε επίσης τη σύγκλιση της περιοχής λύσης για το perceptron κατά την εκπαίδευσή του. Αμέσως μετά, ξεκίνησε έντονη έρευνα σε αυτόν τον τομέα και δημιουργήθηκε ο πρώτος νευροϋπολογιστής, ο Mark I, που διακρίνονται από το γεγονός ότι πολλά λεγόμενα κρυφά στρώματα νευρώνων βρίσκονται μεταξύ των δεδομένων εισόδου και εξόδου, προσθέτοντας περισσότερα μη γραμμικά. συνδέσεις με το μοντέλο. Ας εξετάσουμε τον σχεδιασμό του απλούστερου πολυεπίπεδου νευρωνικού δικτύου. Οποιοδήποτε νευρωνικό δίκτυο αποτελείται από στρώμα εισόδου και στρώμα εξόδου. Οι ανεξάρτητες και οι εξαρτημένες μεταβλητές παρουσιάζονται ανάλογα. Τα δεδομένα εισόδου μετασχηματίζονται από τους νευρώνες του δικτύου και συγκρίνονται με την έξοδο. Εάν η απόκλιση είναι μεγαλύτερη από μια δεδομένη, τότε τα βάρη των συνδέσεων μεταξύ των νευρώνων και οι τιμές κατωφλίου των νευρώνων αλλάζουν με ιδιαίτερο τρόπο. Η διαδικασία υπολογισμού της τιμής εξόδου και σύγκρισής της με το πρότυπο εμφανίζεται ξανά. Εάν οι αποκλίσεις είναι μικρότερες από το καθορισμένο σφάλμα, τότε η διαδικασία εκμάθησης σταματά. Εκτός από τα επίπεδα εισόδου και εξόδου σε ένα πολυστρωματικό δίκτυο, υπάρχουν τα λεγόμενα κρυφά στρώματα. Είναι νευρώνες που δεν έχουν άμεσες εισόδους των αρχικών δεδομένων, αλλά συνδέονται μόνο με τις εξόδους του στρώματος εισόδου και με την είσοδο του στρώματος εξόδου. Έτσι, τα κρυφά επίπεδα μετασχηματίζουν περαιτέρω πληροφορίες και προσθέτουν μη γραμμικότητα στο μοντέλο. Για να κατανοήσετε καλύτερα τη δομή ενός πολυστρωματικού perceptron, βλ. 5.

ΕΙΚΟΝΑ 5. Πολυστρωματικό Perceptron

Εάν ένα νευρωνικό δίκτυο μονού επιπέδου αντιμετωπίζει πολύ καλά προβλήματα ταξινόμησης, αφού το στρώμα εξόδου των νευρώνων συγκρίνει τις τιμές που ελήφθη από το προηγούμενο επίπεδο με ένα κατώφλι και παράγει μια τιμή είτε μηδέν, δηλαδή μικρότερη από το κατώφλι τιμή, ή ένα, περισσότερο από το όριο (για την περίπτωση μιας συνάρτησης εσωτερικού νευρώνα κατωφλίου) και δεν είναι ικανό να λύσει τα περισσότερα πρακτικά προβλήματα (που αποδείχθηκε από τους Minsky και Papert), τότε ένα πολυστρωματικό perceptron με συναρτήσεις σιγμοειδούς απόφασης είναι ικανό να προσεγγίσει οποιαδήποτε συναρτησιακή εξάρτηση (αυτό αποδείχθηκε με τη μορφή θεωρήματος). Αλλά την ίδια στιγμή, ούτε ο απαιτούμενος αριθμός επιπέδων, ούτε ο απαιτούμενος αριθμός κρυμμένων νευρώνων, ούτε ο χρόνος που απαιτείται για την εκπαίδευση του δικτύου είναι γνωστός. Αυτά τα προβλήματα εξακολουθούν να αντιμετωπίζουν ερευνητές και προγραμματιστές νευρωνικών δικτύων. Προσωπικά, μου φαίνεται ότι όλος ο ενθουσιασμός στη χρήση των νευρωνικών δικτύων βασίζεται ακριβώς στην απόδειξη αυτού του θεωρήματος. Η κατηγορία των επαναλαμβανόμενων νευρωνικών δικτύων είναι πολύ ευρύτερη και τα ίδια τα δίκτυα είναι πιο πολύπλοκα στο σχεδιασμό. Η συμπεριφορά των επαναλαμβανόμενων δικτύων περιγράφεται με διαφορικές εξισώσεις ή εξισώσεις διαφοράς, συνήθως πρώτης τάξης. Αυτό διευρύνει πολύ τους τομείς εφαρμογής των νευρωνικών δικτύων και τις μεθόδους εκπαίδευσής τους. Το δίκτυο είναι οργανωμένο έτσι ώστε κάθε νευρώνας να λαμβάνει είσοδο από άλλους νευρώνες, πιθανώς από τον εαυτό του και από το περιβάλλον. Αυτός ο τύπος δικτύου είναι σημαντικός επειδή μπορεί να χρησιμοποιηθεί για τη μοντελοποίηση μη γραμμικών δυναμικών συστημάτων. Μεταξύ των επαναλαμβανόμενων δικτύων μπορούμε να διακρίνουμε Δίκτυα Hopfield και δίκτυα Kohonen. Τα δίκτυα Hopfield μπορούν να χειριστούν μη ταξινομημένα (χειρόγραφα γράμματα), χρονικά (χρονικές σειρές) ή χωρικά διατεταγμένα (γραφήματα). Ένα επαναλαμβανόμενο νευρωνικό δίκτυο του απλούστερου τύπου εισήχθη από τον Hopfield και κατασκευάστηκε από Ν νευρώνες, καθένας συνδεδεμένος με όλους εκτός από τον εαυτό του, και όλοι οι νευρώνες εξάγονται. Το νευρωνικό δίκτυο Hopfield μπορεί να χρησιμοποιηθεί ως συσχετιστική μνήμη. Η αρχιτεκτονική του δικτύου Hopfield φαίνεται στην Εικ. 6.

ΕΙΚΟΝΑ 6. Αρχιτεκτονική δικτύου Hopfield

Το δίκτυο Kohonen ονομάζεται επίσης «αυτο-οργανωτικός χάρτης χαρακτηριστικών». Αυτός ο τύπος δικτύου έχει σχεδιαστεί για αυτομάθηση κατά τη διάρκεια της εκπαίδευσης, δεν είναι απαραίτητο να του πείτε τις σωστές απαντήσεις. Κατά τη διαδικασία εκπαίδευσης, διάφορα δείγματα τροφοδοτούνται στην είσοδο του δικτύου. Το δίκτυο καταγράφει τα χαρακτηριστικά της δομής τους και χωρίζει τα δείγματα σε συστάδες, και το ήδη εκπαιδευμένο δίκτυο αντιστοιχίζει κάθε νεοαφιχθέν παράδειγμα σε ένα από τα συμπλέγματα, καθοδηγούμενο από κάποιο κριτήριο «εγγύτητας». Το δίκτυο αποτελείται από ένα επίπεδο εισόδου και ένα επίπεδο εξόδου. Ο αριθμός των στοιχείων στο επίπεδο εξόδου καθορίζει άμεσα πόσα διαφορετικά συμπλέγματα μπορεί να αναγνωρίσει το δίκτυο. Κάθε ένα από τα στοιχεία εξόδου λαμβάνει ολόκληρο το διάνυσμα εισόδου ως είσοδο. Όπως σε κάθε νευρωνικό δίκτυο, σε κάθε σύνδεση εκχωρείται ένα ορισμένο συναπτικό βάρος. Στις περισσότερες περιπτώσεις, κάθε στοιχείο εξόδου συνδέεται επίσης με τους γείτονές του. Αυτές οι ενδοεπίπεδες συνδέσεις παίζουν σημαντικό ρόλο στη διαδικασία εκμάθησης, καθώς τα βάρη προσαρμόζονται μόνο κοντά στο στοιχείο που ανταποκρίνεται καλύτερα στην επόμενη είσοδο. Τα στοιχεία εξόδου ανταγωνίζονται μεταξύ τους για το δικαίωμα να μπουν σε δράση και να «πάρουν ένα μάθημα». Νικητής είναι αυτός του οποίου το διάνυσμα βάρους είναι πιο κοντά στο διάνυσμα εισόδου.

Εισαγωγή

Τεχνητά νευρωνικά δίκτυα (ANN)είναι κατασκευασμένα σύμφωνα με τις αρχές οργάνωσης και λειτουργίας των βιολογικών τους αναλόγων. Είναι σε θέση να λύσουν ένα ευρύ φάσμα προβλημάτων αναγνώρισης προτύπων, αναγνώρισης, πρόβλεψης, βελτιστοποίησης, διαχείρισης σύνθετα αντικείμενα. Περαιτέρω αυξήσεις στην απόδοση του υπολογιστή συνδέονται σε μεγάλο βαθμό με τα ANN, ιδιαίτερα με τους νευροϋπολογιστές (NCs), οι οποίοι βασίζονται σε ένα τεχνητό νευρωνικό δίκτυο.

Ο όρος «νευρωνικά δίκτυα» διαμορφώθηκε στα μέσα της δεκαετίας του '50 του 20ου αιώνα. Τα κύρια αποτελέσματα σε αυτόν τον τομέα συνδέονται με τα ονόματα των W. McCulloch, D. Hebb, F. Rosenblatt, M. Minsky, J. Hopfield. Ας κάνουμε μια σύντομη ιστορικές πληροφορίες.

1943 Οι W. McCulloch και W. Pitts πρότειναν ένα μοντέλο νευρώνα και διατύπωσαν τις βασικές αρχές της θεωρίας της λειτουργίας του εγκεφάλου.
1949 Ο D. Hebb εξέφρασε ιδέες σχετικά με τη φύση των συνδέσεων των νευρώνων του εγκεφάλου και την αλληλεπίδρασή τους (κυτταρικά συγκροτήματα, συναπτική πλαστικότητα). Για πρώτη φορά πρότεινε κανόνες για την εκπαίδευση ενός νευρωνικού δικτύου.
1957 Ο F. Rosenblatt ανέπτυξε τις αρχές οργάνωσης και λειτουργίας των perceptrons και πρότεινε μια παραλλαγή της τεχνικής υλοποίησης του πρώτου νευροϋπολογιστή Mark στον κόσμο.
1959 Οι D. Hubel και T. Wiesel έδειξαν την κατανεμημένη και παράλληλη φύση της αποθήκευσης και επεξεργασίας πληροφοριών σε βιολογικά νευρωνικά δίκτυα.
1960-1968 Ενεργή έρευνα στον τομέα των τεχνητών νευρωνικών δικτύων, για παράδειγμα, ADALINE και MADALINA του W. Widrow (1960-1962), συνειρμικοί πίνακες του K. Steinbuch (1961).
1969 Δημοσίευση του βιβλίου «Perceptrons» των M. Minsky και S. Papert, το οποίο αποδεικνύει τους θεμελιώδεις περιορισμούς των δυνατοτήτων των perceptrons. Εξασθένιση του ενδιαφέροντος για τα τεχνητά νευρωνικά δίκτυα.
1970-1976 Ενεργές εξελίξεις στον τομέα των perceptrons στην ΕΣΣΔ (οι κύριοι πελάτες είναι στρατιωτικά τμήματα).
Τέλη δεκαετίας του 1970 Το ανανεωμένο ενδιαφέρον για τα τεχνητά νευρωνικά δίκτυα είναι συνέπεια της συσσώρευσης νέων γνώσεων σχετικά με την εγκεφαλική δραστηριότητα, καθώς και της σημαντικής προόδου στον τομέα της μικροηλεκτρονικής και της τεχνολογίας υπολογιστών.
1982-1985 Ο J. Hopfield πρότεινε μια οικογένεια βελτιστοποιημένων νευρωνικών δικτύων που μοντελοποιούν τη συνειρμική μνήμη.
1985 Εμφάνιση των πρώτων εμπορικών νευροϋπολογιστών, για παράδειγμα, Mark III από την TRW (ΗΠΑ).
1987 Έναρξη μεγάλης κλίμακας χρηματοδότησης για τις εξελίξεις στον τομέα των ANN και NK στις ΗΠΑ, την Ιαπωνία και τη Δυτική Ευρώπη (το ιαπωνικό πρόγραμμα «Human Frontiers» και το ευρωπαϊκό πρόγραμμα «Basic Research in Adaptive Intelligence and Neurocomputing»).
1989 Η ανάπτυξη και η έρευνα στον τομέα των ANN και NDT πραγματοποιούνται από όλες σχεδόν τις μεγάλες εταιρείες ηλεκτρολόγων μηχανικών. Οι νευροϋπολογιστές γίνονται ένας από τους πιο δυναμικούς τομείς της αγοράς (οι πωλήσεις έχουν πενταπλασιαστεί μέσα σε δύο χρόνια). Η DARPA (Defense Advanced Research Projects Agency) του Υπουργείου Άμυνας των ΗΠΑ έχει αρχίσει να χρηματοδοτεί ένα πρόγραμμα για τη δημιουργία εξαιρετικά γρήγορων δειγμάτων NDT για ποικίλες εφαρμογές.
1990 Ενεργοποίηση Σοβιέτ ερευνητικούς οργανισμούςστον τομέα των ANN και NDT (Glushkov Institute of Cybernetics in Kyiv, Institute of Multiprocessor υπολογιστικά συστήματαστο Taganrog, Institute of Neurocybernetics στο Rostov-on-Don). Ο συνολικός αριθμός των εταιρειών που ειδικεύονται στον τομέα των INS και NK φτάνει τις τριακόσιες.
1991 Ο ετήσιος όγκος πωλήσεων στην αγορά INS και NK πλησίασε τα 140 εκατομμύρια δολάρια. Δημιουργούνται κέντρα νευροϋπολογιστών στη Μόσχα, το Κίεβο, το Μινσκ, το Νοβοσιμπίρσκ και την Αγία Πετρούπολη.
1992 Οι εργασίες στον τομέα του ANN βρίσκονται σε στάδιο εντατικής ανάπτυξης. Ντουζίνες διεθνή συνέδριακαι φόρουμ για νευρωνικά δίκτυα, ο αριθμός των εξειδικευμένων περιοδικών σχετικά με αυτό το θέμα έχει φτάσει τις δύο δωδεκάδες τίτλους.
1996 Ο αριθμός των διεθνών συνεδρίων για το ANN και το NDT έφτασε τα εκατό.
1997 Ο ετήσιος όγκος πωλήσεων στην αγορά INS και NK ξεπέρασε τα 2 δισεκατομμύρια δολάρια και η ετήσια αύξηση ήταν 50%.
2000 Η μετάβαση στις υπομικρές και τις νανοτεχνολογίες, καθώς και η πρόοδος στη μοριακή και βιομοριακή τεχνολογία οδηγούν σε θεμελιωδώς νέες αρχιτεκτονικές και τεχνολογικές λύσεις για τη δημιουργία νευροϋπολογιστών.

Η βαθιά μελέτη του ANN απαιτεί γνώση νευροφυσιολογίας, γνωστικής επιστήμης, ψυχολογίας, φυσικής (στατιστική μηχανική), θεωρία ελέγχου, υπολογιστική θεωρία, προβλήματα τεχνητή νοημοσύνη, στατιστικά/μαθηματικά, αναγνώριση προτύπων, υπολογιστική όραση, παράλληλος υπολογισμόςκαι υλικό (ψηφιακό και αναλογικό). Από την άλλη πλευρά, τα ANN τονώνουν επίσης αυτούς τους κλάδους παρέχοντάς τους νέα εργαλεία και γνώσεις. Αυτή η συμβίωση είναι ζωτικής σημασίας για τη μελέτη των νευρωνικών δικτύων.

Ας φανταστούμε κάποια προβλήματα που λύνονται από τεχνητά νευρωνικά δίκτυα

Ταξινόμηση εικόνων. Η εργασία είναι να υποδείξετε τη συμμετοχή της εικόνας εισόδου, που αντιπροσωπεύεται από ένα διάνυσμα χαρακτηριστικών, σε μία ή περισσότερες προκαθορισμένες κλάσεις. Αξιοσημείωτες εφαρμογές περιλαμβάνουν την αναγνώριση γραμμάτων, την αναγνώριση ομιλίας, την ταξινόμηση σήματος ηλεκτροκαρδιογραφήματος και την ταξινόμηση των κυττάρων του αίματος.

Ομαδοποίηση/κατηγοριοποίηση. Κατά την επίλυση ενός προβλήματος ομαδοποίησης, το οποίο είναι επίσης γνωστό ως ταξινόμηση εικόνων χωρίς επίβλεψη, δεν υπάρχει σετ εκπαίδευσης με ετικέτες κλάσεων. Ο αλγόριθμος ομαδοποίησης βασίζεται στην ομοιότητα εικόνων και τοποθετεί παρόμοιες εικόνες σε ένα σύμπλεγμα. Υπάρχουν γνωστές περιπτώσεις χρήσης ομαδοποίησης για την εξαγωγή γνώσης, τη συμπίεση δεδομένων και τη μελέτη ιδιοτήτων δεδομένων.

Προσέγγιση συνάρτησης.Ας υποθέσουμε ότι υπάρχει ένα δείγμα εκπαίδευσης ((X 1, Y 2), (X 2, Y 2),..., (X N, Y N)), το οποίο δημιουργείται από μια άγνωστη συνάρτηση παραμορφωμένη από το θόρυβο. Η εργασία προσέγγισης είναι να βρεθεί μια εκτίμηση αυτής της συνάρτησης.

Πρόβλεψη/Πρόβλεψη. Έστω N διακριτά δείγματα ( y (t 1), y (t 2),..., y(t n)) σε διαδοχικές χρονικές στιγμές t 1, t 2,..., t n. Η εργασία είναι να προβλέψουμε την τιμή του y(t n +1) τη στιγμή t n +1. Οι προβλέψεις έχουν σημαντικό αντίκτυπο στη λήψη αποφάσεων στις επιχειρήσεις, την επιστήμη και την τεχνολογία.

Βελτιστοποίηση. Πολλά προβλήματα στα μαθηματικά, τη στατιστική, τη μηχανική, την επιστήμη, την ιατρική και τα οικονομικά μπορούν να θεωρηθούν προβλήματα βελτιστοποίησης. Το πρόβλημα βελτιστοποίησης είναι να βρεθεί μια λύση που να ικανοποιεί το σύστημα των περιορισμών και να μεγιστοποιεί ή να ελαχιστοποιεί την αντικειμενική συνάρτηση.

Διευθυνσιοδοτούμενη μνήμη περιεχομένου.Στο υπολογιστικό μοντέλο von Neumann, η πρόσβαση στη μνήμη γίνεται μόνο μέσω μιας διεύθυνσης, η οποία είναι ανεξάρτητη από τα περιεχόμενα της μνήμης. Επιπλέον, εάν γίνει λάθος στον υπολογισμό της διεύθυνσης, ενδέχεται να βρεθούν εντελώς διαφορετικές πληροφορίες. Η πρόσβαση στη μνήμη με δυνατότητα διεύθυνσης περιεχομένου ή στη συσχετιστική μνήμη γίνεται όταν ορίζεται καθορισμένο περιεχόμενο. Τα περιεχόμενα της μνήμης μπορούν να ανακληθούν ακόμη και από μερικό ή παραμορφωμένο περιεχόμενο. Η συνειρμική μνήμη είναι εξαιρετικά επιθυμητή όταν δημιουργείται πολλά υποσχόμενα συστήματα πληροφοριών και υπολογιστών.

Ελεγχος. Ας σκεφτούμε δυναμικό σύστημα, καθορίζεται από το σύνολο (u(t), y(t)), όπου u(t) είναι η ενέργεια ελέγχου εισόδου και y(t) είναι η έξοδος του συστήματος τη στιγμή f. Σε συστήματα ελέγχου με μοντέλο αναφοράςΟ στόχος του ελέγχου είναι να υπολογιστεί η ενέργεια εισόδου u(f) έτσι ώστε το σύστημα να ακολουθεί την επιθυμητή τροχιά που υπαγορεύεται από το μοντέλο αναφοράς.

Πώς ένα νευρωνικό δίκτυο επιλύει όλες αυτές τις συχνά μη τυπικές ή δύσκολο να επισημοποιηθούν εργασίες; Όπως είναι γνωστό, δύο κύριες προσεγγίσεις χρησιμοποιούνται παραδοσιακά για την επίλυση τέτοιων προβλημάτων. Το πρώτο, που βασίζεται σε κανόνες, είναι τυπικό για έμπειρα συστήματα. Βασίζεται σε μια περιγραφή της θεματικής περιοχής με τη μορφή ενός συνόλου κανόνων (αξιωμάτων) «εάν..., τότε...» και κανόνων συμπερασμάτων. Η αναζητούμενη γνώση αναπαρίσταται στην περίπτωση αυτή ως θεώρημα, η αλήθεια του οποίου αποδεικνύεται με την κατασκευή μιας αλυσίδας συμπερασμάτων. Με αυτήν την προσέγγιση, ωστόσο, είναι απαραίτητο να γνωρίζουμε εκ των προτέρων ολόκληρο το σύνολο των νόμων που περιγράφουν θεματική ενότητα. Όταν χρησιμοποιείτε μια άλλη προσέγγιση, βασισμένη σε περιπτώσεις, χρειάζεται απλώς να έχετε επαρκή αριθμό παραδειγμάτων για να διαμορφώσετε το προσαρμοστικό σύστημα με δεδομένο βαθμό εμπιστοσύνης. Τα νευρωνικά δίκτυα είναι ένα κλασικό παράδειγμα αυτής της προσέγγισης.

ΒΑΣΙΚΕΣ ΔΙΑΤΑΞΕΙΣ ΤΗΣ ΘΕΩΡΙΑΣ ΤΩΝ ΤΕΧΝΙΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ

Τα νευρωνικά δίκτυα είναι υπολογιστικές δομές που μοντελοποιούν απλές βιολογικές διαδικασίες που συνήθως συνδέονται με ανθρώπινος εγκέφαλος. Διανέμονται και παράλληλα συστήματα, ικανό για προσαρμοστική μάθηση αναλύοντας θετικές και αρνητικές επιρροές. Ο στοιχειώδης μετατροπέας σε αυτά τα δίκτυα είναι ένας τεχνητός νευρώνας ή απλά ένας νευρώνας, που ονομάζεται έτσι κατ' αναλογία με το βιολογικό του πρωτότυπο.

Βιολογικός νευρώνας

Το ανθρώπινο νευρικό σύστημα και ο εγκέφαλος αποτελούνται από νευρώνες που συνδέονται με νευρικές ίνες. Οι νευρικές ίνες είναι ικανές να μεταδίδουν ηλεκτρικά ερεθίσματα μεταξύ των νευρώνων. Όλες οι διαδικασίες μετάδοσης ερεθισμών από το δέρμα, τα αυτιά και τα μάτια στον εγκέφαλο, διαδικασίες σκέψης και ελέγχου των ενεργειών - όλα αυτά υλοποιούνται σε έναν ζωντανό οργανισμό ως η μετάδοση ηλεκτρικών ερεθισμάτων μεταξύ των νευρώνων.

Νευρώνας(νευρικό κύτταρο) είναι ένα ειδικό βιολογικό κύτταρο που επεξεργάζεται πληροφορίες (Εικ. 1.). Αποτελείται απο σώμα(κυτταρικό σώμα), ή soms(soma) και διεργασίες νευρικών ινών δύο τύπων - δενδρίτες(δενδρίτες) κατά μήκος των οποίων λαμβάνονται ωθήσεις, και το μόνο άξονας(άξο n), μέσω του οποίου ο νευρώνας μπορεί να μεταδώσει μια ώθηση. Το σώμα του νευρώνα περιλαμβάνει πυρήνας(πυρήνας), που περιέχει πληροφορίες για κληρονομικές ιδιότητες, και πλάσμα αίματος, που έχει τα μοριακά μέσα για να παράγει τα υλικά που είναι απαραίτητα για τον νευρώνα. Ένας νευρώνας λαμβάνει σήματα (παρορμήσεις) από τους άξονες άλλων νευρώνων μέσω δενδριτών (δέκτες) και μεταδίδει σήματα που παράγονται από το σώμα του κυττάρου κατά μήκος του άξονα του (πομπός), ο οποίος στο τέλος διακλαδίζεται σε ίνες (κλώνοι). Στα άκρα αυτών των ινών υπάρχουν ειδικοί σχηματισμοί - συνάψεις, που επηρεάζουν το μέγεθος των παλμών.

Ρύζι. 1. Διασύνδεση βιολογικών νευρώνων

Μια σύναψη είναι μια στοιχειώδης δομή και λειτουργική μονάδα μεταξύ δύο νευρώνων (μια ίνα άξονα ενός νευρώνα και ένας δενδρίτης ενός άλλου). Όταν η ώθηση φτάσει στο συναπτικό τερματικό, απελευθερώνονται ΧΗΜΙΚΕΣ ΟΥΣΙΕΣ, που ονομάζονται νευροδιαβιβαστές. Οι νευροδιαβιβαστές διαχέονται κατά μήκος της συναπτικής σχισμής, διεγείροντας ή αναστέλλοντας, ανάλογα με τον τύπο της σύναψης, την ικανότητα του νευρώνα δέκτη να παράγει ηλεκτρικά ερεθίσματα. Η αποτελεσματικότητα της μετάδοσης παλμών από μια σύναψη μπορεί να συντονιστεί από τα σήματα που διέρχονται από αυτήν, έτσι ώστε οι συνάψεις να μπορούν να μάθουν ανάλογα με τη δραστηριότητα των διαδικασιών στις οποίες συμμετέχουν. Αυτή η εξάρτηση από το υπόβαθρο λειτουργεί ως μνήμη, η οποία είναι πιθανώς υπεύθυνη για την ανθρώπινη μνήμη. Είναι σημαντικό να σημειωθεί ότι τα βάρη των συνάψεων μπορούν να αλλάξουν με την πάροδο του χρόνου, πράγμα που σημαίνει ότι αλλάζει και η συμπεριφορά των αντίστοιχων νευρώνων.

Ο ανθρώπινος εγκεφαλικός φλοιός περιέχει περίπου 1011 νευρώνες και είναι μια εκτεταμένη επιφάνεια με πάχος 2 έως 3 mm με εμβαδόν περίπου 2200 cm 2. Κάθε νευρώνας συνδέεται με 103-104 άλλους νευρώνες. Συνολικά, ο ανθρώπινος εγκέφαλος περιέχει περίπου 1014 έως 1015 συνδέσεις.

Οι νευρώνες επικοινωνούν σε σύντομες εκρήξεις παλμών που διαρκούν συνήθως μερικά χιλιοστά του δευτερολέπτου. Το μήνυμα μεταδίδεται χρησιμοποιώντας διαμόρφωση συχνότητας παλμού. Η συχνότητα μπορεί να ποικίλλει από μερικά hertz έως εκατοντάδες hertz, η οποία είναι ένα εκατομμύριο φορές πιο αργή από την εναλλαγή υψηλής ταχύτητας ηλεκτρονικά κυκλώματα. Ωστόσο, ένα άτομο λύνει σύνθετα προβλήματα αναγνώρισης σε μερικές εκατοντάδες χιλιοστά του δευτερολέπτου. Αυτές οι αποφάσεις ελέγχονται από ένα δίκτυο νευρώνων που έχουν ταχύτητα μόλις λίγων χιλιοστών του δευτερολέπτου. Αυτό σημαίνει ότι ο υπολογισμός δεν απαιτεί περισσότερα από 100 διαδοχικά στάδια. Με άλλα λόγια, για τόσο πολύπλοκες εργασίες, ο εγκέφαλος «πυροδοτεί» παράλληλα προγράμματα, που περιέχει περίπου 100 βήματα. Συλλογίζοντας με παρόμοιο τρόπο, μπορεί κανείς να διαπιστώσει ότι η ποσότητα των πληροφοριών που αποστέλλονται από τον έναν νευρώνα στον άλλο πρέπει να είναι πολύ μικρός (μερικά bit). Από αυτό προκύπτει ότι οι κύριες πληροφορίες δεν μεταδίδονται άμεσα, αλλά συλλαμβάνονται και διανέμονται σε συνδέσεις μεταξύ των νευρώνων.

Δομή και ιδιότητες ενός τεχνητού νευρώνα

Ένας νευρώνας είναι αναπόσπαστο μέρος ενός νευρωνικού δικτύου. Στο Σχ. 2 δείχνει τη δομή του. Αποτελείται από τρία είδη στοιχείων: πολλαπλασιαστές (συνάψεις), έναν αθροιστή και έναν μη γραμμικό μετατροπέα. Οι συνάψεις επικοινωνούν μεταξύ των νευρώνων και πολλαπλασιάζουν το σήμα εισόδου με έναν αριθμό που χαρακτηρίζει την ισχύ της σύνδεσης (το βάρος της συνάψεως). Ο αθροιστής εκτελεί την προσθήκη σημάτων που φτάνουν μέσω συναπτικών συνδέσεων από άλλους νευρώνες και εξωτερικά σήματα εισόδου. Ένας μη γραμμικός μετατροπέας υλοποιεί μια μη γραμμική συνάρτηση ενός ορίσματος - την έξοδο του αθροιστή. Αυτή η λειτουργία ονομάζεται συνάρτηση ενεργοποίησης ή συνάρτηση μεταφοράς του νευρώνα.

Ρύζι. 2. Δομή τεχνητού νευρώνα

Ο νευρώνας ως σύνολο υλοποιεί μια βαθμωτή συνάρτηση ενός διανυσματικού ορίσματος. Μαθηματικό μοντέλο νευρώνα:

όπου w i, είναι το βάρος της συνάψεως, i = 1...n; β - τιμή μεροληψίας. s - αποτέλεσμα άθροισης (άθροισμα). x, - συνιστώσα του διανύσματος εισόδου (σήμα εισόδου), x i = 1... n ; Το y είναι το σήμα εξόδου του νευρώνα. n είναι ο αριθμός των εισόδων νευρώνων. f - μη γραμμικός μετασχηματισμός (συνάρτηση ενεργοποίησης).

Γενικά, το σήμα εισόδου, οι συντελεστές στάθμισης και η μετατόπιση μπορούν να λάβουν πραγματικές τιμές, και σε πολλές πρακτικά προβλήματα- μόνο ορισμένες σταθερές τιμές. Η έξοδος (y) καθορίζεται από τον τύπο της συνάρτησης ενεργοποίησης και μπορεί να είναι είτε πραγματική είτε ακέραιος.

Οι συναπτικές συνδέσεις με θετικά βάρη ονομάζονται συναρπαστικός, με αρνητικά βάρη - ανασταλτικός.

Το περιγραφόμενο υπολογιστικό στοιχείο μπορεί να θεωρηθεί απλοποιημένο μαθηματικό μοντέλοβιολογικοί νευρώνες. Για να τονιστεί η διαφορά μεταξύ βιολογικών και τεχνητών νευρώνων, οι τελευταίοι μερικές φορές ονομάζονται στοιχεία που μοιάζουν με νευρώνες ή τυπικοί νευρώνες.

Ο μη γραμμικός μετατροπέας αποκρίνεται στο σήμα εισόδου με ένα σήμα εξόδου f(s), το οποίο είναι η έξοδος του νευρώνα. Παραδείγματα συναρτήσεων ενεργοποίησης παρουσιάζονται στον πίνακα. 1. και στο Σχ. 3.

Τραπέζι 1

Ρύζι. 3. Παραδείγματα συναρτήσεων ενεργοποίησης
α είναι η συνάρτηση ενός απλού άλματος. β - γραμμικό κατώφλι (υστέρηση).
γ - σιγμοειδές (λογιστική συνάρτηση). z - σιγμοειδές (υπερβολική εφαπτομένη)

Μία από τις πιο κοινές είναι η μη γραμμική συνάρτηση ενεργοποίησης με κορεσμό, η λεγόμενη λογιστική συνάρτηση ή σιγμοειδές (συνάρτηση σχήματος S):

Πρέπει να σημειωθεί ότι η σιγμοειδής συνάρτηση είναι διαφοροποιήσιμη κατά μήκος ολόκληρου του άξονα x, η οποία χρησιμοποιείται σε ορισμένους αλγόριθμους εκμάθησης. Επιπλέον, έχει την ιδιότητα να ενισχύει αδύναμα σήματακαλύτερα από τα μεγάλα και αποτρέπει τον κορεσμό από μεγάλα σήματα αφού αντιστοιχούν σε περιοχές ορίσματος όπου το σιγμοειδές έχει ρηχή κλίση.

Ταξινόμηση των νευρωνικών δικτύων και οι ιδιότητές τους

Ένα νευρωνικό δίκτυο είναι μια συλλογή στοιχείων που μοιάζουν με νευρώνες που συνδέονται με συγκεκριμένο τρόπο μεταξύ τους και με το εξωτερικό περιβάλλον χρησιμοποιώντας συνδέσεις που καθορίζονται από συντελεστές στάθμισης. Ανάλογα με τις λειτουργίες που εκτελούν οι νευρώνες στο δίκτυο, διακρίνονται τρεις τύποι:

νευρώνες εισόδου, στο οποίο παρέχεται ένα διάνυσμα που κωδικοποιεί την επίδραση εισόδου ή την εικόνα του εξωτερικού περιβάλλοντος. Συνήθως δεν εκτελούν υπολογιστικές διαδικασίες και οι πληροφορίες μεταφέρονται από είσοδο σε έξοδο αλλάζοντας την ενεργοποίησή τους.
νευρώνες εξόδου, των οποίων οι τιμές εξόδου αντιπροσωπεύουν τις εξόδους του νευρωνικού δικτύου. οι μετασχηματισμοί σε αυτά πραγματοποιούνται σύμφωνα με τις εκφράσεις (1.1) και (1.2).
ενδονευρώνες, που αποτελούν τη βάση των νευρωνικών δικτύων, μετασχηματισμοί στα οποία εκτελούνται επίσης σύμφωνα με τις εκφράσεις (1.1) και (1.2).

Στα περισσότερα νευρωνικά μοντέλα, ο τύπος του νευρώνα σχετίζεται με τη θέση του στο δίκτυο. Εάν ένας νευρώνας έχει μόνο συνδέσεις εξόδου, τότε είναι νευρώνας εισόδου εάν, αντίθετα, είναι νευρώνας εξόδου. Ωστόσο, μια σειρά είναι δυνατή όταν η έξοδος ενός τοπολογικά εσωτερικού νευρώνα θεωρείται ως μέρος της εξόδου του δικτύου. Κατά τη λειτουργία του δικτύου, το διάνυσμα εισόδου μετατρέπεται σε διάνυσμα εξόδου και πραγματοποιείται κάποια επεξεργασία πληροφοριών. Ο συγκεκριμένος τύπος μετασχηματισμού δεδομένων που εκτελείται από το δίκτυο καθορίζεται όχι μόνο από τα χαρακτηριστικά των στοιχείων που μοιάζουν με νευρώνες, αλλά και από τα χαρακτηριστικά της αρχιτεκτονικής του, δηλαδή την τοπολογία των συνδέσεων μεταξύ των νευρώνων, την επιλογή ορισμένων υποσυνόλων στοιχείων που μοιάζουν με νευρώνες για εισαγωγή και έξοδος πληροφοριών, μέθοδοι εκπαίδευσης του δικτύου, παρουσία ή απουσία ανταγωνισμού μεταξύ νευρώνων, κατεύθυνση και μέθοδοι έλεγχος και συγχρονισμός της μεταφοράς πληροφοριών μεταξύ νευρώνων.

Από τοπολογική άποψη, μπορούν να διακριθούν τρεις κύριοι τύποι νευρωνικών δικτύων:

Πλήρως συνδεδεμένο (Εικ. 4, α).
πολυστρωματικό ή πολυεπίπεδο (Εικ. 4, β).
ασθενώς συνδεδεμένο (με τοπικές συνδέσεις) (Εικ. 4, γ).

Ρύζι. 4. Αρχιτεκτονικές νευρωνικών δικτύων:
α - πλήρως συνδεδεμένο δίκτυο, β - δίκτυο πολλαπλών επιπέδων με διαδοχικές συνδέσεις, γ - χαλαρά συνδεδεμένα δίκτυα

ΣΕ πλήρως συνδεδεμένα νευρωνικά δίκτυακάθε νευρώνας μεταδίδει το σήμα εξόδου του σε άλλους νευρώνες, συμπεριλαμβανομένου του εαυτού του. Όλα τα σήματα εισόδου δίνονται σε όλους τους νευρώνες. Τα σήματα εξόδου του δικτύου μπορεί να είναι όλα ή μερικά από τα σήματα εξόδου των νευρώνων μετά από αρκετούς κύκλους λειτουργίας του δικτύου.

ΣΕ πολυστρωματικά νευρωνικά δίκτυαοι νευρώνες συνδυάζονται σε στρώματα. Το στρώμα περιέχει μια συλλογή νευρώνων με κοινά σήματα εισόδου. Ο αριθμός των νευρώνων σε ένα στρώμα μπορεί να είναι οποιοσδήποτε και δεν εξαρτάται από τον αριθμό των νευρώνων σε άλλα στρώματα. Γενικά, το δίκτυο αποτελείται από επίπεδα Q, αριθμημένα από αριστερά προς τα δεξιά. Τα εξωτερικά σήματα εισόδου τροφοδοτούνται στις εισόδους των νευρώνων στο στρώμα εισόδου (συχνά αριθμούνται με μηδέν) και οι έξοδοι του δικτύου είναι τα σήματα εξόδου του τελευταίου στρώματος. Εκτός από τα επίπεδα εισόδου και εξόδου, ένα πολυστρωματικό νευρωνικό δίκτυο έχει ένα ή περισσότερα κρυφά επίπεδα. Οι συνδέσεις από τις εξόδους των νευρώνων ενός συγκεκριμένου στρώματος q με τις εισόδους των νευρώνων του επόμενου στρώματος (q +1) ονομάζονται σειριακές.

Με τη σειρά τους, μεταξύ των πολυστρωματικών νευρωνικών δικτύων διακρίνονται οι ακόλουθοι τύποι.

1) Μονότονο.Αυτή είναι μια ειδική περίπτωση πολυεπίπεδων δικτύων με πρόσθετες προϋποθέσειςσε συνδέσεις και νευρώνες. Κάθε στρώμα εκτός από το τελευταίο (έξοδος) χωρίζεται σε δύο μπλοκ: διεγερτικό και ανασταλτικό. Οι συνδέσεις μεταξύ των μπλοκ διακρίνονται επίσης σε ανασταλτικές και διεγερτικές. Εάν μόνο διεγερτικές συνδέσεις οδηγούν από τους νευρώνες του μπλοκ Α στους νευρώνες του μπλοκ Β, τότε αυτό σημαίνει ότι οποιοδήποτε σήμα εξόδου του μπλοκ είναι μια μονότονη μη αυξανόμενη συνάρτηση οποιουδήποτε σήματος εξόδου του μπλοκ Α. Εάν αυτές οι συνδέσεις είναι μόνο ανασταλτικές, τότε οποιοδήποτε σήμα εξόδου του μπλοκ Β είναι μια μη αυξανόμενη συνάρτηση οποιουδήποτε σήματος εξόδου του μπλοκ Α. Για νευρώνες μονοτονικών δικτύων, απαιτείται μονοτονική εξάρτηση του σήματος εξόδου νευρώνων από τις παραμέτρους των σημάτων εισόδου.

2) Δίκτυα χωρίς ανάδραση.Σε τέτοια δίκτυα, οι νευρώνες στο επίπεδο εισόδου λαμβάνουν σήματα εισόδου, τα μετατρέπουν και τα μεταδίδουν στους νευρώνες του πρώτου κρυφού στρώματος και ούτω καθεξής μέχρι το επίπεδο εξόδου, το οποίο παράγει σήματα για τον διερμηνέα και τον χρήστη. Εκτός εάν ορίζεται διαφορετικά, κάθε σήμα εξόδου του qth στρώματος θα τροφοδοτείται στην είσοδο όλων των νευρώνων του (q+1) στρώματος. Ωστόσο, είναι δυνατή η σύνδεση του qth layer με ένα αυθαίρετο (q+p)th layer.

Μεταξύ δικτύων πολλαπλών επιπέδων χωρίς ανάδραση, γίνεται διάκριση μεταξύ πλήρως συνδεδεμένου (η έξοδος κάθε νευρώνα του qth στρώματος συνδέεται με την είσοδο κάθε νευρώνα του στρώματος (q+1)) και μερικώς πλήρως συνδεδεμένου. Κλασική επιλογήΤα πολυεπίπεδα δίκτυα είναι πλήρως συνδεδεμένα δίκτυα προώθησης τροφοδοσίας (Εικ. 5).

Ρύζι. 5. Δίκτυο προώθησης πολλαπλών επιπέδων (δύο στρώσεων).

3) Δίκτυα με ανατροφοδότηση . Σε δίκτυα με ανάδραση, πληροφορίες από τα επόμενα επίπεδα μεταδίδονται σε προηγούμενα. Μεταξύ αυτών, με τη σειρά τους, διακρίνονται τα ακόλουθα:

Επίπεδο-κυκλικό, που χαρακτηρίζεται από το ότι τα στρώματα είναι κλειστά σε έναν δακτύλιο: το τελευταίο στρώμα μεταδίδει τα σήματα εξόδου του στο πρώτο. όλα τα επίπεδα έχουν ίσα δικαιώματα και μπορούν να λαμβάνουν σήματα εισόδου και να παράγουν σήματα εξόδου.
Το layered-fully συνδεδεμένο αποτελείται από επίπεδα, καθένα από τα οποία αντιπροσωπεύει ένα πλήρως συνδεδεμένο δίκτυο και τα σήματα μεταδίδονται τόσο από επίπεδο σε επίπεδο όσο και εντός του επιπέδου. Σε κάθε επίπεδο, ο κύκλος εργασίας χωρίζεται σε τρία μέρη: λήψη σημάτων από το προηγούμενο στρώμα, ανταλλαγή σημάτων εντός του στρώματος, παραγωγή σήματος εξόδου και μετάδοση στο επόμενο στρώμα.
Πλήρως συνδεδεμένο-επίπεδο, παρόμοια στη δομή με τα πολυεπίπεδα πλήρως συνδεδεμένα, αλλά λειτουργούν διαφορετικά: δεν διαχωρίζουν τις φάσεις ανταλλαγής μέσα σε ένα στρώμα και μετάδοσης στο επόμενο σε κάθε κύκλο ρολογιού, οι νευρώνες όλων των στρωμάτων λαμβάνουν σήματα από τους νευρώνες τόσο του δικού τους στρώματος όσο και των επόμενων.

Ως παράδειγμα δικτύων με ανάδραση στο Σχ. Το σχήμα 6 δείχνει μερικώς επαναλαμβανόμενα δίκτυα Elman και Jordan.

Ρύζι. 6. Μερικώς επαναλαμβανόμενα δίκτυα: a - Elman, b - Jordan

Σε χαλαρά συνδεδεμένα νευρωνικά δίκτυαοι νευρώνες βρίσκονται στους κόμβους ενός ορθογώνιου ή εξαγωνικού πλέγματος. Κάθε νευρώνας συνδέεται με τέσσερις (γειτονιά von Neumann), έξι (γειτονιά Golay) ή οκτώ (γειτονιά Moore) από τους πλησιέστερους γείτονές του.

Τα γνωστά νευρωνικά δίκτυα μπορούν να χωριστούν ανάλογα με τους τύπους των δομών των νευρώνων σε ομοιογενή (ομογενή) και ετερογενή. Τα ομογενή δίκτυα αποτελούνται από νευρώνες του ίδιου τύπου με μία μόνο συνάρτηση ενεργοποίησης, ενώ ένα ετερογενές δίκτυο περιλαμβάνει νευρώνες με διάφορες λειτουργίεςδραστηριοποίηση.

Υπάρχουν δυαδικά και αναλογικά δίκτυα. Το πρώτο από αυτά λειτουργεί μόνο με δυαδικά σήματα και η έξοδος κάθε νευρώνα μπορεί να πάρει την τιμή είτε ενός λογικού μηδενός (αναστολή κατάσταση) είτε ενός λογικού ενός (διεγερμένη κατάσταση).

Μια άλλη ταξινόμηση χωρίζει τα νευρωνικά δίκτυα σε σύγχρονα και ασύγχρονα. Στην πρώτη περίπτωση, σε κάθε στιγμή, μόνο ένας νευρώνας αλλάζει την κατάστασή του, στη δεύτερη, η κατάσταση αλλάζει αμέσως σε μια ολόκληρη ομάδα νευρώνων, κατά κανόνα, σε ολόκληρο το στρώμα. Αλγοριθμικά, το πέρασμα του χρόνου στα νευρωνικά δίκτυα καθορίζεται από την επαναληπτική εκτέλεση παρόμοιων ενεργειών στους νευρώνες. Στη συνέχεια, θα ληφθούν υπόψη μόνο τα σύγχρονα δίκτυα.

Τα δίκτυα μπορούν επίσης να ταξινομηθούν με βάση τον αριθμό των επιπέδων. Θεωρητικά, ο αριθμός των επιπέδων και ο αριθμός των νευρώνων σε κάθε επίπεδο μπορεί να είναι αυθαίρετοι, αλλά στην πραγματικότητα περιορίζεται από τους πόρους του υπολογιστή ή τα εξειδικευμένα τσιπ στα οποία συνήθως υλοποιείται το νευρωνικό δίκτυο. Πως πιο πολύπλοκο δίκτυο, τόσο πιο σύνθετα προβλήματα μπορεί να λύσει.

Η επιλογή της δομής του νευρωνικού δικτύου πραγματοποιείται σύμφωνα με τα χαρακτηριστικά και την πολυπλοκότητα της εργασίας. Για την επίλυση ορισμένων τύπων προβλημάτων, υπάρχουν ήδη βέλτιστες διαμορφώσεις που περιγράφονται στο παράρτημα. Εάν το πρόβλημα δεν μπορεί να περιοριστεί σε κάποιον από τους γνωστούς τύπους, πρέπει να λυθεί το περίπλοκο πρόβλημα της σύνθεσης μιας νέας διαμόρφωσης. Σε αυτήν την περίπτωση, πρέπει να καθοδηγηθείτε από τους ακόλουθους βασικούς κανόνες:

Οι δυνατότητες του δικτύου αυξάνονται με τον αριθμό των νευρώνων στο δίκτυο, την πυκνότητα των συνδέσεων μεταξύ τους και τον αριθμό των επιπέδων.
Η εισαγωγή συνδέσεων ανάδρασης μαζί με την αύξηση των δυνατοτήτων του δικτύου εγείρει το ζήτημα της δυναμικής σταθερότητας του δικτύου.
Η πολυπλοκότητα των αλγορίθμων λειτουργίας του δικτύου και η εισαγωγή αρκετών τύπων συνάψεων συμβάλλουν στην ενίσχυση της ισχύος του νευρωνικού δικτύου.

Το ζήτημα των απαραίτητων και επαρκών ιδιοτήτων ενός δικτύου για την επίλυση προβλημάτων του ενός ή του άλλου είδους αντιπροσωπεύει έναν ολόκληρο τομέα της επιστήμης νευροϋπολογιστών. Δεδομένου ότι το πρόβλημα της σύνθεσης νευρωνικών δικτύων εξαρτάται σε μεγάλο βαθμό από το πρόβλημα που επιλύεται, δώστε γενικά λεπτομερείς συστάσειςδύσκολος. Στις περισσότερες περιπτώσεις καλύτερη επιλογήλαμβάνεται με βάση μια διαισθητική επιλογή, αν και η βιβλιογραφία παρέχει στοιχεία ότι για οποιονδήποτε αλγόριθμο υπάρχει ένα νευρωνικό δίκτυο που μπορεί να τον εφαρμόσει. Ας το δούμε αυτό με περισσότερες λεπτομέρειες.

Πολλά προβλήματα αναγνώρισης εικόνας (οπτική, ομιλία), εκτέλεση λειτουργικών μετασχηματισμών κατά την επεξεργασία σήματος, έλεγχος, πρόβλεψη και αναγνώριση σύνθετων συστημάτων περιορίζονται στην ακόλουθη μαθηματική διατύπωση. Είναι απαραίτητο να κατασκευαστεί μια αντιστοίχιση X -> Y έτσι ώστε για κάθε πιθανό σήμα εισόδου X να παράγεται ένα σωστό σήμα εξόδου Η αντιστοίχιση καθορίζεται από ένα πεπερασμένο σύνολο ζευγών (.<вход>, <известный выход>). Ο αριθμός αυτών των ζευγών (παραδείγματα εκπαίδευσης) είναι σημαντικά μικρότερος από τον συνολικό αριθμό πιθανών συνδυασμών τιμών σήματος εισόδου και εξόδου. Το σύνολο όλων των παραδειγμάτων εκπαίδευσης ονομάζεται σύνολο εκπαίδευσης.

ΣΕ εργασίες αναγνώρισης προτύπωνΤο X είναι κάποια αναπαράσταση της εικόνας (εικόνα, διάνυσμα), το Y είναι ο αριθμός της κλάσης στην οποία ανήκει η εικόνα εισόδου.

ΣΕ καθήκοντα διαχείρισηςΤο X είναι ένα σύνολο ελεγχόμενων παραμέτρων του ελεγχόμενου αντικειμένου, το Y είναι ένας κωδικός που καθορίζει την ενέργεια ελέγχου που αντιστοιχεί στις τρέχουσες τιμές των ελεγχόμενων παραμέτρων.

ΣΕ προβλήματα πρόβλεψηςΩς σήματα εισόδου χρησιμοποιούνται χρονοσειρές που αντιπροσωπεύουν τις τιμές των ελεγχόμενων μεταβλητών σε ένα συγκεκριμένο χρονικό διάστημα. Το σήμα εξόδου είναι ένα σύνολο μεταβλητών που είναι ένα υποσύνολο των μεταβλητών του σήματος εισόδου.

Στην αναγνώριση, τα Χ και Υ αντιπροσωπεύουν τα σήματα εισόδου και εξόδου του συστήματος, αντίστοιχα.

Σε γενικές γραμμές, τα περισσότερα εφαρμοσμένα προβλήματα μπορούν να περιοριστούν στην υλοποίηση κάποιου πολύπλοκου λειτουργικού πολυδιάστατου μετασχηματισμού.
Ως αποτέλεσμα της αντιστοίχισης X -> Y, είναι απαραίτητο να διασφαλιστεί ο σχηματισμός των σωστών σημάτων εξόδου σύμφωνα με:
με όλα τα παραδείγματα του σετ εκπαίδευσης.
με όλα τα πιθανά σήματα εισόδου που δεν περιλαμβάνονταν στο σετ εκπαίδευσης.

Η δεύτερη απαίτηση περιπλέκει πολύ το έργο της διαμόρφωσης ενός δείγματος εκπαίδευσης. Γενικά, αυτό το πρόβλημα δεν έχει ακόμη λυθεί, αλλά σε όλες τις γνωστές περιπτώσεις μπορεί να βρεθεί μια συγκεκριμένη λύση.

Θεώρημα Kolmogorov-Arnold

Για να δημιουργήσετε μια πολυδιάστατη χαρτογράφηση X -> Y - αυτό σημαίνει ότι θα την αναπαραστήσετε χρησιμοποιώντας μαθηματικές πράξειςσε όχι περισσότερες από δύο μεταβλητές.

Το πρόβλημα της αναπαράστασης συναρτήσεων πολλών μεταβλητών ως υπέρθεση συναρτήσεων λιγότερων μεταβλητών ανάγεται στο 13ο πρόβλημα του Hilbert. Ως αποτέλεσμα πολλών ετών επιστημονικής διαμάχης μεταξύ του A. N. Kolmogorov και του V. I. Arnold, προέκυψαν ορισμένα σημαντικά θεωρητικά αποτελέσματα που αντικρούουν τη θέση της μη αναπαραστασιμότητας της λειτουργίας πολλών συναρτήσεις μεταβλητώνλιγότερες μεταβλητές:

Θεώρημα για τη δυνατότητα αναπαράστασης συνεχών συναρτήσεων πολλών μεταβλητών με υπερθέσεις συνεχών συναρτήσεων μικρότερου αριθμού μεταβλητών (1956).
το θεώρημα για την αναπαράσταση οποιασδήποτε συνεχούς συνάρτησης τριών μεταβλητών ως άθροισμα συναρτήσεων δύο το πολύ μεταβλητών (1957).
ένα θεώρημα για την αναπαράσταση συνεχών συναρτήσεων πολλών μεταβλητών ως υπερθέσεις συνεχών συναρτήσεων μιας μεταβλητής και πρόσθεση (1957).

Το έργο του Hecht-Nielsen

Το θεώρημα για την αναπαράσταση συνεχών συναρτήσεων πολλών μεταβλητών ως υπερθέσεις συνεχών συναρτήσεων μιας μεταβλητής και προσθήκης μεταφράστηκε το 1987 από τον Hecht-Nielsen για τα νευρωνικά δίκτυα.

Το θεώρημα Hecht-Nielsen αποδεικνύει επαρκώς την αναπαραστασιμότητα μιας συνάρτησης πολλών μεταβλητών γενική εικόναχρησιμοποιώντας ένα νευρωνικό δίκτυο δύο επιπέδων με άμεσο πλήρεις συνδέσειςμε n νευρώνες του στρώματος εισόδου, (2 n +1) νευρώνες του κρυφού στρώματος με προηγουμένως γνωστές περιορισμένες συναρτήσεις ενεργοποίησης (για παράδειγμα, σιγμοειδείς) και m νευρώνες του στρώματος εξόδου με άγνωστες συναρτήσεις ενεργοποίησης.

Το θεώρημα, επομένως, σε μη εποικοδομητική μορφή αποδεικνύει τη δυνατότητα επίλυσης του προβλήματος της αναπαράστασης μιας συνάρτησης αυθαίρετου τύπου σε ένα νευρωνικό δίκτυο και υποδεικνύει για κάθε πρόβλημα τον ελάχιστο αριθμό νευρώνων στο δίκτυο που απαιτείται για την επίλυσή του.

Συμπεράσματα από το θεώρημα Kolmogorov-Arnold-Hecht-Nielsen

Συμπέρασμα 1. Από το θεώρημα Hecht-Nielsen προκύπτει ότι οποιαδήποτε πολυδιάστατη συνάρτηση πολλών μεταβλητών μπορεί να αναπαρασταθεί από ένα νευρωνικό δίκτυο σταθερής διάστασης. Τα ακόλουθα χαρακτηριστικά των λειτουργιών νευρωνικής ενεργοποίησης παραμένουν άγνωστα:

Περιορισμοί του εύρους τιμών (συντεταγμένες ασυμπτωμάτων) σιγμοειδών συναρτήσεων ενεργοποίησης νευρώνων κρυφού στρώματος.
κλίση σιγμοειδών συναρτήσεων ενεργοποίησης.
τύπος συναρτήσεων ενεργοποίησης νευρώνων στρώματος εξόδου.

Το μόνο που είναι γνωστό για τις συναρτήσεις ενεργοποίησης των νευρώνων στο στρώμα εξόδου από το θεώρημα Hecht-Nielsen είναι ότι είναι μη γραμμικές συναρτήσεις μιας γενικής μορφής. Σε μια από τις εργασίες που συνεχίζει την ανάπτυξη της θεωρίας που σχετίζεται με το υπό εξέταση θεώρημα, αποδεικνύεται ότι οι συναρτήσεις ενεργοποίησης των νευρώνων στο στρώμα εξόδου θα πρέπει να αυξάνονται μονότονα. Αυτή η δήλωση περιορίζει σε κάποιο βαθμό την κατηγορία των συναρτήσεων που μπορούν να χρησιμοποιηθούν κατά την υλοποίηση της χαρτογράφησης χρησιμοποιώντας ένα νευρωνικό δίκτυο δύο επιπέδων.

Στην πράξη, οι απαιτήσεις του θεωρήματος Hecht-Nielsen για συναρτήσεις ενεργοποίησης ικανοποιούνται ως εξής. Στα νευρωνικά δίκτυα, οι σιγμοειδείς συναρτήσεις μεταφοράς με προσαρμόσιμες παραμέτρους χρησιμοποιούνται τόσο για το πρώτο (κρυφό) όσο και για το δεύτερο (εξόδου) στρώματα. Δηλαδή, κατά τη διαδικασία μάθησης, οι μέγιστες και ελάχιστες τιμές, καθώς και η κλίση της σιγμοειδούς συνάρτησης, τίθενται ξεχωριστά για κάθε νευρώνα.

Συμπέρασμα 2.Για οποιοδήποτε σύνολο ζευγών (X k, Y k) (όπου το Y k είναι βαθμωτή), υπάρχει ένα ομογενές νευρωνικό δίκτυο δύο επιπέδων (με πανομοιότυπες συναρτήσεις ενεργοποίησης) πρώτης τάξης με διαδοχικές συνδέσεις και πεπερασμένο αριθμό νευρώνων, το οποίο εκτελεί την αντιστοίχιση X -> Y, η έξοδος κάθε σήματος εισόδου X k είναι ένα σωστό σήμα εξόδου Y k. Οι νευρώνες σε ένα τέτοιο νευρωνικό δίκτυο δύο επιπέδων θα πρέπει να έχουν σιγμοειδείς συναρτήσεις μεταφοράς.

Δυστυχώς, αυτό το θεώρημα δεν είναι εποικοδομητικό. Δεν περιέχει μέθοδο για τον προσδιορισμό του αριθμού των νευρώνων στο δίκτυο για ένα συγκεκριμένο δείγμα εκπαίδευσης.

Για πολλά προβλήματα, δεν αρκεί μια μόνο διάσταση του σήματος εξόδου. Είναι απαραίτητο να μπορούμε να κατασκευάσουμε συναρτήσεις X -> Y χρησιμοποιώντας νευρωνικά δίκτυα, όπου το Y έχει αυθαίρετη διάσταση. Η επόμενη δήλωση είναι θεωρητική βάσηγια την κατασκευή τέτοιων συναρτήσεων που βασίζονται σε ομοιογενή νευρωνικά δίκτυα.

Δήλωση.Για οποιοδήποτε σύνολο ζευγών διανυσμάτων εισόδου-εξόδου αυθαίρετης διάστασης ((X k, У k), k = 1... N) υπάρχει ένα ομοιογενές νευρωνικό δίκτυο δύο επιπέδων με διαδοχικές συνδέσεις, με σιγμοειδείς συναρτήσεις μεταφοράς και με πεπερασμένος αριθμός νευρώνων, που για κάθε διάνυσμα εισόδου X k σχηματίζει το αντίστοιχο διάνυσμα εξόδου Y k.

Έτσι, ένα ομοιογενές νευρωνικό δίκτυο δύο επιπέδων με σιγμοειδείς συναρτήσεις μεταφοράς μπορεί να χρησιμοποιηθεί για την αναπαράσταση πολυμεταβλητών συναρτήσεων πολλών μεταβλητών.

Για να υπολογίσετε τον αριθμό των νευρώνων στα κρυφά στρώματα των ομοιογενών νευρωνικών δικτύων, μπορείτε να χρησιμοποιήσετε τον τύπο για να υπολογίσετε τον απαιτούμενο αριθμό συναπτικών βαρών L w σε ένα πολυστρωματικό δίκτυο με συναρτήσεις σιγμοειδούς μεταφοράς:

mN / (1+log 2N)< L w < m (1+ N/m)(n+m+1)+m (1.5)

όπου n είναι η διάσταση του σήματος εισόδου, m είναι η διάσταση του σήματος εξόδου, N είναι ο αριθμός των στοιχείων του συνόλου εκπαίδευσης.

Έχοντας υπολογίσει τον απαιτούμενο αριθμό βαρών, μπορείτε να υπολογίσετε τον αριθμό των νευρώνων στα κρυφά στρώματα. Για παράδειγμα, για ένα δίκτυο δύο επιπέδων αυτός ο αριθμός θα είναι:

Άλλοι τύποι αξιολόγησης είναι επίσης γνωστοί, για παράδειγμα:

2 (n + L + m)< N < 10 (n + L+ m),
N/10 - n - m< L < N/2 - n – m

Μερικές φορές είναι σκόπιμο να χρησιμοποιείτε δίκτυα με ένας μεγάλος αριθμόςστρώματα. Τέτοια πολυστρωματικά νευρωνικά δίκτυα μπορεί να έχουν μικρότερους πίνακες συναπτικών βαρών νευρώνων σε ένα επίπεδο από δίκτυα δύο επιπέδων που εφαρμόζουν την ίδια χαρτογράφηση. Ωστόσο, δεν υπάρχει ακόμη αυστηρή μεθοδολογία για την κατασκευή τέτοιων δικτύων.

Παρόμοια κατάσταση προκύπτει με τα πολυστρωματικά νευρωνικά δίκτυα, στα οποία, εκτός από τις διαδοχικές συνδέσεις, χρησιμοποιούνται και άμεσες συνδέσεις (συνδέσεις από τον αριθμό στρώματος q στον αριθμό του στρώματος (q+p), όπου p > 1). Δεν υπάρχει αυστηρή θεωρία που να δείχνει τη δυνατότητα και τη σκοπιμότητα κατασκευής τέτοιων δικτύων.

Τα μεγαλύτερα προβλήματα προκύπτουν κατά τη χρήση κυκλικών δικτύων. Αυτή η ομάδα περιλαμβάνει δίκτυα πολλαπλών επιπέδων με ανάδραση (από τον αριθμό στρώματος q στον αριθμό του επιπέδου (q+p), όπου p< 0), а также полносвязные сети. Для успешного функционирования таких сетей необходимо соблюдение условий динамической устойчивости, иначе сеть может не сойтись к η σωστή απόφαση, ή, έχοντας φτάσει τη σωστή τιμή του σήματος εξόδου σε κάποια επανάληψη, μετά από αρκετές επαναλήψεις απομακρύνεστε από αυτήν την τιμή. Το πρόβλημα της δυναμικής σταθερότητας έχει μελετηθεί λεπτομερώς, ίσως, μόνο για ένα μοντέλο από την υπό εξέταση ομάδα - το νευρωνικό δίκτυο Hopfield.

Η έλλειψη μιας αυστηρής θεωρίας για τα απαριθμούμενα μοντέλα νευρωνικών δικτύων δεν εμποδίζει τη μελέτη των δυνατοτήτων εφαρμογής τους.

Σημειώστε ότι ο Ρώσος αναγνώστης γνωρίζει τα αποτελέσματα που παρουσιάζονται σε πιο αποσπασματική μορφή - με τη μορφή του λεγόμενου θεωρήματος πληρότητας.

Θεώρημα πληρότητας.Οποιος συνεχής λειτουργίασε ένα κλειστό οριοθετημένο σύνολο μπορεί να προσεγγιστεί ομοιόμορφα με συναρτήσεις που υπολογίζονται από νευρωνικά δίκτυα εάν η συνάρτηση ενεργοποίησης του νευρώνα είναι δύο φορές συνεχώς διαφοροποιήσιμη και συνεχής.

Έτσι, τα νευρωνικά δίκτυα είναι καθολικές δομές που επιτρέπουν την υλοποίηση οποιουδήποτε υπολογιστικού αλγορίθμου.