Πληκτρολόγιο φωνητικού ελέγχου. Φωνητικός έλεγχος του υπολογιστή σας

Θα θέλατε να δοκιμάσετε να ελέγξετε τον υπολογιστή σας με τη φωνή σας; Το Typle είναι ένα πρόγραμμα που είναι ιδανικό για αυτό το σκοπό. Θα έχετε την ευκαιρία να προσαρμόσετε πλήρως τον υπολογιστή σας για τον εαυτό σας, διαχειρίζοντάς τον χωρίς τη χρήση περιφερειακών συσκευών. Δεν υπάρχουν περιορισμοί στον αριθμό των ομάδων στο Typle. Το βοηθητικό πρόγραμμα λειτουργεί ως εξής: επιλέγετε ένα αρχείο, υποδεικνύετε τι πρέπει να γίνει με αυτό και ηχογραφείτε μια φωνητική εντολή. Όταν το βοηθητικό πρόγραμμα ακούσει μια φωνητική εντολή, θα κάνει αμέσως την επιθυμητή ενέργεια. Δεν έχει σημασία αν αυτή η εντολή πρέπει να ανοίξει έναν συγκεκριμένο ιστότοπο στο πρόγραμμα περιήγησης, να παίξει μια λίστα αναπαραγωγής ή τραγούδι ή να ξεκινήσει ένα πρόγραμμα. Όλα είναι στη διακριτική σας ευχέρεια, οι δυνατότητες είναι απεριόριστες. Η αναγνώριση φωνής στο Typle υλοποιείται σε υψηλό επίπεδο.

Για παράδειγμα, πρέπει να ανοίξετε έναν σύνδεσμο σε ένα πρόγραμμα περιήγησης. Στο επάνω μενού, επιλέξτε τη λειτουργία "προσθήκη". Θα εμφανιστεί ένα παράθυρο μπροστά σας στο οποίο θα πρέπει να επιλέξετε ένα αρχείο ή ένα πρόγραμμα. Κάνοντας κλικ στο κουμπί "για προχωρημένους", μπορείτε να επιλέξετε το ίδιο το αρχείο, να γράψετε μια εντολή για αυτό (για παράδειγμα, "άνοιγμα chrome") και να αποθηκεύσετε. Στη συνέχεια, θα πρέπει να ελέγξετε την εργασία της εντολής. Κάντε κλικ στο «start speaking» στο πρόγραμμα και πείτε την εντολή. Η διεπαφή είναι φιλική και πλήρως προσαρμόσιμη. Εάν ξεχάσετε μια υπάρχουσα εντολή, μπορείτε να την προβάλετε και να την επεξεργαστείτε εάν είναι απαραίτητο.

Ένας από τους κύριους στόχους του λειτουργικού συστήματος Android είναι να κάνει τη διαχείριση συσκευών όσο το δυνατόν πιο απλή και κατανοητή. Με κάθε ενημέρωση, εμφανίζονται όλο και περισσότερες νέες δυνατότητες που απλοποιούν σημαντικά τη χρήση. Ένα τέτοιο χαρακτηριστικό είναι ο φωνητικός έλεγχος Android.

Φωνητικός έλεγχος Android

Ο φωνητικός έλεγχος Android είναι μια καινοτόμος τεχνολογία με την οποία μπορείτε να ελέγχετε τη συσκευή σας χωρίς περιττούς χειρισμούς, αλλά μόνο με τη φωνή σας. Αυτή η δυνατότητα βρίσκεται υπό ενεργή ανάπτυξη και βελτίωση.

Εντάξει, το Google στο Android καθιστά δυνατή τη χρήση της συσκευής πιο αποτελεσματικά. Μπορείτε να εκτελέσετε πολλές λειτουργίες με τη φωνή σας και να έχετε αποτελέσματα υψηλής ποιότητας. Για παράδειγμα, αναζητήστε τις απαραίτητες πληροφορίες, ενεργοποιήστε/απενεργοποιήστε εφαρμογές και ακόμη και πληκτρολογήστε κείμενο. Μέχρι σήμερα, αυτή η εξέλιξη δεν είναι ιδανική και περιλαμβάνει διάφορες ελλείψεις.

Όλες οι εντολές που μπορούν να εκτελεστούν χρησιμοποιώντας φωνητικό έλεγχο χωρίζονται σε δύο ομάδες.

Και συγκεκριμένα:

έλεγχος των λειτουργιών της ίδιας της συσκευής - εάν θέλετε να ακούσετε μουσική, τότε απλώς πείτε "Αναπαραγωγή λίστας αναπαραγωγής", εάν θέλετε να ενεργοποιήσετε το ξυπνητήρι, στη συνέχεια πείτε τη φράση "Ξύπνα με τέτοια ώρα" και σύντομα
αναζήτηση πληροφοριών - χρησιμοποιώντας ένα φωνητικό αίτημα μπορείτε να μάθετε, για παράδειγμα, τον καιρό, να δείτε το σκορ του παιχνιδιού της αγαπημένης σας ομάδας, να βρείτε τις λέξεις ενός τραγουδιού κ.λπ.

Αλλά δυστυχώς, υπάρχουν ορισμένοι περιορισμοί στη λειτουργία του φωνητικού ελέγχου. Μερικές φορές ενδέχεται να μην μπορείτε να λάβετε πληροφορίες για αυτόκλητα αιτήματα. Για παράδειγμα, σας ενδιαφέρει το πρόγραμμα των παραστάσεων στους κινηματογράφους του Κιέβου και θα λάβετε μια απάντηση χωρίς προβλήματα, αλλά αν ζητήσετε το ίδιο αίτημα, αλλά για μια μικρότερη πόλη, τότε μπορεί να προκύψουν προβλήματα και να αντιμετωπίσετε έλλειψη πληροφορίες.

Πώς να ενεργοποιήσετε τον φωνητικό έλεγχο

Για να χρησιμοποιήσετε τον φωνητικό έλεγχο Ok, Google, χρειάζεστε συνεχή σύνδεση στο Διαδίκτυο. Σε περιορισμένα μεγέθη, η εφαρμογή μπορεί να λειτουργήσει χωρίς το Διαδίκτυο, αλλά η ποιότητα της αναγνώρισης φωνής θα είναι πολύ κακή και η χρήση της λειτουργίας θα είναι σχεδόν αδύνατη.

εγκαταστήστε την εφαρμογή Google, εάν την έχετε ήδη εγκαταστήσει, τότε βεβαιωθείτε ότι είναι η πιο πρόσφατη έκδοση
μεταβείτε στην εφαρμογή Google
στην επάνω αριστερή γωνία κάντε κλικ στο εικονίδιο που μοιάζει με τρεις οριζόντιες γραμμές
μετά πηγαίνετε στο " Ρυθμίσεις»
επιλέξτε " Φωνητική αναζήτηση»
μετά - " Αναγνώριση Ok, Google" ή " Σε οποιαδήποτε οθόνη»

Σε ορισμένες συσκευές, η φωνητική αναγνώριση είναι διαθέσιμη σε άλλες εφαρμογές εκτός από την εφαρμογή Google. Για να το κάνετε αυτό, στο πρόγραμμα Google, κάντε κλικ:

« Ρυθμίσεις»
Περαιτέρω - " Εφαρμογές" Εκεί θα δείτε μια λίστα προγραμμάτων στα οποία μπορείτε να χρησιμοποιήσετε το Ok, Google

Πώς να ρυθμίσετε τον φωνητικό έλεγχο

Η λειτουργία Ok, Google είναι πάντα ενεργή με την προϋπόθεση ότι εκτελείτε την εφαρμογή Google ή το Google Chrome. Μετά την ενεργοποίηση, το σύστημα θα ηχογραφήσει τη φωνή σας και δεν θα υπάρχουν προβλήματα με την αναγνώριση στο μέλλον. Για να υποβάλετε ένα αίτημα, απλώς πείτε τη φράση Ok, Google και διατυπώστε μια ερώτηση ή μια εντολή.

Πώς να απενεργοποιήσετε τον φωνητικό έλεγχο

Η απενεργοποίηση του Ok, η Google δεν είναι πιο δύσκολη από την ενεργοποίησή του. Για να γίνει αυτό πρέπει να κάνετε τα εξής:

μεταβείτε στην εφαρμογή Google
στην επάνω αριστερή γωνία υπάρχει ένα εικονίδιο που μοιάζει με τρεις οριζόντιες γραμμές
επιλέξτε " Φωνητική αναζήτηση»
Περαιτέρω " Αναγνώριση Ok, Google»
αφαιρέστε το πλαίσιο ελέγχου - " Σε οποιαδήποτε οθόνη" ή " Πάντα ανοιχτό»

Φωνητικές εντολές

Εντάξει, η Google αναγνωρίζει πολλές διαφορετικές εντολές. Δεν υπάρχει συγκεκριμένη λίστα ερωτημάτων που πρέπει να εκτελεστούν, καθώς είναι διαφορετικά για κάθε χρήστη.

Ακολουθεί μια μικρή λίστα εντολών που μπορούν να εκτελεστούν χρησιμοποιώντας φωνητικό έλεγχο:

καλέστε οποιονδήποτε από τη λίστα επαφών σας
στείλετε μήνυμα κειμένου
στείλτε ένα email
ανάρτηση στα κοινωνικά δίκτυα
για να παρακολουθείτε το πακέτο
εκκινήστε την εφαρμογή
μάθετε τον καιρό
λάβετε οδηγίες για τον προορισμό σας
βρείτε ένα μέρος, εταιρεία, εγκατάσταση
μετάφραση κειμένου από τη μια γλώσσα στην άλλη
ορίστε ένα τραγούδι και ούτω καθεξής

Ο φωνητικός έλεγχος δεν λειτουργεί. Ποιοι μπορεί να είναι οι λόγοι και πώς να το διορθώσετε;

Βεβαιωθείτε ότι ο φωνητικός έλεγχος είναι ενεργός: " Ρυθμίσεις» - « Φωνητική αναζήτηση» - « Αναγνώριση Εντάξει, Google" Επιλέξτε το πλαίσιο - " Από την εφαρμογή Google" Απαιτείται επίσης σύνδεση στο Διαδίκτυο για τη σωστή λειτουργία του φωνητικού ελέγχου. Βεβαιωθείτε ότι η συσκευή σας είναι συνδεδεμένη σε Wi-Fi ή στο κινητό internet. Δοκιμάστε να επανεκκινήσετε τη συσκευή σας.

Πολύ σύντομα, όλος ο εξοπλισμός, από τηλέφωνα μέχρι βραστήρες, θα είναι εξοπλισμένος με φωνητικό έλεγχο. είναι διαθέσιμο εδώ και πολύ καιρό και τώρα μυστικά εργαστήρια μεγάλων εταιρειών εργάζονται για τη βελτίωση αυτής της τεχνολογίας. Αλλά σήμερα μπορείτε να επωφεληθείτε από αυτές τις μελλοντικές τεχνολογίες και να ελέγξετε τον εξοπλισμό υπολογιστή χρησιμοποιώντας τη φωνή σας.

Τηλέφωνο φωνητικού ελέγχου
Εδώ και αρκετά χρόνια, τα smartphone στις πιο δημοφιλείς πλατφόρμες (Android, iOS, Windows Phone) διαθέτουν ενσωματωμένο σύστημα φωνητικού ελέγχου.

Το Siri είναι μια από τις καλύτερες ενσωματώσεις της τεχνητής νοημοσύνης στη σύγχρονη τεχνολογία. Το Siri είναι ένας φωνητικός βοηθός ενσωματωμένος σε smartphone iPhone 4S που κατανοεί την ανθρώπινη ομιλία και μπορεί να διεξάγει διάλογο με τον ιδιοκτήτη του smartphone. Το Siri σάς επιτρέπει να ελέγχετε τις βασικές λειτουργίες του smartphone σας, να δημιουργείτε εργασίες, να αναζητάτε οποιαδήποτε πληροφορία κ.λπ.

Το βίντεο που σας ετοίμασα θα σας πει καλύτερα για τη Siri. Αυτό είναι ένα απόσπασμα από την παρουσίαση του iPhone 4S ακριβώς στο σημείο όπου ένας από τους προγραμματιστές iPhone μιλά για το Siri (αν το βίντεο δεν είναι ορατό, ανανεώστε τη σελίδα):

Σήμερα, στα smartphone Android, ο φωνητικός έλεγχος δεν είναι σε καμία περίπτωση κατώτερος του Siri (σε ορισμένα σημεία ακόμη και ανώτερος) και εκτελεί σχεδόν τις ίδιες εργασίες.

Φωνητικός έλεγχος του υπολογιστή σας
Εκτός από το τηλέφωνο, μπορείτε να σας διδάξετε να κατανοείτε τις εντολές και τον υπολογιστή σας. ΣΕ Windows VistaΚαι Windows 7Υπάρχει επίσης ένα ενσωματωμένο σύστημα φωνητικού ελέγχου, αλλά δεν είναι ακόμη διαθέσιμο στη ρωσική έκδοση του λειτουργικού συστήματος. Για να χρησιμοποιήσετε το αγγλικό σύστημα φωνητικού ελέγχου, για παράδειγμα, το λειτουργικό σας σύστημα πρέπει να είναι Ultimate ή Enterprise και να έχει εγκατεστημένο ένα πακέτο αγγλικής γλώσσας. Ωστόσο, παρά όλους αυτούς τους περιορισμούς, υπάρχουν και άλλες επιλογές για να αρχίσετε να ελέγχετε τον υπολογιστή σας χρησιμοποιώντας τη φωνή σας.

Τύπος - ένα από τα καλύτερα προγράμματα που σας επιτρέπει να δημιουργείτε διάφορα φωνητικές εντολές για υπολογιστή. Ηχογραφείτε μια φωνητική εντολή και αναθέτετε μια ενέργεια που θα εκτελεστεί μετά την εκφώνησή της. Το Typle ανταπεξέρχεται αρκετά καλά στις ευθύνες του. Είναι αλήθεια ότι οι εντολές θα πρέπει να δίνονται με καθαρή, μηχανική φωνή, ώστε το πρόγραμμα να μπορεί να τις αναγνωρίσει. Και το πρόγραμμα μπορεί μερικές φορές να μπερδέψει τους εξωτερικούς ήχους ως φωνητική εντολή. Επομένως, μην εκπλαγείτε εάν, μετά την εγκατάσταση και τη διαμόρφωση του Typle, αρχίσουν να συμβαίνουν ανεξήγητα συμβάντα στον υπολογιστή σας.

Φωνητικός έλεγχος.rf- υπηρεσία cloud και πρόγραμμα Ομιλητήςαπό Ρώσους προγραμματιστές με πολύ καλή αναγνώριση ομιλίας. Ο ομιλητής κατανοεί πολύ καλύτερα την ανθρώπινη ομιλία. Ένα άλλο πλεονέκτημα του προγράμματος, σε αντίθεση με το Typle, είναι ότι αρχίζει να "ακούει" εντολές μόνο αφού πατήσει ένα πλήκτρο εντολής - αυτή τη στιγμή αυτός είναι ο τροχός του ποντικιού. Χάρη σε αυτό, το πρόγραμμα δεν θα εκτελεί εντολές όταν δεν χρειάζεται. Αλλά κατά τη γνώμη μου, η χρήση του τροχού ως κλειδιού εντολών δεν είναι απολύτως βολική, επειδή χρησιμοποιείται συχνά σε άλλες περιπτώσεις.

Φωνητικός έλεγχος στο πρόγραμμα περιήγησης Opera. Για τους λάτρεις του προγράμματος περιήγησης Opera Internet, υπάρχει ενσωματωμένος φωνητικός έλεγχος που σας επιτρέπει να ελέγχετε τις κύριες λειτουργίες του προγράμματος περιήγησης με τη φωνή σας. Η Opera δεν έχει τη δυνατότητα να δημιουργήσει τις δικές σας εντολές, αλλά χρησιμοποιεί υπάρχουσες εντολές στα Αγγλικά. Αλλά νομίζω ότι λίγοι άνθρωποι θα ενδιαφέρονται για μια τέτοια λειτουργικότητα, όταν χρησιμοποιείτε ποντίκι και πληκτρολόγιο μπορείτε να εκτελέσετε όλες τις ίδιες ενέργειες με όχι μικρότερη ταχύτητα.

Φωνητικός έλεγχος στο Google
αξίζει ιδιαίτερης προσοχής. Όλοι γνωρίζουν ότι η Google δημιουργεί πάντα προϊόντα και υπηρεσίες υψηλής ποιότητας. Πολλοί έχουν πειστεί για αυτό ξεκινώντας, για παράδειγμα, να χρησιμοποιούν το Gmail. Προς το παρόν, υπάρχουν δύο επιλογές που γνωρίζω για φωνητικό έλεγχο των υπηρεσιών Google.

Το πρώτο είναι αναζήτηση πληροφοριών με χρήση φωνήςστη μηχανή αναζήτησης Google. Σας βοηθά να εργάζεστε πολύ πιο γρήγορα με τη μηχανή αναζήτησης.

Δεύτερο - Μετάφραση Google , το οποίο σας επιτρέπει να υπαγορεύετε κείμενο (προς το παρόν μόνο) στα Αγγλικά και να λαμβάνετε αυτόματα μια μετάφραση στην επιθυμητή γλώσσα.

Είναι πολύ βολικό να χρησιμοποιείτε τη φωνητική εισαγωγή στη Μετάφραση Google κατά την ανάγνωση κειμένου από ένα αγγλικό εγχειρίδιο ή, για παράδειγμα, τη συσκευασία του προϊόντος, για να μεταφράσετε γρήγορα τις απαραίτητες πληροφορίες στα ρωσικά.

Φωνητικός έλεγχος στο Google Chrome
Επέκταση OWeb- συμπληρώνει τις υπάρχουσες λειτουργίες φωνητικού ελέγχου στο Google Chrome. Το OWeb προσθέτει τη δυνατότητα υπαγόρευσης κειμένου με φωνή σχεδόν σε όλους τους ιστότοπους όπου υπονοείται η εισαγωγή κειμένου - σε φόρμες αναζήτησης, σε φόρμες επικοινωνίας, στο πεδίο σχολίων κ.λπ. Αυτό σίγουρα δεν είναι το Siri, αλλά είναι επίσης ένας πολύ καλός τρόπος για να λύσετε τα χέρια σας και να εξοικονομήσετε χρόνο στην πληκτρολόγηση.

Δείτε το βίντεο στο οποίο θα σας δείξω τις δυνατότητες της επέκτασης Oweb και παραδείγματα χρήσης της:

Πολλοί χρήστες έχουν ήδη εξοικειωθεί με τον βοηθό Cortana στο Windows Phone 8.1 και τις δυνατότητές του. Το πρόγραμμα εμφανίστηκε το 2014, αλλά αυτό το διάστημα έχει συγκεντρώσει πολλούς θαυμαστές. Αυτός είναι ο λόγος για τον οποίο οι προγραμματιστές το πρόσθεσαν στα Windows 10, το οποίο έγινε γνωστό όχι πολύ καιρό πριν. Αν μιλάμε για λειτουργίες βοηθού, τότε πρώτα απ 'όλα θα πρέπει να αναφέρουμε τη βελτιωμένη λειτουργία αναζήτησης.

Τώρα η εύρεση πληροφοριών για οτιδήποτε έχει γίνει πολύ πιο εύκολη. Το μόνο που έχετε να κάνετε είναι να δώσετε μια φωνητική ή γραπτή εντολή στην Cortana και να περιμένετε να εμφανιστούν τα αποτελέσματα. Χρησιμοποιώντας το, μπορείτε επίσης να παρακολουθείτε παγκόσμιες ειδήσεις, μετεωρολογικές προβλέψεις, δέματα, αεροπορικά εισιτήρια και άλλα μέσα μεταφοράς.

Οι χρήσιμες λειτουργίες περιλαμβάνουν υπενθυμίσεις για συναντήσεις που έχουν καταγραφεί στο ημερολόγιο. Ο Assistant Cortana δεν θα σας αφήσει να χάσετε ένα σημαντικό γεγονός και θα σας ειδοποιήσει σχετικά με ένα ηχητικό σήμα. Παρεμπιπτόντως, μπορείτε τώρα να επισυνάψετε υπενθυμίσεις σε μια συγκεκριμένη τοποθεσία, κάτι που είναι αρκετά βολικό.

Η Cortana διαθέτει επίσης λειτουργίες ψυχαγωγίας. Για παράδειγμα, μπορεί να πει αστεία και ιστορίες, να μιλήσει σε ένα άτομο, να τραγουδήσει τραγούδια και πολλά άλλα. Οι δυνατότητές του επεκτείνονται συνεχώς, οπότε μπορεί κανείς μόνο να μαντέψει τι άλλο θα προσθέσουν οι προγραμματιστές. Η Cortana Windows 10 θα είναι χρήσιμη τόσο για το σπίτι όσο και για το γραφείο. Με τη βοήθειά του, θα είναι ευκολότερο για ένα άτομο να βρει τις απαραίτητες πληροφορίες, οι οποίες θα επιταχύνουν σημαντικά τη διαδικασία εργασίας.

Δυστυχώς, η Cortana δεν είναι ακόμη διαθέσιμη στα ρωσικά και δεν υπάρχουν πληροφορίες για το πότε θα εμφανιστεί μια μετάφραση. Είναι σημαντικό να σημειωθεί ότι αυτός ο βοηθός ενδέχεται να μην είναι διαθέσιμος σε όλες τις χώρες. Οι προγραμματιστές δεν είπαν σε ποιες χώρες δεν θα είναι διαθέσιμο.

Το Microsoft Assistant είναι εύκολο στη χρήση. Μπορείτε να χρησιμοποιήσετε τόσο φωνητικές όσο και εκτυπωμένες εντολές - όλα εξαρτώνται από την επιθυμία του χρήστη. Πώς να ενεργοποιήσετε τον φωνητικό βοηθό Cortana στα Windows 10 είναι ίσως η πρώτη ερώτηση που ενδιαφέρει πολλούς ανθρώπους. Για να ενεργοποιήσετε το πρόγραμμα, απλώς κάντε κλικ στο εικονίδιο O δίπλα στο κουμπί Έναρξη ή μπορείτε να πείτε "Hey Cortana".

Οι εντολές πρέπει να εισαχθούν στο κάτω πεδίο, το οποίο λέει "Ρωτήστε με οτιδήποτε". Για φωνητική είσοδο, πρέπει να κάνετε κλικ στο εικονίδιο του μικροφώνου. Τα αποτελέσματα αναζήτησης θα επιστραφούν αμέσως. Μπορούν να εμφανίζουν ιστότοπους, εγκατεστημένα προγράμματα, φωτογραφίες, τραγούδια, έγγραφα και άλλα αρχεία που έχουν ληφθεί. Απλώς κάντε κλικ σε οποιοδήποτε αρχείο για να το ενεργοποιήσετε.

Για να κάνετε την Cortana να εκτελεί πιο σοβαρές εντολές, πρέπει να κάνετε κλικ στο εικονίδιο "Hamburger" στην επάνω αριστερή γωνία. Εκεί μπορείτε να αλλάξετε υπενθυμίσεις και ρυθμίσεις, προσαρμόζοντάς τες ώστε να σας ταιριάζουν. Όσο για την προστασία, δεν χρειάζεται να ανησυχείτε. Η Microsoft παρέχει στους χρήστες πλήρη εμπιστευτικότητα δεδομένων, κάτι που είναι σημαντικό, επειδή ο βοηθός έχει πρόσβαση σε όλες τις επιστολές, τα ερωτήματα αναζήτησης και άλλες προσωπικές πληροφορίες.

Τα άτομα που δεν εμπιστεύονται τέτοιες εφαρμογές μπορούν να διαμορφώσουν το πρόγραμμα έτσι ώστε να μην μπορεί να διαβάσει αλληλογραφία, να παρακολουθήσει πακέτα ή να προβάλει το ημερολόγιο. Είναι αλήθεια ότι σε αυτή την περίπτωση οι δυνατότητές του θα μειωθούν σημαντικά.

Μόλις εμφανιστεί η Cortana στα ρωσικά, θα είναι δυνατή η αξιολόγηση όλων των δυνατοτήτων και των καινοτομιών της, από τις οποίες υπάρχουν πολλές. Συνιστάται να ελέγξετε προσεκτικά τις ρυθμίσεις για να προσαρμόσετε το πρόγραμμα ώστε να σας ταιριάζει και να το κάνετε όσο πιο βολικό γίνεται.

Συγχρονισμός

Οι χρήστες της Cortana που είναι εγκατεστημένοι στα Windows 8.1 είναι εξοικειωμένοι με τη δυνατότητα συγχρονισμού ρυθμίσεων και υπενθυμίσεων σε όλες τις συσκευές τους με λογαριασμό Microsoft. Αυτό κατέστησε δυνατή τη χρήση του βοηθού σε διαφορετικά tablet, συσκευές επικοινωνίας και υπολογιστές χωρίς να χρειάζεται να διαμορφωθεί για κάθε συσκευή ξεχωριστά.

Μια τέτοια λειτουργία βοήθησε στην εξοικονόμηση χρόνου και εξάλειψε την πιθανότητα ένα άτομο να ξεχάσει να μεταφέρει μια υπενθύμιση για ένα ραντεβού στο τηλέφωνο, το οποίο είναι, για παράδειγμα, σε φορητό υπολογιστή. Δεν υπήρχε λόγος ανησυχίας ότι ένα σημαντικό συμβάν θα χαθεί λόγω του γεγονότος ότι ο χρήστης δεν μπορούσε να βρίσκεται κοντά στον υπολογιστή του την κατάλληλη στιγμή.

Τα Windows 10 Cortana θα έχουν επίσης συγχρονισμό, ο οποίος μπορεί να ελεγχθεί απευθείας από τον Βοηθό ή από τον νέο πίνακα "Όλες οι ρυθμίσεις", που αντικαθιστά τον Πίνακα Ελέγχου και τις Ρυθμίσεις υπολογιστή. Αυτό είναι αρκετά βολικό, αφού δεν χρειάζεται να σπαταλάτε το χρόνο σας προσαρμόζοντας την Cortana σε κάθε συσκευή.

Πώς να απενεργοποιήσετε το πρόγραμμα

Εάν συμβεί ότι ο βοηθός δεν χρειάζεται ή υπάρχει ανησυχία ότι θα παρακολουθεί τα δεδομένα σας, τότε μπορείτε εύκολα να τον απενεργοποιήσετε. Υπάρχουν μόνο δύο τρόποι για να γίνει αυτό. Το πρώτο είναι το πιο απλό - θα χρειαστεί να ενεργοποιήσετε το πρόγραμμα από την ενότητα αναζήτησης στη γραμμή εργασιών. Όταν γίνει αυτό, πρέπει να ανοίξετε τις ρυθμίσεις της εφαρμογής και στην ενότητα "Cortana", αλλάξτε τη θέση του διακόπτη σε "Απενεργοποίηση".

Η δεύτερη μέθοδος δεν είναι λιγότερο εύκολη. Θα χρειαστεί επίσης να εκκινήσετε τον βοηθό και να μεταβείτε στις Ρυθμίσεις. Αυτή τη φορά θα χρειαστείτε το μενού «Απόρρητο», με άλλα λόγια, «Εμπιστευτικότητα». Θα πρέπει να μεταβείτε στο στοιχείο «Ομιλία, υπογραφή και πληκτρολόγηση», όπου πρέπει να κάνετε κλικ στο «Σταματήστε να με γνωρίζετε». Αυτό είναι όλο.

Οποιαδήποτε από αυτές τις μεθόδους θα απενεργοποιήσει πλήρως την Cortana και θα διαγράψει όλες τις πληροφορίες που έχει ήδη λάβει το πρόγραμμα σε αυτήν τη συσκευή. Ωστόσο, τα δεδομένα που έχουν συλλεχθεί προηγουμένως δεν θα διαγραφούν από το σημειωματάριό της.

συμπέρασμα

Μπορούμε ήδη να πούμε με βεβαιότητα ότι η Cortana θα γίνει μια χρήσιμη εφαρμογή που θα χρησιμοποιηθεί από πολλούς κατόχους αυτού του λειτουργικού συστήματος. Ο βοηθός θα είναι ένας εξαιρετικός βοηθός για επιχειρηματίες για τους οποίους είναι σημαντικό να εξοικονομούν χρόνο και να ενημερώνονται για όλες τις εκδηλώσεις και τα ραντεβού. Είναι σημαντικό οι προγραμματιστές να κάνουν καλή δουλειά στο πρόγραμμα και να επιλύσουν όλα τα υπάρχοντα προβλήματα, αν υπάρχουν, τώρα.

Προς το παρόν, δεν έχουμε παρά να περιμένουμε να κυκλοφορήσει η Cortana στα ρωσικά. Συνιστάται σε όλους τους χρήστες να είναι υπομονετικοί, γιατί ο νέος βοηθός και ορισμένα χαρακτηριστικά του αξίζουν προσοχής. (Συγγραφέας του άρθρου είναι ο Alexey Troitsky).

Ένα άτομο με πλησίασε ζητώντας να γράψει ένα πρόγραμμα που θα του επέτρεπε να ελέγχει ένα ποντίκι υπολογιστή χρησιμοποιώντας τη φωνή του. Τότε δεν μπορούσα καν να φανταστώ ότι ένα σχεδόν εντελώς παράλυτο άτομο που δεν μπορεί καν να γυρίσει το κεφάλι του, αλλά μπορεί μόνο να μιλήσει, είναι ικανό να αναπτύξει έντονη δραστηριότητα, να βοηθήσει τον εαυτό του και τους άλλους να ζήσουν μια δραστήρια ζωή, να αποκτήσουν νέες γνώσεις και δεξιότητες, να εργαστούν και να κερδίσουν χρήματα, επικοινωνήστε με άλλους ανθρώπους σε όλο τον κόσμο, συμμετέχετε σε διαγωνισμό κοινωνικού έργου.

Επιτρέψτε μου να δώσω εδώ μερικούς συνδέσμους σε ιστότοπους, ο συγγραφέας ή/και ο ιδεολογικός εμπνευστής των οποίων είναι αυτό το άτομο - ο Alexander Makarchuk από την πόλη Borisov της Λευκορωσίας:

Για να εργαστεί στον υπολογιστή, ο Αλέξανδρος χρησιμοποίησε το πρόγραμμα «Vocal Joystick», που αναπτύχθηκε από φοιτητές στο Πανεπιστήμιο της Ουάσιγκτον, με χρηματοδότηση από το Εθνικό Ίδρυμα Επιστημών (NSF). Δείτε melodi.ee.washington.edu/vj

δεν μπόρεσα να αντισταθώ

Παρεμπιπτόντως, στην ιστοσελίδα του πανεπιστημίου (http://www.washington.edu/) το 90% των άρθρων αφορά χρήματα. Είναι δύσκολο να βρεις κάτι για επιστημονική εργασία. Ιδού, για παράδειγμα, αποσπάσματα από την πρώτη σελίδα: «Ο Τομ, απόφοιτος πανεπιστημίου, έτρωγε μανιτάρια και δυσκολευόταν να πληρώσει το νοίκι του. Τώρα είναι ανώτερος διευθυντής σε μια εταιρεία πληροφορικής και δανείζει χρήματα σε ένα πανεπιστήμιο», «Το Big Data βοηθά τους άστεγους», «Η εταιρεία έχει δεσμευτεί να πληρώσει 5 εκατομμύρια δολάρια για ένα νέο ακαδημαϊκό κτίριο».

Είμαι ο μόνος που το βρίσκω ενοχλητικό;

Το πρόγραμμα δημιουργήθηκε το 2005-2009 και λειτούργησε καλά στα Windows XP. Σε πιο πρόσφατες εκδόσεις των Windows, το πρόγραμμα μπορεί να παγώσει, κάτι που είναι απαράδεκτο για ένα άτομο που δεν μπορεί να σηκωθεί από την καρέκλα του και να το επανεκκινήσει. Ως εκ τούτου, το πρόγραμμα έπρεπε να επαναληφθεί.

Δεν υπάρχουν κείμενα πηγής, υπάρχουν μόνο μεμονωμένες δημοσιεύσεις που αποκαλύπτουν τις τεχνολογίες στις οποίες βασίζεται (MFCC, MLP - διαβάστε σχετικά στο δεύτερο μέρος).

Ένα νέο πρόγραμμα γράφτηκε στην ίδια εικόνα (σε τρεις μήνες).

Στην πραγματικότητα, μπορείτε να δείτε πώς λειτουργεί:

Μπορείτε να κάνετε λήψη του προγράμματος ή/και να προβάλετε τους πηγαίους κώδικες.

Δεν χρειάζεται να εκτελέσετε ειδικές ενέργειες για να εγκαταστήσετε το πρόγραμμα, απλώς κάντε κλικ σε αυτό και εκτελέστε το. Το μόνο πράγμα είναι ότι σε ορισμένες περιπτώσεις απαιτείται να εκτελείται ως διαχειριστής (για παράδειγμα, όταν εργάζεστε με το εικονικό πληκτρολόγιο "Comfort Keys Pro"):

Αξίζει πιθανώς να αναφέρω εδώ άλλα πράγματα που έχω κάνει στο παρελθόν για να καταστεί δυνατή η λειτουργία ενός υπολογιστή hands-free.

Εάν έχετε τη δυνατότητα να γυρίσετε το κεφάλι σας, ένα γυροσκόπιο που τοποθετείται στο κεφάλι μπορεί να είναι μια καλή εναλλακτική λύση για το eViacam. Θα έχετε γρήγορη και ακριβή τοποθέτηση του δρομέα και ανεξαρτησία από το φωτισμό.

Εάν μπορείτε να μετακινήσετε μόνο τις κόρες των ματιών σας, τότε μπορείτε να χρησιμοποιήσετε έναν ανιχνευτή κατεύθυνσης βλέμματος και ένα πρόγραμμα για αυτό (αυτό μπορεί να είναι δύσκολο αν φοράτε γυαλιά).

Μέρος II. Πώς λειτουργεί;

Από δημοσιευμένα υλικά για το πρόγραμμα Vocal Joystick, έγινε γνωστό ότι λειτουργεί ως εξής:

Κοπή της ροής ήχου σε καρέ των 25 χιλιοστών του δευτερολέπτου με επικάλυψη 10 χιλιοστών του δευτερολέπτου
Λήψη 13 εγκεφαλικών συντελεστών (MFCC) για κάθε πλαίσιο
Επαλήθευση ότι ένας από τους 6 αποθηκευμένους ήχους (4 φωνήεντα και 2 σύμφωνα) προφέρεται χρησιμοποιώντας ένα πολυστρωματικό perceptron (MLP)
Μετάφραση ήχων που βρέθηκαν σε κινήσεις/κλικ του ποντικιού

Η πρώτη εργασία είναι αξιοσημείωτη μόνο για το γεγονός ότι για την επίλυσή της σε πραγματικό χρόνο, έπρεπε να εισαχθούν τρία επιπλέον νήματα στο πρόγραμμα, καθώς η ανάγνωση δεδομένων από ένα μικρόφωνο, η επεξεργασία ήχου και η αναπαραγωγή ήχου μέσω κάρτας ήχου γίνονται ασύγχρονα.

Η τελευταία εργασία ολοκληρώνεται απλά χρησιμοποιώντας τη συνάρτηση SendInput.

Μου φαίνεται ότι το δεύτερο και το τρίτο πρόβλημα έχουν μεγαλύτερο ενδιαφέρον. Ετσι.

Εργασία Νο. 2. Λήψη 13 εγκεφαλικών συντελεστών

Εάν κάποιος δεν γνωρίζει, το κύριο πρόβλημα της αναγνώρισης ήχων από έναν υπολογιστή είναι το εξής: είναι δύσκολο να συγκριθούν δύο ήχοι, καθώς δύο ηχητικά κύματα που είναι ανόμοια στο περίγραμμα μπορεί να ακούγονται παρόμοια από την άποψη της ανθρώπινης αντίληψης.

Και μεταξύ εκείνων που εμπλέκονται στην αναγνώριση ομιλίας, υπάρχει μια αναζήτηση για τη «φιλοσοφική πέτρα» - ένα σύνολο χαρακτηριστικών που θα ταξινομούσαν αναμφισβήτητα ένα ηχητικό κύμα.

Από εκείνα τα χαρακτηριστικά που είναι διαθέσιμα στο ευρύ κοινό και περιγράφονται σε σχολικά βιβλία, τα πιο ευρέως χρησιμοποιούμενα είναι οι λεγόμενοι συντελεστές Mel-Frequency Cepstral Coefstral (MFCC).

Η ιστορία τους είναι τέτοια που αρχικά προορίζονταν για κάτι εντελώς διαφορετικό, δηλαδή, για να καταστείλουν την ηχώ στο σήμα (ένα εκπαιδευτικό άρθρο για αυτό το θέμα γράφτηκε από τους σεβαστούς Oppenheim και Schafer, είθε χαρά στα σπίτια αυτών των ευγενών ανδρών. Βλέπε A. V. Oppenheim and R. W. Schafer, « From Frequency to Quefrency: A History of the Cepsrum».

Αλλά ο άνθρωπος είναι σχεδιασμένος με τέτοιο τρόπο ώστε να έχει την τάση να χρησιμοποιεί ό,τι είναι πιο γνωστό σε αυτόν. Και όσοι εργάστηκαν σε σήματα ομιλίας είχαν την ιδέα να χρησιμοποιήσουν μια έτοιμη συμπαγή αναπαράσταση του σήματος με τη μορφή MFCC. Αποδείχθηκε ότι, γενικά, λειτουργεί. (Ένας φίλος μου, ειδικός στα συστήματα εξαερισμού, όταν τον ρώτησα πώς να φτιάξω ένα εξοχικό, μου πρότεινε τη χρήση αεραγωγών. Απλά γιατί τους ήξερε καλύτερα από άλλα οικοδομικά υλικά).

Είναι τα MFCC καλός ταξινομητής για ήχους; δεν θα έλεγα. Ο ίδιος ήχος που ακούγεται από εμένα σε διαφορετικά μικρόφωνα εμπίπτει σε διαφορετικές περιοχές του χώρου των συντελεστών MFCC και ένας ιδανικός ταξινομητής θα τους τραβούσε δίπλα-δίπλα. Επομένως, συγκεκριμένα, κατά την αλλαγή του μικροφώνου, πρέπει να εκπαιδεύσετε ξανά το πρόγραμμα.

Αυτή είναι μόνο μία από τις προβολές του 13-διάστατου χώρου MFCC σε 3-διάστατο χώρο, αλλά μπορείτε να δείτε τι εννοώ - τα κόκκινα, μοβ και μπλε σημεία λαμβάνονται από διαφορετικά μικρόφωνα: (Plantronix, ενσωματωμένα μικρόφωνα συστοιχίας, Jabra), αλλά ο ήχος προφερόταν μόνος.

Ωστόσο, καθώς δεν μπορώ να προσφέρω κάτι καλύτερο, θα χρησιμοποιήσω επίσης την τυπική μέθοδο - υπολογισμό των συντελεστών MFCC.

Για να μην κάνουμε λάθος στην υλοποίηση, στις πρώτες εκδόσεις του προγράμματος χρησιμοποιήθηκε ως βάση ο κώδικας από το γνωστό πρόγραμμα CMU Sphinx, πιο συγκεκριμένα η εφαρμογή του σε C, που ονομάζεται pocketsphinx, που αναπτύχθηκε στο Πανεπιστήμιο Carnegie Mellon ( ειρήνη και με τους δύο! (γ) Hottabych ).

Οι πηγαίοι κώδικες pocketsphinx είναι ανοιχτοί, αλλά το πρόβλημα είναι ότι αν τους χρησιμοποιήσετε, πρέπει να γράψετε κείμενο στο πρόγραμμά σας (τόσο στον πηγαίο κώδικα όσο και στην εκτελέσιμη ενότητα) που περιέχει, μεταξύ άλλων, τα εξής:

* Αυτή η εργασία υποστηρίχθηκε εν μέρει από τη χρηματοδότηση από την Defense Advanced * Research Projects Agency και το Εθνικό Ίδρυμα Επιστημών των Ηνωμένων Πολιτειών της Αμερικής και την Κοινοπραξία CMU Sphinx Speech Consortium.
Αυτό μου φαινόταν απαράδεκτο και έπρεπε να ξαναγράψω τον κώδικα. Αυτό επηρέασε την απόδοση του προγράμματος (προς το καλύτερο, παρεμπιπτόντως, αν και η "αναγνωσιμότητα" του κώδικα υπέστη κάπως). Σε μεγάλο βαθμό χάρη στη χρήση των βιβλιοθηκών "Intel Performance Primitives", αλλά βελτιστοποίησα και ο ίδιος ορισμένα πράγματα, όπως το φίλτρο MEL. Ωστόσο, η δοκιμή σε δεδομένα δοκιμής έδειξε ότι οι ληφθέντες συντελεστές MFCC είναι εντελώς παρόμοιοι με αυτούς που λαμβάνονται χρησιμοποιώντας, για παράδειγμα, το βοηθητικό πρόγραμμα sphinx_fe.

Στα προγράμματα Sphinxbase, ο υπολογισμός των συντελεστών MFCC πραγματοποιείται στα ακόλουθα βήματα:

Βήμα	λειτουργία βάσης σφίγγας	Η ουσία της επέμβασης
1	fe_pre_emphasis	Το μεγαλύτερο μέρος της προηγούμενης ανάγνωσης αφαιρείται από την τρέχουσα ένδειξη (για παράδειγμα, 0,97 από την τιμή της). Ένα πρωτόγονο φίλτρο που απορρίπτει τις χαμηλές συχνότητες.
2	fe_hamming_window	Παράθυρο Hamming – εισάγει εξασθένηση στην αρχή και στο τέλος του πλαισίου
3	fe_fft_real	Γρήγορος μετασχηματισμός Fourier
4	fe_spec2magnitude	Από το συνηθισμένο φάσμα παίρνουμε το φάσμα ισχύος, χάνοντας τη φάση
5	fe_mel_spec	Ομαδοποιούμε τις συχνότητες του φάσματος [για παράδειγμα, 256 τεμάχια] σε 40 πασσάλους, χρησιμοποιώντας την κλίμακα MEL και τους συντελεστές στάθμισης
6	fe_mel_cep	Παίρνουμε τον λογάριθμο και εφαρμόζουμε τον μετασχηματισμό DCT2 στις 40 τιμές από το προηγούμενο βήμα. Αφήνουμε τις πρώτες 13 τιμές του αποτελέσματος. Υπάρχουν διάφορες παραλλαγές του DCT2 (HTK, legacy, classic), που διαφέρουν στη σταθερά με την οποία διαιρούμε τους συντελεστές που προκύπτουν και μια ειδική σταθερά για τον μηδενικό συντελεστή. Μπορείτε να επιλέξετε οποιαδήποτε επιλογή, δεν θα αλλάξει την ουσία.

Αυτά τα βήματα περιλαμβάνουν επίσης λειτουργίες που σας επιτρέπουν να διαχωρίζετε το σήμα από το θόρυβο και από τη σιωπή, όπως fe_track_snr, fe_vad_hangover, αλλά δεν τις χρειαζόμαστε και δεν θα μας αποσπούν την προσοχή.

Έγιναν οι ακόλουθες αντικαταστάσεις για τα βήματα για τη λήψη των συντελεστών MFCC:

Εργασία Νο. 3. Έλεγχος ότι προφέρεται ένας από τους 6 απομνημονευμένους ήχους

Το αρχικό πρόγραμμα Vocal Joystick χρησιμοποίησε ένα πολυστρωματικό perceptron (MLP) για ταξινόμηση - ένα νευρωνικό δίκτυο χωρίς νέα κουδούνια και σφυρίχτρες.

Ας δούμε πόσο δικαιολογημένη είναι η χρήση ενός νευρωνικού δικτύου εδώ.

Ας θυμηθούμε τι κάνουν οι νευρώνες στα τεχνητά νευρωνικά δίκτυα.

Εάν ένας νευρώνας έχει Ν εισόδους, τότε ο νευρώνας διαιρεί τον χώρο των Ν διαστάσεων στο μισό. Χτυπά backhand με υπερπλάνο. Επιπλέον, στο ένα μισό του χώρου λειτουργεί (δίνει θετική απάντηση), αλλά στον άλλο δεν λειτουργεί.

Ας δούμε την [πρακτικά] απλούστερη επιλογή - έναν νευρώνα με δύο εισόδους. Θα χωρίσει φυσικά τον δισδιάστατο χώρο στη μέση.

Έστω ότι η είσοδος είναι οι τιμές X1 και X2, τις οποίες ο νευρώνας πολλαπλασιάζει με τους συντελεστές στάθμισης W1 και W2 και προσθέτει τον ελεύθερο όρο C.

Συνολικά, στην έξοδο του νευρώνα (τον συμβολίζουμε ως Y) παίρνουμε:

Υ=Χ1*Π1+Χ2*Π2+Γ

(ας παραλείψουμε τις λεπτές λεπτομέρειες σχετικά με τις σιγμοειδείς συναρτήσεις προς το παρόν)

Θεωρούμε ότι ο νευρώνας πυροδοτείται όταν Y>0. Η ευθεία γραμμή που δίνεται από την εξίσωση 0=X1*W1+X2*W2+C διαιρεί επακριβώς το χώρο σε ένα μέρος όπου Y>0, και σε ένα μέρος όπου Y<0.

Ας δείξουμε τι έχει ειπωθεί με συγκεκριμένους αριθμούς.

Έστω W1=1, W2=1, C=-5;

Ας δούμε τώρα πώς μπορούμε να οργανώσουμε ένα νευρωνικό δίκτυο που θα λειτουργούσε σε μια συγκεκριμένη περιοχή του χώρου, σχετικά μιλώντας, σε ένα σημείο, και δεν θα λειτουργούσε σε όλα τα άλλα μέρη.

Από το σχήμα φαίνεται ότι για να σκιαγραφήσουμε μια περιοχή σε δισδιάστατο χώρο, χρειαζόμαστε τουλάχιστον 3 ευθείες γραμμές, δηλαδή 3 νευρώνες συνδεδεμένους με αυτές.

Θα συνδυάσουμε αυτούς τους τρεις νευρώνες χρησιμοποιώντας ένα άλλο στρώμα, δημιουργώντας ένα πολυστρωματικό νευρωνικό δίκτυο (MLP).

Και αν χρειαζόμαστε το νευρωνικό δίκτυο να λειτουργεί σε δύο περιοχές του χώρου, τότε θα χρειαστούμε τουλάχιστον τρεις ακόμη νευρώνες (4,5,6 στα σχήματα):

Και εδώ δεν μπορείτε να κάνετε χωρίς ένα τρίτο επίπεδο:

Και το τρίτο επίπεδο είναι σχεδόν Deep Learning...

Τώρα ας στραφούμε σε ένα άλλο παράδειγμα για βοήθεια. Αφήστε το νευρωνικό μας δίκτυο να παράγει μια θετική απόκριση στις κόκκινες κουκκίδες και μια αρνητική απόκριση στις μπλε κουκκίδες.

Αν μου ζητούσαν να κόψω το κόκκινο από το μπλε σε ευθείες γραμμές, θα το έκανα κάπως έτσι:

Όμως το νευρωνικό δίκτυο δεν γνωρίζει a priori πόσους άμεσους (νευρώνες) θα χρειαστεί. Αυτή η παράμετρος πρέπει να ρυθμιστεί πριν από την εκπαίδευση του δικτύου. Και ένα άτομο το κάνει αυτό με βάση τη... διαίσθηση ή τη δοκιμή και το λάθος.

Εάν επιλέξουμε πολύ λίγους νευρώνες στο πρώτο στρώμα (τρεις, για παράδειγμα), μπορούμε να πάρουμε μια περικοπή όπως αυτή, η οποία θα δώσει πολλά σφάλματα (η εσφαλμένη περιοχή είναι σκιασμένη):

Αλλά ακόμα κι αν ο αριθμός των νευρώνων είναι επαρκής, ως αποτέλεσμα της εκπαίδευσης το δίκτυο μπορεί να «αποτύχει να συγκλίνει», δηλαδή να φτάσει σε κάποια σταθερή κατάσταση που απέχει πολύ από τη βέλτιστη, όταν το ποσοστό των σφαλμάτων είναι υψηλό. Όπως εδώ, η επάνω εγκάρσια ράβδος στηρίζεται σε δύο καμπούρες και δεν απομακρύνεται από αυτές. Και από κάτω υπάρχει μια μεγάλη περιοχή που δημιουργεί σφάλματα:

Και πάλι, η πιθανότητα τέτοιων περιπτώσεων εξαρτάται από τις αρχικές συνθήκες εκπαίδευσης και τη σειρά της εκπαίδευσης, δηλαδή από τυχαίους παράγοντες:

- Τι πιστεύεις, θα έφτανε αυτός ο τροχός, αν συνέβαινε, στη Μόσχα ή όχι;
- Τι πιστεύετε, θα λειτουργήσει το νευρωνικό δίκτυο ή όχι;

Υπάρχει μια άλλη δυσάρεστη στιγμή που σχετίζεται με τα νευρωνικά δίκτυα. Η «λησμονιά» τους.

Εάν αρχίσετε να τροφοδοτείτε το δίκτυο μόνο μπλε κουκκίδες και σταματήσετε να τροφοδοτείτε τις κόκκινες, τότε μπορεί εύκολα να αρπάξει ένα κομμάτι της κόκκινης περιοχής για τον εαυτό του, μετακινώντας τα όριά του εκεί:

Εάν τα νευρωνικά δίκτυα έχουν τόσες πολλές ελλείψεις και ένα άτομο μπορεί να χαράξει τα όρια πολύ πιο αποτελεσματικά από ένα νευρωνικό δίκτυο, τότε γιατί να τα χρησιμοποιήσει καθόλου;

Και υπάρχει μια μικρή αλλά πολύ σημαντική λεπτομέρεια.

Μπορώ πολύ καλά να διαχωρίσω την κόκκινη καρδιά από το μπλε φόντο με ευθύγραμμα τμήματα σε δισδιάστατο χώρο.

Μπορώ πολύ καλά να διαχωρίσω το άγαλμα της Αφροδίτης από τον τρισδιάστατο χώρο που το περιβάλλει με αεροπλάνα.

Αλλά στον τετραδιάστατο χώρο δεν μπορώ να κάνω τίποτα, συγγνώμη. Και στη 13η διάσταση - ακόμα περισσότερο.

Αλλά για ένα νευρωνικό δίκτυο, η διάσταση του χώρου δεν αποτελεί εμπόδιο. Της γέλασα σε χώρους μικρού διαστάσεων, αλλά μόλις ξεπέρασα τα συνηθισμένα, με χτύπησε εύκολα.

Ωστόσο, το ερώτημα παραμένει ανοιχτό: πόσο δικαιολογημένη είναι η χρήση ενός νευρωνικού δικτύου στη συγκεκριμένη εργασία, λαμβάνοντας υπόψη τα μειονεκτήματα των νευρωνικών δικτύων που αναφέρονται παραπάνω.

Ας ξεχάσουμε για λίγο ότι οι συντελεστές MFCC μας βρίσκονται σε 13-διάστατο χώρο και φανταστείτε ότι είναι δισδιάστατοι, δηλαδή σημεία σε ένα επίπεδο. Πώς θα μπορούσε κανείς να διαχωρίσει έναν ήχο από τον άλλο σε αυτή την περίπτωση;

Έστω ότι τα σημεία MFCC του ήχου 1 έχουν τυπική απόκλιση R1, που [χονδρικά] σημαίνει ότι τα σημεία που δεν αποκλίνουν πολύ από το μέσο όρο, τα πιο χαρακτηριστικά σημεία, βρίσκονται μέσα σε έναν κύκλο με ακτίνα R1. Με τον ίδιο τρόπο, τα σημεία που εμπιστευόμαστε στον ήχο 2 βρίσκονται μέσα σε έναν κύκλο με ακτίνα R2.

Προσοχή, ερώτηση: πού να χαράξω μια ευθεία γραμμή που θα διαχωρίζει καλύτερα τον ήχο 1 από τον ήχο 2;

Η απάντηση υποδηλώνεται από μόνη της: στη μέση μεταξύ των ορίων των κύκλων. Καμιά αντίρρηση; Καμία αντίρρηση.
Διόρθωση:Στο πρόγραμμα, αυτό το όριο διαιρεί το τμήμα που συνδέει τα κέντρα των κύκλων με την αναλογία R1:R2, η οποία είναι πιο σωστή.

Και τέλος, ας μην ξεχνάμε ότι κάπου στο διάστημα υπάρχει ένα σημείο που αντιπροσωπεύει την πλήρη σιωπή στον χώρο MFCC. Όχι, δεν είναι 13 μηδενικά, όπως μπορεί να φαίνεται. Αυτό είναι ένα σημείο που δεν μπορεί να έχει τυπική απόκλιση. Και οι ευθείες γραμμές με τις οποίες το αποκόψαμε από τους τρεις ήχους μας μπορούν να σχεδιαστούν απευθείας κατά μήκος των ορίων των κύκλων:

Στο παρακάτω σχήμα, κάθε ήχος αντιστοιχεί σε ένα κομμάτι χώρου με το δικό του χρώμα, και μπορούμε πάντα να πούμε σε ποιον ήχο ανήκει ένα συγκεκριμένο σημείο του χώρου (ή δεν ανήκει σε κανένα):

Λοιπόν, εντάξει, τώρα ας θυμηθούμε ότι ο χώρος είναι 13-διάστατος, και αυτό που ήταν καλό να σχεδιάσουμε σε χαρτί τώρα αποδεικνύεται ότι είναι κάτι που δεν ταιριάζει στον ανθρώπινο εγκέφαλο.

Ναι, αλλά όχι έτσι. Ευτυχώς, σε χώρο οποιασδήποτε διάστασης παραμένουν έννοιες όπως ένα σημείο, μια ευθεία γραμμή, ένα [υπερ]επίπεδο, μια [υπερ]σφαίρα.

Επαναλαμβάνουμε όλες τις ίδιες ενέργειες σε 13-διάστατο χώρο: βρίσκουμε τη διασπορά, προσδιορίζουμε τις ακτίνες των [υπερ]σφαιρών, συνδέουμε τα κέντρα τους με μια ευθεία γραμμή, την κόβουμε με ένα [υπερ]επίπεδο σε ένα σημείο εξίσου μακριά από το τα όρια των [υπερ]σφαιρών.

Κανένα νευρωνικό δίκτυο δεν μπορεί να διαχωρίσει πιο σωστά έναν ήχο από τον άλλο.

Εδώ όμως πρέπει να γίνει κράτηση. Όλα αυτά ισχύουν αν οι πληροφορίες για τον ήχο είναι ένα σύννεφο σημείων που αποκλίνουν από τον μέσο όρο εξίσου προς όλες τις κατευθύνσεις, δηλαδή ταιριάζει καλά στην υπερσφαίρα. Εάν αυτό το σύννεφο ήταν μια σύνθετη φιγούρα, για παράδειγμα, ένα 13-διάστατο κυρτό λουκάνικο, τότε όλα τα παραπάνω συλλογιστικά θα ήταν λανθασμένα. Και ίσως, με την κατάλληλη εκπαίδευση, το νευρωνικό δίκτυο θα μπορούσε να δείξει τα δυνατά του σημεία εδώ.

Αλλά δεν θα το ρίσκαρα. Και θα χρησιμοποιούσα, για παράδειγμα, σύνολα κανονικών κατανομών (GMM), (το οποίο, παρεμπιπτόντως, γίνεται στο CMU Sphinx). Είναι πάντα πιο ευχάριστο όταν καταλαβαίνεις ποιος συγκεκριμένος αλγόριθμος οδήγησε στο αποτέλεσμα. Όχι όπως σε ένα νευρωνικό δίκτυο: Το Oracle, με βάση τις πολλές ώρες ψησίματος πάνω από τα δεδομένα εκπαίδευσης, σας λέει να αποφασίσετε ότι ο ήχος που ζητάτε είναι ο ήχος #3. (Με ενοχλεί ιδιαίτερα όταν προσπαθούν να αναθέσουν τον έλεγχο ενός αυτοκινήτου σε ένα νευρωνικό δίκτυο. Πώς τότε, σε μια ασυνήθιστη κατάσταση, μπορεί κανείς να καταλάβει γιατί το αυτοκίνητο έστριψε αριστερά και όχι δεξιά; Διέταξε ο Παντοδύναμος Νευρώνας;).

Αλλά τα σύνολα κανονικών κατανομών είναι ένα ξεχωριστό μεγάλο θέμα που ξεφεύγει από το πεδίο εφαρμογής αυτού του άρθρου.

Ελπίζω ότι το άρθρο ήταν χρήσιμο ή/και έκανε τον εγκέφαλό σας να τρίζει.