Utilizarea API-ului Google Cloud Speech v2 în Asterisk pentru recunoașterea vorbirii în limba rusă. Căutați un sistem optim de recunoaștere a vorbirii audio cu cod sursă închis, dar cu API-uri deschise pentru integrare

Iată informații de pe internet de pe site vorabota.ru :

Pentru a începe să convertiți vocea în text, veți avea nevoie de un microfon (în laptopuri este încorporat), unul bun este de dorit viteza conexiunii la internetși browser Google Chrome nu mai mică decât versiunea 25. În alte browsere funcția apelare vocală textele, din păcate, nu funcționează.

Lansați pagina pentru a introduce text prin voce browser Chrome. În partea de jos a ferestrei, selectați limba în care intenționați să dictați textul. Faceți clic pe pictograma microfonului din colțul din dreapta sus. Și în linia pop-up, faceți clic pe butonul „permite” pentru ca browserul să folosească microfonul.

Acum puteți pronunța încet și clar fraze scurte. După ce ați terminat de dictat textul prin voce, îl puteți selecta folosind o comandă rapidă de la tastatură Ctrl+C copiați în clipboard și apoi lipiți în orice editor pentru procesare. Dacă se dorește, textul poate fi trimis imediat prin e-mail.

Poate, Web Speech API– cel mai simplu și destul de de înaltă calitate mod de a vă converti discursul în text. Deoarece nu este nevoie să fiți distras de orice manipulări suplimentare cu tastatura. Doar porniți microfonul și rostiți textul.

În orice caz, va trebui să utilizați ceva suplimentar editor de text pentru corectarea ulterioară a textului dictat.

Lansat în browser Google Chrome pagina http://vorabota.ru/voice/text.html și am încercat introducerea textului vocal. Am citit fraza " Web Speech API Tastare vocală. Selectează tot. Trimite email", dar a primit" Tastarea vocală a aplicației Websphere selectează toate trimite e-mail". A doua încercare: " Faceți clic pe butonul Permite pentru a activa microfonul» — « Faceți clic pe butonul Permite pentru a activa microfonul«.

O comparație între fraza originală și rezultatul arată că: a) fraza rusă este convertită în text rusesc cu o calitate suficientă; b) expresia engleză este convertită în text englezesc cu erori ușor de corectat; c) corectarea obligatorie a textului este necesară pentru corectarea erorilor și plasarea semnelor de punctuație și litere mari; d) diferența dintre această implementare Tastarea vocală din altele disponibile pe Internet, într-o simplitate extremă: nu este nimic de prisos în el, ceea ce îl face ușor de învățat și utilizat.

Concluzia mea este aceasta: are sens să implementăm în acest fel Intrare vocală text pe site-ul dvs. web pentru a facilita introducerea textului pe paginile site-ului.

Trebuie doar să introduceți codul necesar pe pagina corespunzătoare a site-ului.

Creată pagină separată, destinat numai pentru Introducerea textului vocal, și a început să-l depaneze.

Aici este codul paginii Dictează textul:

Cod de depanare...

Puteți utiliza codul dat pe site-ul dvs., transformându-l după cum credeți de cuviință.

Îi invit pe toți să vorbească

API-ul Google Speech- Serviciu de recunoaștere a vocii Google.

Recunoașterea vorbirii vă permite să creați sisteme automate de servicii pentru clienți în cazurile în care se utilizează controlul apelare ton. Ca exemplu, putem lua în considerare un serviciu de rezervare a biletelor de avion, care presupune selectarea un numar mare orase. Meniul de ton într-un astfel de serviciu nu este convenabil, deci control vocal va fi cel mai eficient. Dialogul dintre sistem și abonat poate arăta astfel:

Sistem: Salut. Unde vrei să zbori? Abonat: Kazan System: De unde vrei să zbori? Abonat: Moscova Sistem: Specificați data plecării Abonat: 10 aprilie

Navigare vocală în meniuri cu mai multe niveluri IVR și conexiune automată cu angajatul potrivit
Recunoașterea adresei pentru livrare
Autentificare automată vocală a utilizatorilor la solicitarea personalizată sau informații confidențiale telefonic sau online
Sistemul de ajutor al serviciului de informare
Sistem de autoservire vocal pentru clienți corporativi (cerere de sold, verificare cont personal, rezervarea biletelor)

Un sistem de recunoaștere a vorbirii constă de obicei din următoarele părți:

Înregistrarea unui mesaj de la un abonat
Recunoașterea vocii și primirea de date text de la serviciu
Analizând informațiile primite și luând măsurile necesare

Pentru utilizare API-ul Google Speech pe sistemul dvs. faceți următoarele:

Pasul 1. Descărcați și importați scripturi în sistemul dvs Oktell.

Descărcați scriptul:(pentru versiuni Oktell mai vechi de 2,10)

Arhiva conține două scripturi:

Google_Speech_API_main- scenariu pentru înregistrare mesaj vocal, este un exemplu utilizarea corectă serviciu de recunoaștere în scenariul principal.
Google_Speech_API- script pentru trimiterea unei înregistrări către serviciu Googleși primirea mesajului recunoscut.

După importarea scripturilor în Oktell, salvează-le" La server"

NOTĂ: Google Speech API este produs plătit. În script (componenta de solicitare web Voce Google) este utilizată o cheie de probă, care poate fi blocată ca urmare un anumit număr cereri. În timpul testelor suma maxima nu s-au găsit cereri. Dacă doriți să cumpărați un plat Versiunea Google Speech API contactați asistența Google.

Pasul 2.În modulul " Administrare" - "Numerele externe„adăugați numărul de extensie cu tipul” Lansarea IVR". Selectați scenariul IVR Google_Speech_API_main.

În zilele noastre este pur și simplu imposibil să te descurci fără un computer. lumea modernă. Nu trebuie să fii un maestru Photoshop sau un edit video profesionist (cu excepția cazului în care este legat de muncă, desigur). Dar a fi capabil să tastați ceva text este minim necesar.

nr 2. Web Speech API

Program online Web API-ul Speech este complet identic ca funcționalitate cu cele anterioare.

Acest serviciu, ca și cele enumerate mai sus, a fost creat și de Google.

pagina principala arata asa:

ÎN interfață simplă Este imediat evident că pentru a începe înregistrarea trebuie să selectați o limbă și apoi să apăsați microfonul.

După ce faceți clic pe pictograma din dreapta, sistemul va face cu siguranță o cerere de acces.

După ce dați aprobarea, puteți începe imediat munca. Tastați textul prin voce și acesta versiune tipărită va apărea în fereastră.

După terminarea lucrării, puteți copia textul oriunde aveți nevoie (din nou, ctrl+C, ctrl+V).

Numarul 3. Talktyper

Nu mai puțin program simplu– acesta este Talktyper.

Pentru a începe, accesați site-ul web: https://talktyper.com/ru/index.html.

Pentru a începe, faceți clic pe pictograma microfonului din dreapta.

Spre deosebire de cele descrise mai sus, această mașină de scris poate fi deschisă folosind orice browser. Deși site-ul este creat în SUA, aplicația recunoaște cu ușurință cel mai mult limbi populare lume, inclusiv rusă.

Talktyper este multifuncțional: nu numai că introduce text, ci și pune semne de punctuație și corectează singur greșelile. Dacă sistemul nu poate recunoaște un cuvânt pe care l-ați citit ca fiind corect, acesta va fi cu siguranță evidențiat.

În plus, Talktyper are o funcție de traducere, precum și vocea off.

Notă! După ce ați terminat de tastat vocal, asigurați-vă că faceți clic pe săgeată, astfel încât documentul tastat să fie transferat într-un alt câmp. După aceasta, poate fi trimis prin e-mail sau copiat în fișierul dorit.

Posibile probleme atunci când lucrați cu programe de apelare vocală

Când începeți să utilizați aceste programe, vă veți întreba cu siguranță cum ne recunoaște computerul vocea și apoi o traduce în text live.

Schema de recunoaștere a vorbirii a dispozitivului arată astfel:

Întregul proces poate fi împărțit în 3 etape principale:

Recunoaștere acustică.

Este important să vorbiți clar, tare, iar microfonul trebuie să vă transmită vocea fără întrerupere.

Prelucrarea lingvistică.

Cu cât sunt mai multe cuvinte în dicționarul programului, cu atât este mai bună calitatea textului tastat. Adică tot ceea ce spui va fi recunoscut și transmis forma text fără distorsiuni.

Text de ortografie recunoscut.

Program în mod automat afișează ortografia versiune grafică vorbire dictată, bazându-se pe pauze, claritatea cuvintelor, lexeme găsite în dicționar etc.

Când lucrați cu dactilografe, apar cel mai adesea două probleme:

Recunoașterea acustică vă „prinde” vorbirea în mod intermitent.
Nu există suficiente cuvinte în dicționarul sistemului pentru a recunoaște tot ce ai spus.

Pentru a rezolva prima problemă, trebuie să vorbiți clar și tare. Dar pentru a doua problemă nu există practic nicio soluție, dar macar, gratuit.

Versiunile distribuite gratuit ale programelor de recunoaștere a vorbirii au un vocabular foarte limitat.

Pentru a oferi un program cu un vocabular extins, dezvoltatorii trebuie să investească o mulțime de bani, motiv pentru care mulți recunoașteri demonstrează nivel scăzut traducerea vorbirii în text.

A avansat cel mai mult în această chestiune Compania Google, deoarece are suficiente fonduri pentru investiții. Această companie, printre altele, a creat cel mai mare dicționar online care ajută la recunoașterea vocilor și la traducerea acestuia într-o versiune grafică.

Uite ghid detaliatîn acest videoclip:

Când ții un discurs, camera ar trebui să fie liniștită. Sunetele naturii, muzica și plânsul unui copil sunt percepute de sistem ca zgomot. Din acest motiv, textul va fi tastat cu erori mari.
Nu vorbi dacă mănânci ceva. Acest lucru nu va afecta numai calitatea setului, dar este și amenințător de viață.

Înainte de a începe, trebuie să alegeți volumul corect al vocii și, de asemenea, să înțelegeți ce sensibilitate are microfonul.

Pentru a face acest lucru, încercați să scrieți câteva propoziții pe un ton familiar. Dacă există întreruperi în înregistrare, consultați setările microfonului.

Luați scurte pauze între cuvinte.
Evita frazele lungi.

Cineva va spune asta program de apelare vocală este un asistent minunat care le eliberează mâinile și le face viața mai ușoară în general. Alții vor decide că „jocul nu merită lumânarea”. Prin urmare, trebuie să decideți dacă le utilizați singur.

Și știți deja ce servicii să alegeți...

Asterisc,

API Google,

Yandex API

Alegerea unui API de recunoaștere a vorbirii

Am luat în considerare doar opțiunea API, soluțiile în cutie nu erau necesare pentru că necesitau resurse, datele de recunoaștere nu sunt critice pentru afaceri, iar utilizarea lor este mult mai complicată și necesită mai multe ore de lucru.

Primul a fost Yandex SpeechKit Cloud. Mi-a plăcut imediat datorită ușurinței sale de utilizare:

Curl -X POST -H „Tip conținut: audio/x-wav” --data-binary „@speech.wav” „https://asr.yandex.net/asr_xml?uuid=<идентификатор пользователя>&cheie= &topic=interogări"
Politica de preț: 400 de ruble la 1000 de cereri. Prima lună este gratuită. Dar după aceea au fost doar dezamăgiri:

La transmiterea unei propuneri mari, a fost primit un răspuns de 2-3 cuvinte
- Aceste cuvinte au fost recunoscute într-o succesiune ciudată
- Încercările de schimbare a subiectului nu au adus rezultate pozitive

Poate că acest lucru s-a datorat calității medii a înregistrării, am testat totul prin gateway-uri de voce și telefoane Panasonic vechi. Deocamdată, plănuiesc să-l folosesc în viitor pentru a construi IVR.

Următorul a fost un serviciu de la Google. Internetul este plin de articole care sugerează utilizarea API-ului pentru dezvoltatorii Chromium. Acum cheile pentru acest API nu pot fi obținute atât de ușor. Prin urmare, vom folosi o platformă comercială.

Politica de preț - 0-60 de minute pe lună gratuit. Apoi, 0,006 USD pe 15 secunde de vorbire. Fiecare cerere este rotunjită la un multiplu de 15. Primele două luni sunt gratuite, este necesar un card de credit pentru a crea un proiect. Cazurile de utilizare API din documentația de bază sunt variate. Vom folosi un script Python:

Script din documentație

„„„Program de aplicație Google Cloud Speech API care folosește API-ul REST pentru procesarea în loturi.””” import argparse import base64 import json from googleapiclient import discovery import httplib2 din oauth2client.client import GoogleCredentials DISCOVERY_URL = ("https://(api). googleapis.com/$discovery/rest?" "version=(apiVersion)") def get_speech_service(): credentials = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud-platform) "]) http = httplib2.Http() credentials.authorize(http) return discovery.build("vorbire", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(fișier_vorbire): """Transcrie conținutul audio dat Args: speech_file: numele fișierului audio „”” cu open(speech_file, „rb”) ca vorbire: speech_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service.speech. ().syncrecognize(body=( "config": ( "encoding": "LINEAR16", # eșantioane brute LE semnate pe 16 biți "sampleRate": 16000, # 16 khz "languageCode": "en-US", # a Etichetă de limbă BCP-47 ), "audio": ( "conținut": speech_content.decode("UTF-8") ) )) răspuns = service_request.execute() print(json.dumps(response)) if __name__ == " __main__": parser = argparse.ArgumentParser() parser.add_argument("speech_file", help="Calea completă a fișierului audio care trebuie recunoscut") args = parser.parse_args() main(args.speech_file)

Se pregătește să utilizeze API-ul Google Cloud Speech

Va trebui să înregistrăm proiectul și să creăm o cheie de cont de serviciu pentru autorizare. Aici este linkul pentru a obține proba, aveți nevoie de un cont Google. După înregistrare, trebuie să activați API-ul și să creați o cheie de autorizare. Apoi trebuie să copiați cheia pe server.

Să trecem la configurarea serverului în sine, vom avea nevoie de:

Piton
- python-pip
- piton google api client

Sudo apt-get install -y python python-pip pip install --upgrade google-api-python-client
Acum trebuie să exportăm două variabile de mediu, pentru munca de succes cu api. Prima este calea către cheia de serviciu, a doua este numele proiectului dumneavoastră.

Exportați GOOGLE_APPLICATION_CREDENTIALS=/path/to/service_account_file.json exportați GCLOUD_PROJECT=your-project-id
Să descarcăm fișierul audio de testare și să încercăm să rulăm scriptul:

Wget https://cloud.google.com/speech/docs/samples/audio.raw python voice.py audio.raw ("rezultate": [("alternative": [("confidence": 0,98267895, "transcript": „Câți ani are Podul Brooklyn”)])])
Grozav! Primul test are succes. Acum să schimbăm limba de recunoaștere a textului din script și să încercăm să o recunoaștem:

Nano voice.py service_request = service.speech() : „ru-RU”, # o etichetă de limbă BCP-47
Avem nevoie de un fișier audio .raw. Folosim sox pentru asta

Apt-get install -y sox sox test.wav -r 16000 -b 16 -c 1 test.raw python voice.py test.raw ("rezultate": [("alternative": [("încredere": 0,96161985, " transcriere": "\u0417\u0434\u0440\u0430\u0432\u0441\u0442\u0432\u0443\u0439\u0442\u0435 \u0412\u0430\u0430\u0430\u0443\u0430\u0430\u0430\u0430 435\u0442\u0441\ u0442 \u0432\u0443\u0435\u0442 \u043a\u043e\u043c\u043f\u0430\u043d\u0438\u044f")])])
Google ne returnează răspunsul în Unicode. Dar vrem să vedem litere normale. Să ne schimbăm puțin vocea.py:

Print(json.dumps(răspuns))
Noi vom folosi

S = simplejson.dumps(("var": răspuns), assure_ascii=False) print s
Să adăugăm import simplejson. Scriptul final este sub tăietură:

Voice.py

"""Google Cloud Exemplu de aplicație Speech API care utilizează API-ul REST pentru procesarea în loturi.""" import argparse import base64 import json import simplejson din googleapiclient import discovery import httplib2 din oauth2client.client import GoogleCredentials DISCOVERY_URL = ("https://(api).googleapis.com /$discovery/rest?" "version=(apiVersion)") def get_speech_service(): credentials = GoogleCredentials.get_application_default().create_scoped(["https://www.googleapis.com/auth/cloud-platform"]) http = httplib2.Http() credentials.authorize(http) return discovery.build("vorbire", "v1beta1", http=http, discoveryServiceUrl=DISCOVERY_URL) def main(fișier_vorbire): """Transcrie fișierul audio dat. Args: speech_file: numele fișierului audio. """ cu open(speech_file, "rb") ca vorbire: speech_content = base64.b64encode(speech.read()) service = get_speech_service() service_request = service.speech().syncrecognize(body=( "config": () „encoding”: „LINEAR16”, # eșantioane brute LE semnate pe 16 biți „sampleRate”: 16000, # 16 khz „languageCode”: „en-US”, # o etichetă de limbă BCP-47 ), „audio”: ( „ conținut": speech_content.decode("UTF-8") ) )) răspuns = service_request.execute() s = simplejson.dumps(("var": răspuns), assure_ascii=False) print s if __name__ == "__main__" : parser = argparse.ArgumentParser() parser.add_argument("speech_file", help="Calea completă a fișierului audio care trebuie recunoscut") args = parser.parse_args() main(args.speech_file)

Dar înainte de a-l rula, va trebui să exportați încă o variabilă de mediu export PYTHONIOENCODING=UTF-8. Fără el, am avut probleme cu stdout atunci când sunt chemat în scripturi.

Exportați PYTHONIOENCODING=UTF-8 python voice.py test.raw ("var": ("rezultate": [("alternative": [("încredere": 0,96161985, "transcriere": "Bună ziua, bun venit la companie") ]) ]))
Grozav. Acum putem apela acest script în planul de apelare.

Exemplu de dialplan asterisc

Pentru a apela scriptul, voi folosi un plan de apel simplu:

Exten => 1234,1,Answer exten => 1234,n,wait(1) exten => 1234,n,Playback(howtomaketicket) exten => 1234,n,Playback(beep) exten => 1234,n,Set( FILE=$(CALLERID(num))--$(EXTEN)--$(STRFTIME($(EPOCH),%d-%m-%Y--%H-%M-%S)).wav) exten => 1234,n,MixMonitor($(FILE),/opt/test/send.sh [email protected]"$(CDR(src))" "$(CALLERID(nume))" "$(FILE)") exten => 1234,n,wait(28) exten => 1234,n,Playback(beep) exten => 1234,n,Playback(Mulțumesc!) Exten => 1234,n,Hangup()
Folosesc mixmonitor pentru a înregistra și a rula scriptul când am terminat. Puteți folosi înregistrarea și probabil va fi mai bine. Exemplu send.sh pentru trimitere - se presupune că ați deja configurat mutt:

#!/bin/bash #script pentru trimiterea notificărilor # exportați variabilele de mediu necesare # exportul fișierului de licență Google GOOGLE_APPLICATION_CREDENTIALS=/opt/test/project.json # export name project GCLOUD_PROJECT=project-id # python encoding export PYTHONIOENCODING=UTF-8 #list of input variables EMAIL=$1 CALLERIDNUM=$2 CALLERIDNAME=$3 FILE=$4 # recode fișier de sunetîn brut pentru a-l oferi API-ului Google sox /var/spool/asterisk/monitor/$FILE -r 16000 -b 16 -c 1 /var/spool/asterisk/monitor/$FILE.raw # assign valoare variabilă script finalizat pentru a converti sunetul în text și a tăia TEXT=`python inutil /opt/test/voice.py /var/spool/asterisk/monitor/$FILE.raw | sed -e "s/.*transcript"://" -e "s/)])]))//"` # trimite scrisoarea, include textul recunoscut în scrisoarea ecou "nouă notificare de la numărul: $ CALLERIDNUM $CALLERIDNAME $ TEXT " | mutt -s "Acesta este antetul literei" -e "set [email protected] realname="Trimit alerte"" -a "/var/spool/asterisk/monitor/$FILE" -- $EMAIL

Concluzie

Astfel, am rezolvat problema. Sper că experiența mea este de folos cuiva. Voi fi bucuros să primesc comentarii (poate că acesta este singurul motiv pentru care merită să citesc Habr!). În viitor, plănuiesc să implementez un IVR cu elemente de control vocal pe baza acestui lucru.

Dacă tastați de la tastatură prea încet și sunteți prea leneș să învățați metoda de tastare cu zece degete, puteți încerca să utilizați programe moderneși servicii de introducere a textului vocal.

Tastatura este, fără îndoială, suficientă instrument la îndemână control pe calculator. Cu toate acestea, când vine vorba de tastare text lung, înțelegem toate imperfecțiunile sale (și, să fiu sincer, ale noastre :))... De asemenea, trebuie să poți să tastați rapid pe el!

Acum câțiva ani, dorind să-mi simplific munca de a scrie articole, am decis să găsesc un program care să-mi permită să convertesc vocea în text. M-am gândit cât de frumos ar fi dacă aș spune tot ce am nevoie în microfon și computerul ar scrie pentru mine :)

Imaginați-vă dezamăgirea mea când mi-am dat seama că la acel moment nu existau soluții cu adevărat funcționale (darămite gratuite) pentru această problemă. Au existat, totuși, evoluții interne, precum „Gorynych” și „Dictograph”. Ei au înțeles limba rusă, dar, din păcate, calitatea recunoașterii vorbirii era destul de scăzută și necesita configurație lungă cu crearea unui dicționar conform propriei voci și a fost și destul de scump...

Atunci s-a născut Android și situația s-a mutat puțin din punctul mort. În acest sistem, intrarea vocală a apărut ca o alternativă încorporată (și destul de convenabilă) la intrarea virtuală. tastatură pe ecran. Și recent într-unul dintre comentarii am fost întrebat dacă există o opțiune de intrare vocală pentru Windows? Am răspuns că nu încă, dar am decis să mă uit și s-a dovedit că, poate nu în întregime, dar o astfel de oportunitate există! Articolul de astăzi va fi despre rezultatele cercetării mele.

Problemă de recunoaștere a vorbirii

Înainte de a începe să analizăm soluțiile actuale pentru intrarea vocală în Windows, aș dori să arunc o lumină asupra esenței problemei recunoașterii vorbirii pe computer. Pentru o înțelegere mai precisă a procesului, vă sugerez să aruncați o privire la următoarea diagramă:

După cum puteți vedea, conversia vorbirii în text are loc în mai multe etape:

Digitalizarea vocii. În această etapă, calitatea depinde de claritatea dicției, de calitatea microfonului și placa de sunet.
Compararea unei intrări cu intrări dintr-un dicționar. Principiul „mai mult este mai bine” funcționează aici: cu cât dicționarul conține mai multe cuvinte înregistrate, cu atât sunt mai mari șansele ca cuvintele tale să fie recunoscute corect.
Ieșire text. Sistemul în mod automat, pe baza pauzelor, încearcă să identifice lexeme individuale din fluxul de vorbire care corespund lexemelor șablon din dicționar și apoi afișează potrivirile găsite sub formă de text.

Problema principală, după cum ați putea ghici, constă în două nuanțe principale: calitatea segmentului de vorbire digitizat și volumul dicționarului cu șabloane. Prima problemă poate fi minimizată chiar și cu un microfon ieftin și o placă de sunet standard. Este suficient doar să vorbești încet și clar.

Cu a doua problemă, din păcate, nu totul este atât de simplu... Un computer, spre deosebire de o persoană, nu poate recunoaște corect aceeași frază spusă, de exemplu, de o femeie și de un bărbat. Pentru a face acest lucru, ambele versiuni de actorie vocală cu voci diferite trebuie să existe în baza sa de date!

Aici se află principala captură. Crearea unui dicționar pentru o persoană, în principiu, nu este atât de dificilă, însă, având în vedere că fiecare cuvânt trebuie scris în mai multe versiuni, se dovedește a fi foarte lung și necesită multă muncă. Prin urmare, majoritatea programelor de recunoaștere a vorbirii care există astăzi sunt fie prea scumpe, fie nu au propriile dicționare, lăsând utilizatorul să le creeze singur.

Nu degeaba am menționat Android puțin mai sus. Cert este că Google, care îl dezvoltă, a creat și singurul dicționar online global disponibil public pentru recunoașterea vorbirii astăzi (și multilingv!) numit API-ul Google Voice. Yandex creează, de asemenea, un dicționar similar pentru limba rusă, dar până acum, din păcate, este încă nepotrivit pentru utilizare în conditii reale. Prin urmare, aproape totul solutii gratuite, pe care îl vom considera mai jos, lucrează în mod specific dicționare Google. În consecință, toate au aceeași calitate de recunoaștere, iar nuanțele constau doar în capacități suplimentare...

Programe de intrare vocală

Nu există multe programe cu drepturi depline pentru introducerea vocală pentru Windows. Și cei care există și înțeleg limba rusă sunt plătiți în mare parte... De exemplu, costul unui popular sistem utilizator Conversia voce în text RealSpeaker începe de la 2.587 de ruble, iar complexul profesional Caesar-R începe de la 35.900 de ruble!

Dar, printre toate aceste programe scumpe, există un program care nu costă un ban, dar în același timp oferă funcționalități care sunt mai mult decât suficiente pentru majoritatea utilizatorilor. Se numește MSpeech:

Fereastra principală a programului are cea mai simplă interfață posibilă - un indicator al nivelului de sunet și doar trei butoane: porniți înregistrarea, opriți înregistrarea și deschideți fereastra de setări. MSpeech funcționează, de asemenea, destul de simplu. Trebuie să apăsați butonul de înregistrare, să plasați cursorul în fereastra în care ar trebui să fie afișat textul și să începeți să dictați. Pentru o mai mare comoditate, este mai bine să îl înregistrați și să îl opriți folosind taste rapide, care pot fi setate în Setări:

Pe lângă tastele rapide, poate fi necesar să schimbați tipul de transmitere a textului către Windows programele necesare. În mod implicit, ieșirea este setată la fereastra activă, cu toate acestea, puteți specifica transmisia către câmpuri inactive sau către câmpurile unui anumit program. Din caracteristici suplimentare Este demn de remarcat grupul de setări „Comenzi”, care vă permite să implementați controlul vocal al computerului folosind expresiile pe care le specificați.

În general, MSpeech este destul de program convenabil, care vă permite să introduceți text prin voce în orice fereastra Windows. Singura avertizare în utilizarea sa este că computerul trebuie să fie conectat la Internet pentru a accesa dicționarele Google.

Intrare vocală online

Dacă nu doriți să instalați niciun program pe computer, dar doriți să încercați să introduceți text prin voce, puteți utiliza unul dintre numeroasele servicii online care funcționează pe aceleași dicționare Google.

Ei bine, desigur, primul lucru care merită menționat este serviciul „nativ” al Google, numit Web Speech API:

Acest serviciu vă permite să traduceți secțiuni nelimitate de vorbire în text în mai mult de 50 de limbi! Trebuie doar să selectați limba pe care o vorbiți, să faceți clic pe pictograma microfonului din colțul din dreapta sus al formularului, dacă este necesar, să confirmați permisiunea site-ului de a accesa microfonul și de a începe să vorbiți.

Dacă nu folosiți nicio terminologie foarte specializată și vorbiți clar, puteți obține un rezultat foarte bun. Pe lângă cuvinte, serviciul „înțelege” și semnele de punctuație: dacă spui „punct” sau „virgulă”, simbolul necesar va apărea în formularul de ieșire.

Când înregistrarea este finalizată, textul recunoscut va fi evidențiat automat și îl puteți copia în clipboard sau îl puteți trimite prin poștă.

Printre deficiențe, este de remarcat faptul că serviciul poate funcționa numai în browserul Google Chrome mai vechi de versiunea 25, precum și lipsa capacităților de recunoaștere multilingvă.

Apropo, pe site-ul nostru în partea de sus veți găsi o versiune complet rusificată a aceleiași forme de recunoaștere a vorbirii. Bucură-te de el pentru sănătatea ta ;)

Există destul de multe resurse online similare de recunoaștere a vorbirii bazate pe serviciul Google. Unul dintre site-urile care ne interesează este Dictation.io:

Spre deosebire de API-ul Web Speech, Dictation.io are mai multe design elegant sub forma unui blocnotes. Principalul său avantaj față de serviciul Google este că vă permite să opriți înregistrarea și apoi să o reporniți, iar textul introdus anterior va fi salvat până când apăsați butonul „Șterge”.

La fel ca serviciul Google Dictation.io „poate” pune puncte, virgule și, de asemenea Semn de exclamareși un semn de întrebare, dar nu începe întotdeauna o nouă propoziție cu majusculă.

Dacă sunteți în căutarea unui serviciu cu funcționalitate maximă, atunci probabil unul dintre cele mai bune în acest sens va fi:

Principalele avantaje ale serviciului:

disponibilitatea interfeței în limba rusă;
capacitatea de a vizualiza și selecta opțiuni de recunoaștere;
prezența solicitărilor vocale;
oprire automată a înregistrării după o pauză lungă;
Editor de text încorporat cu funcții de copiere a textului în clipboard, imprimare pe o imprimantă, trimitere prin poștă sau Twitter și traducere în alte limbi.

Singurul dezavantaj al serviciului (pe lângă cele deja descrise) neajunsuri comune Web Speech API) este un algoritm de operare care nu este destul de familiar pentru astfel de servicii. După ce apăsați butonul de înregistrare și dictați textul, trebuie să îl verificați, să selectați opțiunea care se potrivește cel mai bine cu ceea ce doriți să spuneți, apoi să o transferați în editorul de text de mai jos. După care procedura poate fi repetată.

Pluginuri pentru Chrome

Pe lângă programele cu drepturi depline și serviciile online, există o altă modalitate de a recunoaște vorbirea în text. Această metodă este implementată folosind plugin-uri pentru browser Google Crom.

Principalul avantaj al folosirii pluginurilor este că, cu ajutorul lor, puteți introduce text prin voce nu numai într-un formular special pe site-ul web al serviciului, ci și în orice câmp de introducere de pe orice resursă web! De fapt, pluginurile ocupă o nișă intermediară între servicii și programe cu drepturi depline pentru intrarea vocală.

Unul dintre cele mai bune extensii pentru a traduce vorbirea în text este SpeechPad:

Nu voi minți dacă spun că SpeechPad este unul dintre cele mai bune servicii de traducere din limba rusă. Pe site-ul oficial veți găsi un notepad online destul de puternic (deși puțin vechi în design) cu multe funcții avansate, inclusiv:

a sustine comenzi vocale control computerizat;
suport îmbunătățit pentru punctuație;
funcția de a dezactiva sunetele pe PC;
integrare cu Windows (deși pe bază de plată);
capacitatea de a recunoaște textul din înregistrări video sau audio (funcția „Transcriere”);
traducerea textului recunoscut în orice limbă;
salvarea textului în fisier text, disponibil pentru descărcare.

În ceea ce privește pluginul, acesta ne oferă cea mai simplificată funcționalitate a serviciului. Plasați cursorul în câmpul de introducere de care aveți nevoie, sunați meniul contextualși faceți clic pe elementul „SpeechPad”. Acum confirmați accesul la microfon și, când câmpul de introducere devine roz, dictați textul dorit.

După ce încetați să vorbiți (o pauză de mai mult de 2 secunde), pluginul în sine va opri înregistrarea și va afișa tot ce ați spus în câmp. Dacă doriți, puteți accesa setările pluginului (clic dreapta pe pictograma pluginului din partea de sus) și puteți modifica parametrii impliciti:

Destul de ciudat, în întregul magazin online de extensii Google nu am întâlnit nici unul plugin care merită, care v-ar permite să implementați introducerea vocală în orice câmp de text. Singura extensie similară a fost cea engleză. Adaugă o pictogramă de microfon la toate câmpurile de introducere dintr-o pagină web, dar nu o poziționează întotdeauna corect, așa că ar putea ajunge în afara ecranului...