Compresia în practică. Sinteza și recunoașterea vorbirii. Soluții moderne. Echipamente audio computerizate. Transformarea sunetului într-un flux de numere Factori care limitează intervalul dinamic

Să ne gândim la întrebarea - de ce trebuie să mărim volumul? Pentru a auzi sunete liniștite care nu sunt audibile în condițiile noastre (de exemplu, dacă nu puteți asculta cu voce tare, dacă există zgomot străin în cameră etc.). Este posibil să amplificați sunetele liniștite, lăsându-le singure pe cele puternice? Se dovedește că este posibil. Această tehnică se numește compresie în intervalul dinamic (DRC). Pentru a face acest lucru, trebuie să schimbați volumul curent în mod constant - amplificați sunetele liniștite, cele puternice - nu. Cea mai simplă lege a modificării volumului este liniară, adică. Volumul se modifică conform legii output_loudness = k * input_loudness, unde k este raportul de compresie al intervalului dinamic:

Figura 18. Compresie în intervalul dinamic.

Când k = 1, nu se fac modificări (volumul de ieșire este egal cu volumul de intrare). La k< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - volumul va scădea și intervalul dinamic va crește.

Să ne uităm la graficele de volum (k = 1/2: compresia DD este dublată):

Figura 19. Grafice de intensitate.

După cum puteți vedea în original, au fost atât sunete foarte liniștite, cu 30 dB sub nivelul dialogului, cât și foarte puternice - 30 dB peste nivelul dialogului. Acea. intervalul dinamic a fost de 60 dB. După compresie, sunetele puternice sunt cu doar 15 dB mai mari, iar sunetele liniștite sunt cu 15 dB mai mici decât dialogul (intervalul dinamic este acum de 30 dB). Astfel, sunetele puternice au devenit semnificativ mai silențioase, iar sunetele slabe au devenit semnificativ mai puternice. În acest caz, nu există preaplin!

Acum să ne uităm la histograme:

Figura 20. Exemplu de compresie.

După cum puteți vedea clar, cu amplificare de până la +30dB, forma histogramei este bine păstrată, ceea ce înseamnă că sunetele puternice rămân bine exprimate (nu merg la maxim și nu sunt întrerupte, așa cum se întâmplă cu amplificarea simplă) . Acest lucru produce sunete liniștite. Histograma arată prost acest lucru, dar diferența este foarte vizibilă după ureche. Dezavantajul acestei metode este aceleași salturi de volum. Cu toate acestea, mecanismul apariției lor diferă de salturile de zgomot care apar în timpul tăierii, iar caracterul lor este diferit - ele apar în principal atunci când sunetele liniștite sunt foarte puternic amplificate (și nu atunci când sunt tăiate cele puternice, ca în cazul amplificarii normale). Un nivel excesiv de compresie duce la o aplatizare a imaginii sunetului - toate sunetele tind să aibă aceeași intensitate și inexpresivitate.

Amplificarea excesivă a sunetelor silențioase poate face ca zgomotul de înregistrare să devină audibil. Prin urmare, filtrul folosește un algoritm ușor modificat, astfel încât nivelul de zgomot să crească mai puțin:

Figura 21. Creșterea volumului fără creșterea zgomotului.

Acestea. la un nivel de volum de -50dB, funcția de transfer se inflectează, iar zgomotul va fi amplificat mai puțin (linia galbenă). În absența unei astfel de inflexiuni, zgomotul va fi mult mai puternic (linia gri). Această modificare simplă reduce semnificativ cantitatea de zgomot chiar și la niveluri de compresie foarte ridicate (compresie 1:5 în imagine). Nivelul „DRC” din filtru setează nivelul câștigului pentru sunetele liniștite (la -50dB), adică Nivelul de compresie de 1/5 prezentat în figură corespunde nivelului de +40 dB din setările filtrului.

Acest grup de metode se bazează pe faptul că semnalele transmise suferă transformări neliniare de amplitudine, iar în părțile de emisie și de recepție neliniaritățile sunt reciproce. De exemplu, dacă funcția neliniară Öu este utilizată în transmițător, u 2 este utilizat în receptor. Aplicarea consecventă a funcțiilor reciproce va asigura că transformarea generală rămâne liniară.

Ideea metodelor de compresie a datelor neliniare este că transmițătorul poate, cu aceeași amplitudine a semnalelor de ieșire, să transmită o gamă mai mare de modificări ale parametrului transmis (adică un interval dinamic mai mare). Interval dinamic- acesta este raportul dintre cea mai mare amplitudine permisă a semnalului și cea mai mică, exprimată în unități relative sau decibeli:

; (2.17)
. (2.18)

Dorința naturală de a crește intervalul dinamic prin scăderea U min este limitată de sensibilitatea echipamentului și de influența crescândă a interferenței și a zgomotului propriu.

Cel mai adesea, compresia în intervalul dinamic se realizează folosind o pereche de funcții reciproce de logaritm și potențare. Se numește prima operație de modificare a amplitudinii comprimare(prin compresie), al doilea - expansiune(întinderea). Alegerea acestor funcții particulare este asociată cu cele mai mari capacități de compresie ale acestora.

În același timp, aceste metode au și dezavantaje. Primul dintre acestea este că logaritmul unui număr mic este negativ și în limită:

adică sensibilitatea este foarte neliniară.

Pentru a reduce aceste neajunsuri, ambele funcții sunt modificate prin deplasare și aproximare. De exemplu, pentru canalele telefonice funcția aproximativă are forma (tip A):

cu A=87,6. Câștigul de la compresie este de 24 dB.

Comprimarea datelor folosind proceduri neliniare este implementată prin mijloace analogice cu erori mari. Utilizarea instrumentelor digitale poate îmbunătăți semnificativ acuratețea sau viteza conversiei. În același timp, utilizarea directă a tehnologiei informatice (adică calculul direct al logaritmilor și exponenților) nu va da cel mai bun rezultat din cauza performanței scăzute și a acumularii erorilor de calcul.

Datorită limitărilor de precizie, compresia datelor prin compresie este utilizată în cazuri necritice, de exemplu, pentru transmiterea vorbirii prin canale telefonice și radio.

Codare eficientă

Codurile eficiente au fost propuse de K. Shannon, Fano și Huffman. Esența codurilor este că sunt inegale, adică cu un număr inegal de biți, iar lungimea codului este invers proporțională cu probabilitatea apariției acestuia. O altă caracteristică excelentă a codurilor eficiente este că nu necesită delimitatori, adică caractere speciale care separă combinațiile de coduri adiacente. Acest lucru se realizează respectând o regulă simplă: codurile mai scurte nu sunt începutul celor mai lungi. În acest caz, fluxul continuu de biți este decodificat în mod unic deoarece decodorul detectează mai întâi cuvintele de cod mai scurte. Codurile eficiente au fost mult timp pur academice, dar recent au fost folosite cu succes în crearea de baze de date, precum și în comprimarea informațiilor în modemurile moderne și arhivatoarele software.

Din cauza neuniformității, se introduce lungimea medie a codului. Lungimea medie - așteptarea matematică a lungimii codului:

mai mult, l av tinde spre H(x) de sus (adică l av > H(x)).

Îndeplinirea condiției (2.23) devine mai puternică pe măsură ce N crește.

Există două tipuri de coduri eficiente: Shannon-Fano și Huffman. Să vedem cum să le obținem folosind un exemplu. Să presupunem că probabilitățile simbolurilor din succesiune au valorile date în tabelul 2.1.

Tabelul 2.1.

Probabilități simbol

N
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Simbolurile sunt ordonate, adică prezentate într-un rând în ordinea descrescătoare a probabilităților. După aceasta, folosind metoda Shannon-Fano, se repetă periodic următoarea procedură: întregul grup de evenimente este împărțit în două subgrupe cu aceleași (sau aproximativ aceleași) probabilități totale. Procedura continuă până când un element rămâne în următorul subgrup, după care acest element este eliminat, iar acțiunile specificate continuă cu cele rămase. Acest lucru se întâmplă până când rămâne un singur element în ultimele două subgrupe. Să continuăm cu exemplul nostru, care este rezumat în Tabelul 2.2.

Tabelul 2.2.

Codificare Shannon-Fano

N P i
4 0.3 eu
0.2 eu II
6 0.15 eu eu
0.1 II
1 0.1 eu eu
9 0.05 II II
5 0.05 II eu
7 0.03 II II eu
8 0.02 II

După cum se poate observa din Tabelul 2.2, primul simbol cu ​​probabilitatea p 4 = 0,3 a participat la două proceduri de împărțire în grupuri și de ambele ori a ajuns în grupul numărul I. În conformitate cu aceasta, este codificat cu un cod II din două cifre. Al doilea element din prima etapă de despărțire a aparținut grupului I, al doilea - grupului II. Prin urmare, codul său este 10. Codurile simbolurilor rămase nu necesită comentarii suplimentare.

De obicei, codurile neuniforme sunt descrise ca arbori de coduri. Un arbore de cod este un grafic care indică combinațiile de cod permise. Direcțiile marginilor acestui grafic sunt prestabilite, așa cum se arată în Fig. 2.11 (alegerea direcțiilor este arbitrară).

Ei navighează în grafic după cum urmează: creează o rută pentru simbolul selectat; numărul de biți pentru acesta este egal cu numărul de muchii din traseu, iar valoarea fiecărui bit este egală cu direcția muchiei corespunzătoare. Traseul se întocmește din punctul de plecare (în desen este marcat cu litera A). De exemplu, traseul către vârful 5 este format din cinci muchii, toate, cu excepția ultimei, având direcția 0; primim codul 00001.

Să calculăm entropia și lungimea medie a cuvântului pentru acest exemplu.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 log 0,03 + 0,02 log 0,02) = 2,23 biți

l avg = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

După cum puteți vedea, lungimea medie a cuvântului este aproape de entropie.

Codurile Huffman sunt construite folosind un algoritm diferit. Procedura de codificare constă din două etape. În prima etapă, compresiile unice ale alfabetului sunt efectuate secvenţial. Compresie unică - înlocuirea ultimelor două simboluri (cu cele mai mici probabilități) cu unul, cu o probabilitate totală. Compresiunile sunt efectuate până când rămân două caractere. În același timp, este completat un tabel de codificare, în care sunt introduse probabilitățile rezultate și sunt descrise rutele de-a lungul cărora noile simboluri se deplasează în etapa următoare.

În a doua etapă, are loc codificarea propriu-zisă, care începe din ultima etapă: primului dintre cele două simboluri i se atribuie codul 1, al doilea - 0. După aceasta, se trece la etapa anterioară. Codurile din etapa ulterioară sunt atribuite simbolurilor care nu au participat la compresie în această etapă, iar codul simbolului obținut după lipire este atribuit de două ori ultimelor două simboluri și adăugat la codul caracterului superior 1, mai mic - 0. Dacă caracterul nu este mai departe în lipire participă, codul său rămâne neschimbat. Procedura continuă până la final (adică până la prima etapă).

Tabelul 2.3 prezintă codarea Huffman. După cum se poate observa din tabel, codificarea a fost efectuată în 7 etape. În stânga sunt probabilitățile simbol, în dreapta sunt codurile intermediare. Săgețile arată mișcările simbolurilor nou formate. În fiecare etapă, ultimele două simboluri diferă doar în bitul cel mai puțin semnificativ, care corespunde tehnicii de codificare. Să calculăm lungimea medie a cuvântului:

l medie = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Acest lucru este și mai aproape de entropie: codul este și mai eficient. În fig. Figura 2.12 prezintă arborele de cod Huffman.

Tabelul 2.3.

Codare Huffman

N p i cod eu II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Ambele coduri satisfac cerința unei decodări clare: așa cum se poate vedea din tabele, combinațiile mai scurte nu reprezintă începutul codurilor mai lungi.

Pe măsură ce numărul de caractere crește, eficiența codurilor crește, astfel încât în ​​unele cazuri sunt codificate blocuri mai mari (de exemplu, dacă vorbim de texte, unele dintre cele mai frecvente silabe, cuvinte și chiar fraze pot fi codificate).

Efectul introducerii unor astfel de coduri este determinat prin compararea acestora cu un cod uniform:

(2.24)

unde n este numărul de biți ai codului uniform care este înlocuit cu cel efectiv.

Modificări ale codurilor Huffman

Algoritmul clasic Huffman este un algoritm cu două treceri, adică. necesită mai întâi colectarea de statistici despre simboluri și mesaje și apoi procedurile descrise mai sus. Acest lucru este incomod în practică, deoarece crește timpul necesar procesării mesajelor și acumulării unui dicționar. Mai des, sunt utilizate metode cu o singură trecere, în care procedurile de acumulare și codare sunt combinate. Astfel de metode sunt numite și compresie adaptivă conform lui Huffman [46].

Esența compresiei adaptive conform lui Huffman se rezumă la construirea unui arbore de cod inițial și la modificarea lui secvențială după sosirea fiecărui simbol următor. Ca și înainte, arborii de aici sunt binari, adică. Cel mult două arce emană din fiecare vârf al graficului arborelui. Se obișnuiește să se numească vârful original părinte, iar cele două vârfuri ulterioare conectate la el ca copii. Să introducem conceptul de greutate a vârfurilor - acesta este numărul de caractere (cuvinte) corespunzător unui punct dat, obținut la alimentarea secvenței inițiale. Evident, suma greutăților copiilor este egală cu greutatea părintelui.

După introducerea următorului simbol al secvenței de intrare, arborele de cod este revizuit: ponderile nodurilor sunt recalculate și, dacă este necesar, vârfurile sunt rearanjate. Regula pentru permutarea nodurilor este următoarea: ponderile vârfurilor inferioare sunt cele mai mici, iar vârfurile situate în stânga graficului au cele mai mici ponderi.

În același timp, vârfurile sunt numerotate. Numerotarea începe de la vârfurile inferioare (atârnând, adică fără copii) de la stânga la dreapta, apoi trece la nivelul superior etc. înainte de a numerota ultimul vârf original. În acest caz, se obține următorul rezultat: cu cât greutatea unui vârf este mai mică, cu atât numărul acestuia este mai mic.

Permutarea se realizează în principal pentru vârfuri suspendate. La permutare trebuie avută în vedere regula formulată mai sus: vârfurile cu greutate mai mare au un număr mai mare.

După trecerea secvenței (numită și control sau test), tuturor nodurilor suspendate li se atribuie combinații de coduri. Regula de atribuire a codurilor este similară cu cea de mai sus: numărul de biți ai codului este egal cu numărul de vârfuri prin care trece ruta de la sursă la vârful suspendat dat, iar valoarea unui anumit bit corespunde direcției de la părinte la „copil” (să zicem, a merge la stânga părintelui corespunde valorii 1, la dreapta - 0).

Combinațiile de cod rezultate sunt stocate în memoria dispozitivului de compresie împreună cu analogii lor și formează un dicționar. Utilizarea algoritmului este după cum urmează. Secvența de caractere comprimată este împărțită în fragmente în conformitate cu dicționarul existent, după care fiecare dintre fragmente este înlocuit cu codul său din dicționar. Fragmentele care nu se găsesc în dicționar formează noi vârfuri suspendate, capătă greutate și sunt, de asemenea, introduse în dicționar. În acest fel, se formează un algoritm adaptiv pentru completarea dicționarului.

Pentru a crește eficiența metodei, este de dorit să creșteți dimensiunea dicționarului; în acest caz raportul de compresie crește. În practică, dimensiunea dicționarului este de 4 - 16 KB de memorie.


Să ilustrăm algoritmul dat cu un exemplu. În fig. Figura 2.13 prezintă diagrama originală (se mai numește și arborele Huffman). Fiecare vârf al arborelui este arătat printr-un dreptunghi în care două numere sunt înscrise printr-o fracție: primul înseamnă numărul vârfului, al doilea înseamnă greutatea acestuia. După cum puteți vedea, corespondența dintre ponderile vârfurilor și numerele lor este satisfăcută.

Să presupunem acum că simbolul corespunzător vârfului 1 apare a doua oară în secvența de testare. Greutatea vârfului s-a schimbat așa cum se arată în Fig. 2.14, în urma căruia se încalcă regula de numerotare a vârfurilor. În etapa următoare, schimbăm locația vârfurilor suspendate, pentru care schimbăm vârfurile 1 și 4 și renumerotăm toate vârfurile arborelui. Graficul rezultat este prezentat în Fig. 2.15. Procedura continuă apoi în același mod.

Trebuie amintit că fiecare vârf agățat din arborele Huffman corespunde unui anumit simbol sau unui grup de simboluri. Părintele diferă de copii prin aceea că grupul de simboluri care îi corespunde este cu un simbol mai scurt decât cel al copiilor săi, iar acești copii diferă prin ultimul simbol. De exemplu, simbolurile „mașină” corespund părintelui; atunci copiii pot avea secvențele „kara” și „karp”.

Algoritmul dat nu este academic și este utilizat în mod activ în programele de arhivare, inclusiv la comprimarea datelor grafice (vor fi discutate mai jos).

algoritmi Lempel–Ziv

Aceștia sunt cei mai des utilizați algoritmi de compresie astăzi. Sunt folosite în majoritatea programelor de arhivare (de exemplu, PKZIP. ARJ, LHA). Esența algoritmilor este că un anumit set de simboluri este înlocuit în timpul arhivării cu numărul său într-un dicționar special generat. De exemplu, expresia „Numărul de ieșire pentru scrisoarea ta...”, care se găsește adesea în corespondența de afaceri, poate ocupa poziția 121 în dicționar; apoi, în loc să transmiteți sau să stocați fraza menționată (30 de octeți), puteți stoca numărul frazei (1,5 octeți în formă zecimală binară sau 1 octet în binar).

Algoritmii sunt numiți după autorii care i-au propus pentru prima dată în 1977. Dintre acestea, primul este LZ77. Pentru arhivare, este creată o așa-numită fereastră glisantă pentru mesaje, formată din două părți. Prima parte, un format mai mare, servește la formarea unui dicționar și are o dimensiune de aproximativ câțiva kiloocteți. A doua parte, mai mică (de obicei, până la 100 de octeți în dimensiune) acceptă caracterele curente ale textului care este vizualizat. Algoritmul încearcă să găsească în dicționar un set de caractere care să se potrivească cu cele primite în fereastra de vizualizare. Dacă aceasta are succes, este generat un cod format din trei părți: offset-ul din dicționar în raport cu subșirul său inițial, lungimea acestui subșir și caracterul care urmează acestui subșir. De exemplu, subșirul selectat este format din caracterele „app” (6 caractere în total), următorul caracter este „e”. Apoi, dacă subșirul are o adresă (loc în dicționar) 45, atunci intrarea din dicționar arată ca „45, 6. e”. După aceasta, conținutul ferestrei este mutat în funcție de poziție, iar căutarea continuă. Așa se formează un dicționar.

Avantajul algoritmului este un algoritm ușor de formalizat pentru compilarea unui dicționar. În plus, este posibil să dezarhivați fără dicționarul original (este recomandabil să aveți o secvență de testare) - dicționarul se formează în timpul dezarhivării.

Dezavantajele algoritmului apar pe măsură ce dimensiunea dicționarului crește - timpul de căutare crește. În plus, dacă în fereastra curentă apare un șir de caractere care nu se află în dicționar, fiecare caracter este scris cu un cod de trei elemente, adică. Rezultatul nu este compresia, ci întinderea.

Algoritmul LZSS, propus în 1978, are cele mai bune caracteristici. Are diferențe între suportul ferestrelor glisante și codurile de ieșire ale compresorului. În plus față de fereastră, algoritmul generează un arbore binar similar cu un arbore Huffman pentru a accelera căutarea potrivirilor: fiecare subșir care părăsește fereastra curentă este adăugat arborelui ca unul dintre copii. Acest algoritm vă permite să măriți și mai mult dimensiunea ferestrei curente (este de dorit ca dimensiunea acesteia să fie egală cu o putere de doi: 128, 256, etc. octeți). Codurile de secvență sunt, de asemenea, formate diferit: este introdus un prefix suplimentar de 1 bit pentru a distinge caracterele necodate de perechile „offset, lungime”.

Un grad și mai mare de compresie se obține atunci când se utilizează algoritmi precum LZW. Algoritmii descriși anterior au o dimensiune fixă ​​a ferestrei, ceea ce face imposibilă introducerea în dicționar a frazelor mai lungi decât dimensiunea ferestrei. În algoritmii LZW (și predecesorul lor LZ78), fereastra de vizualizare are o dimensiune nelimitată, iar dicționarul acumulează fraze (și nu o colecție de caractere, ca înainte). Dicționarul are o lungime nelimitată, iar codificatorul (decodorul) funcționează în modul de așteptare a frazei. Când se formează o expresie care se potrivește cu dicționarul, este emis un cod de potrivire (adică codul acestei fraze în dicționar) și codul caracterului care îl urmează. Dacă, pe măsură ce simbolurile se acumulează, se formează o nouă frază, aceasta este și ea introdusă în dicționar, ca și cea mai scurtă. Rezultatul este o procedură recursivă care asigură codificare și decodare rapidă.

O caracteristică suplimentară de compresie este furnizată de codificarea comprimată a caracterelor care se repetă. Dacă într-o secvență urmează unele caractere pe rând (de exemplu, în text acestea pot fi caractere „spațiu”, într-o secvență de numere - zerouri consecutive etc.), atunci are sens să le înlocuiești cu perechea „caracter; lungime” sau „semn, lungime””. În primul caz, codul indică semnul că secvența va fi codificată (de obicei 1 bit), apoi codul caracterului care se repetă și lungimea secvenței. În al doilea caz (prevăzut pentru caracterele care se repetă cel mai frecvent), prefixul indică pur și simplu un semn de repetiție.

A doua parte a seriei este dedicată funcțiilor de optimizare a gamei dinamice a imaginilor. În ea vă vom spune de ce sunt necesare astfel de soluții, luați în considerare diverse opțiuni pentru implementarea lor, precum și avantajele și dezavantajele acestora.

Îmbrățișează imensitatea

În mod ideal, o cameră ar trebui să captureze o imagine a lumii înconjurătoare așa cum o percepe o persoană. Cu toate acestea, datorită faptului că mecanismele de „viziune” a unei camere și a ochiului uman sunt semnificativ diferite, există o serie de restricții care nu permit îndeplinirea acestei condiții.

Una dintre problemele cu care se confruntau anterior utilizatorii de camere cu film și cu care se confruntă acum proprietarii de camere digitale este incapacitatea de a surprinde în mod adecvat scene cu diferențe mari de iluminare fără utilizarea unor dispozitive speciale și/sau tehnici speciale de fotografiere. Particularitățile sistemului vizual uman fac posibilă perceperea detaliilor scenelor cu contrast ridicat la fel de bine atât în ​​zonele puternic luminate, cât și în cele întunecate. Din păcate, senzorul camerei nu este întotdeauna capabil să captureze o imagine așa cum o vedem noi.

Cu cât este mai mare diferența de luminozitate în scena fotografiată, cu atât este mai mare probabilitatea de pierdere a detaliilor în lumini și/sau umbre. Drept urmare, în loc de un cer albastru cu nori luxurianți, imaginea se dovedește a fi doar o pată albicioasă, iar obiectele situate în umbră se transformă în siluete întunecate indistincte sau se contopesc complet cu mediul înconjurător.

În fotografia clasică, conceptul de latitudinea fotografică(Vezi bara laterală pentru detalii). Teoretic, latitudinea fotografică a camerelor digitale este determinată de adâncimea de biți a convertorului analog-digital (ADC). De exemplu, atunci când se utilizează un ADC de 8 biți, ținând cont de eroarea de cuantizare, valoarea teoretic realizabilă a latitudinii fotografice va fi de 7 EV, pentru un ADC de 12 biți - 11 EV etc. Cu toate acestea, în dispozitivele reale, gama dinamică a imaginilor se dovedește a fi la același maxim teoretic datorită influenței diferitelor tipuri de zgomot și a altor factori.

O diferență mare de niveluri de luminozitate reprezintă o problemă gravă
problemă când faceți fotografii. În acest caz, capacitățile camerei
s-au dovedit a fi insuficiente pentru transmiterea adecvată a celor mai multe
zone luminoase ale scenei și, ca urmare, în loc de o zonă de albastru
cerul (marcat cu un accident vascular cerebral) se dovedește a fi un „petic” alb

Valoarea maximă a luminozității pe care o poate înregistra un senzor sensibil la lumină este determinată de nivelul de saturație al celulelor sale. Valoarea minimă depinde de mai mulți factori, inclusiv cantitatea de zgomot termic al matricei, zgomotul de transfer de sarcină și eroarea ADC.

De asemenea, este de remarcat faptul că latitudinea fotografică a aceleiași camere digitale poate varia în funcție de valoarea sensibilității setată în setări. Gama dinamică maximă este realizabilă prin setarea așa-numitei sensibilități de bază (corespunzătoare valorii numerice minime posibile). Pe măsură ce valoarea acestui parametru crește, intervalul dinamic scade din cauza creșterii nivelului de zgomot.

Latitudinea fotografică a modelelor moderne de camere digitale echipate cu senzori mari și ADC-uri pe 14 sau 16 biți variază de la 9 la 11 EV, ceea ce este semnificativ mai mare în comparație cu caracteristicile similare ale filmelor negative color în format de 35 mm (în medie 4 până la 5 EV) . Astfel, chiar și camerele digitale relativ ieftine au o latitudine fotografică suficientă pentru a transmite în mod adecvat majoritatea scenelor tipice de filmare pentru amatori.

Cu toate acestea, există o problemă de alt tip. Este asociat cu limitările impuse de standardele existente pentru înregistrarea imaginilor digitale. Folosind formatul JPEG cu 8 biți pe canal de culoare (care a devenit acum standardul de facto pentru înregistrarea imaginilor digitale în industria computerelor și tehnologia digitală), este chiar imposibil să salvezi o imagine cu o latitudine fotografică mai mare de 8 EV.

Să presupunem că ADC-ul camerei vă permite să obțineți o imagine cu o adâncime de biți de 12 sau 14 biți, care conține detalii perceptibile atât în ​​lumini, cât și în umbre. Cu toate acestea, dacă latitudinea fotografică a acestei imagini depășește 8 EV, atunci în procesul de conversie la un format standard de 8 biți fără acțiuni suplimentare (adică, pur și simplu prin eliminarea biților „în plus”), o parte din informațiile înregistrate de către senzorul fotosensibil se va pierde.

Gama dinamică și latitudinea fotografică

Pentru a spune simplu, intervalul dinamic este definit ca raportul dintre valoarea maximă a luminozității unei imagini și valoarea sa minimă. În fotografia clasică, termenul de latitudine fotografică este folosit în mod tradițional, ceea ce înseamnă în esență același lucru.

Lățimea intervalului dinamic poate fi exprimată ca un raport (de exemplu, 1000:1, 2500:1 etc.), dar cel mai adesea acest lucru se face pe o scară logaritmică. În acest caz, se calculează valoarea logaritmului zecimal al raportului dintre luminozitatea maximă și valoarea sa minimă, iar după număr litera majusculă D (din engleză density? - density), sau mai rar - abrevierea OD (din engleza optical density? - optical density) este plasat. De exemplu, dacă raportul dintre valoarea maximă a luminozității și valoarea minimă a unui dispozitiv este 1000:1, atunci intervalul dinamic va fi egal cu 3,0 D:

Pentru a măsura latitudinea fotografică, se folosesc în mod tradițional așa-numitele unități de expunere, prescurtate EV (valori de expunere; profesioniștii le numesc adesea „opriri” sau „pași”). În aceste unități valoarea de compensare a expunerii este de obicei setată în setările camerei. Creșterea valorii latitudinii fotografice cu 1 EV echivalează cu dublarea diferenței dintre nivelurile maxime și minime de luminozitate. Astfel, scala EV este, de asemenea, logaritmică, dar în acest caz logaritmul de bază 2 este utilizat pentru a calcula valorile numerice. latitudinea fotografică va fi de 8 EV:

Compresia este un compromis rezonabil

Cea mai eficientă modalitate de a păstra informațiile complete ale imaginii capturate de senzorul sensibil la lumină al camerei este înregistrarea imaginilor în format RAW. Cu toate acestea, nu toate camerele au o astfel de funcție și nu orice fotograf amator este pregătit să se angajeze în munca minuțioasă de selectare a setărilor individuale pentru fiecare fotografie realizată.

Pentru a reduce probabilitatea pierderii detaliilor în imaginile cu contrast ridicat convertite în interiorul camerei în JPEG de 8 biți, dispozitivele de la mulți producători (nu doar cele compacte, ci și DSLR-uri) au introdus funcții speciale care permit intervalului dinamic al imaginilor salvate să să fie comprimat fără intervenția utilizatorului. Prin reducerea contrastului general și pierderea unei mici părți a informațiilor din imaginea originală, astfel de soluții fac posibilă păstrarea detaliilor în lumini și umbre capturate de senzorul fotosensibil al dispozitivului în format JPEG de 8 biți, chiar dacă intervalul dinamic al imaginea originală s-a dovedit a fi mai lată de 8 EV.

Unul dintre pionierii în dezvoltarea acestui domeniu a fost compania HP. Lansată în 2003, camera digitală HP Photosmart 945 a prezentat prima tehnologie HP Adaptive Lightling din lume, care compensează automat nivelurile scăzute de lumină în zonele întunecate ale fotografiilor și, astfel, păstrează detaliile din umbră fără riscul de supraexpunere (ceea ce este foarte important atunci când fotografiați la nivel ridicat). scene de contrast). Algoritmul HP Adaptive Lightling se bazează pe principiile stabilite de omul de știință englez Edwin Land în teoria RETINEX a percepției vizuale umane.

Meniul HP Adaptive Lighting

Cum funcționează Adaptive Lighting? După obținerea unei imagini pe 12 biți a imaginii, din aceasta este extrasă o imagine monocromă auxiliară, care este de fapt o hartă de iradiere. La procesarea unei imagini, acest card este folosit ca mască, permițându-vă să reglați gradul de influență al unui filtru digital destul de complex asupra imaginii. Astfel, în zonele corespunzătoare celor mai întunecate puncte ale hărții, impactul asupra imaginii viitoarei imagini este minim și invers. Această abordare permite dezvăluirea detaliilor umbrelor prin iluminarea selectivă a acestor zone și, în consecință, reducerea contrastului general al imaginii rezultate.

Trebuie remarcat faptul că atunci când Iluminarea adaptivă este activată, imaginea capturată este procesată în modul descris mai sus înainte ca imaginea finală să fie scrisă într-un fișier. Toate operațiunile descrise sunt efectuate automat, iar utilizatorul poate selecta doar unul dintre cele două moduri de operare Adaptive Lighting (expunere scăzută sau mare) din meniul camerei sau poate dezactiva această funcție.

În general, multe funcții specifice ale camerelor digitale moderne (inclusiv sistemele de recunoaștere facială discutate în articolul precedent) sunt un fel de produs secundar sau de conversie al muncii de cercetare care a fost efectuată inițial pentru clienții militari. Când vine vorba de funcțiile de optimizare a intervalului dinamic al imaginii, unul dintre cei mai cunoscuți furnizori de astfel de soluții este Apical. Algoritmii creați de angajații săi, în special, stau la baza funcționării funcției SAT (Shadow Adjustment Technology), implementată într-un număr de modele de camere digitale Olympus. Pe scurt, funcționarea funcției SAT poate fi descrisă după cum urmează: pe baza imaginii originale a imaginii, se creează o mască corespunzătoare zonelor cele mai întunecate, iar apoi valoarea expunerii este corectată automat pentru aceste zone.

Sony a achiziționat, de asemenea, o licență de utilizare a dezvoltărilor Apical. Multe modele de camere compacte din seria Cyber-shot și din camerele DSLR din seria alpha implementează așa-numita funcție Dynamic Range Optimizer (DRO).

Fotografii realizate cu HP Photosmart R927 dezactivat (mai sus)
și funcția de iluminare adaptivă activată

Când DRO este activat, corectarea imaginii este efectuată în timpul procesării inițiale a imaginii (adică înainte de înregistrarea fișierului JPEG finalizat). În versiunea de bază, DRO are o setare în două etape (puteți selecta un mod de operare standard sau avansat în meniu). Când selectați modul Standard, nivelurile de expunere sunt ajustate pe baza analizei imaginii fotografiei, iar apoi se aplică imaginii o curbă de ton pentru a uniformiza echilibrul general. Modul avansat folosește un algoritm mai complex care permite corectarea atât a umbrelor, cât și a luminii.

Dezvoltatorii Sony lucrează în mod constant pentru a îmbunătăți algoritmul DRO. De exemplu, în camera SLR a700, când modul DRO avansat este activat, este posibil să selectați una dintre cele cinci opțiuni de corecție. În plus, este posibil să salvați trei versiuni ale unei imagini simultan (un fel de bracketing) cu diferite setări DRO.

Multe modele de aparate foto digitale Nikon au o funcție D-Lighting, care se bazează și pe algoritmi apicali. Adevărat, spre deosebire de soluțiile descrise mai sus, D-Lighting este implementat ca un filtru pentru procesarea imaginilor salvate anterior folosind o curbă tonală, a cărei formă vă permite să faceți umbrele mai ușoare, păstrând în același timp alte zone ale imaginii neschimbate. Dar, deoarece în acest caz sunt procesate imagini gata făcute pe 8 biți (și nu imaginea cadrului original, care are o adâncime de biți mai mare și, în consecință, o gamă dinamică mai largă), capacitățile D-Lighting sunt foarte limitate. Utilizatorul poate obține același rezultat prin procesarea imaginii într-un editor grafic.

Când comparăm fragmente mărite, este clar vizibil că zonele întunecate ale imaginii originale (stânga)
când funcția Adaptive Lighting a fost activată, acestea au devenit mai ușoare

Există, de asemenea, o serie de soluții bazate pe alte principii. Astfel, multe camere din familia Lumix de la Panasonic (în special, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 etc.) implementează funcția de recunoaștere a luminii (Intelligent Exposure), care este o parte integrantă a sistemului iA control automat inteligent al fotografierii. Funcția Intelligent Exposure se bazează pe analiza automată a imaginii cadrului și corectarea zonelor întunecate ale imaginii pentru a evita pierderea detaliilor în umbră, precum și (dacă este necesar) comprimarea intervalului dinamic al scenelor cu contrast ridicat.

În unele cazuri, funcția de optimizare a intervalului dinamic implică nu numai anumite operații de procesare a imaginii originale, ci și corectarea setărilor de fotografiere. De exemplu, noile modele de camere digitale Fujifilm (în special, FinePix S100FS) implementează o funcție de extindere a intervalului dinamic (Wide Dynamic Range, WDR), care, potrivit dezvoltatorilor, vă permite să creșteți latitudinea fotografică cu unul sau doi pași (în terminologia setărilor - 200 și 400%).

Când WDR este activat, camera face fotografii cu compensarea expunerii de -1 sau -2 EV (în funcție de setarea selectată). Astfel, imaginea cadrului se dovedește a fi subexpusă - acest lucru este necesar pentru a păstra informații maxime despre detaliile din evidențieri. Imaginea rezultată este apoi procesată folosind o curbă de ton, care vă permite să egalizați echilibrul general și să reglați nivelul de negru. Imaginea este apoi convertită în format de 8 biți și înregistrată ca fișier JPEG.

Compresia din intervalul dinamic păstrează mai multe detalii
în lumini și umbre, dar o consecință inevitabilă a unei astfel de expuneri
este o scădere a contrastului general. În imaginea de jos
textura norilor este însă mult mai bine dezvoltată
datorită contrastului mai scăzut, această versiune a fotografiei
arata mai putin natural

O funcție similară numită Dynamic Range Enlargement este implementată într-un număr de camere compacte și SLR de la Pentax (Optio S12, K200D etc.). Potrivit producătorului, utilizarea funcției de mărire a intervalului dinamic vă permite să creșteți latitudinea fotografică a imaginilor cu 1 EV fără a pierde detalii în lumini și umbre.

O funcție similară numită Highlight tone priority (HTP) este implementată într-un număr de modele Canon DSLR (EOS 40D, EOS 450D etc.). Conform manualului de utilizare, activarea HTP îmbunătățește detaliile de evidențiere (în special, în intervalul de gri de la 0 la 18%).

Concluzie

Să rezumam. Compresia în gamă dinamică încorporată vă permite să convertiți o imagine sursă cu gamă dinamică înaltă într-un fișier JPEG de 8 biți cu o întrerupere minimă. Fără opțiunea de salvare a imaginilor în format RAW, modul Dynamic Range Compression permite fotografilor să utilizeze mai pe deplin potențialul camerei lor atunci când înregistrează scene cu contrast ridicat.

Desigur, este important să ne amintim că compresia în intervalul dinamic nu este un remediu miraculos, ci mai degrabă un compromis. Păstrarea detaliilor în lumini și/sau umbre vine cu prețul creșterii nivelului de zgomot în zonele întunecate ale imaginii, reducându-i contrastul și oarecum grosieră tranzițiile tonale netede.

Ca orice funcție automată, algoritmul de compresie în intervalul dinamic nu este o soluție complet universală care vă permite să îmbunătățiți absolut orice fotografie. Prin urmare, are sens să-l activați doar în cazurile în care este cu adevărat necesar. De exemplu, pentru a fotografia o siluetă cu un fundal bine proiectat, funcția de compresie a intervalului dinamic trebuie dezactivată - altfel scena spectaculoasă va fi ruinată fără speranță.

În încheierea analizei noastre asupra acestui subiect, trebuie remarcat faptul că utilizarea funcțiilor de compresie în intervalul dinamic nu ne permite să „extragem” detalii din imaginea rezultată care nu au fost capturate de senzorul camerei. Pentru a obține rezultate satisfăcătoare atunci când fotografiați scene cu contrast ridicat, poate fi necesar să utilizați instrumente suplimentare (cum ar fi filtre de gradient pentru fotografia de peisaj) sau tehnici speciale (cum ar fi fotografierea mai multor cadre cu bracketing de expunere și apoi îmbinarea lor într-o singură imagine folosind tehnologia Tone Mapping). ).

Următorul articol se va concentra pe funcția de explozie.

Va urma

© 2014 site

Sau latitudinea fotografică materialul fotografic este raportul dintre valorile maxime și minime ale expunerii care pot fi surprinse corect în fotografie. Când se aplică fotografiei digitale, intervalul dinamic este de fapt echivalent cu raportul dintre valorile maxime și minime posibile ale semnalului electric util generat de fotosenzor în timpul expunerii.

Intervalul dinamic este măsurat în intervale de expunere (). Fiecare pas corespunde dublării cantității de lumină. Deci, de exemplu, dacă o anumită cameră are o gamă dinamică de 8 EV, aceasta înseamnă că valoarea maximă posibilă a semnalului util al matricei sale este legată de minimul ca 2 8: 1, ceea ce înseamnă că camera este capabil să captureze obiecte care diferă în luminozitate într-un cadru de cel mult 256 de ori. Mai exact, poate captura obiecte cu orice luminozitate, dar obiectele a căror luminozitate depășește valoarea maximă admisă vor apărea în imagine alb orbitor, iar obiectele a căror luminozitate este sub valoarea minimă vor apărea negru. Detaliile și textura vor fi vizibile numai pe acele obiecte a căror luminozitate se încadrează în intervalul dinamic al camerei.

Pentru a descrie relația dintre luminozitatea celor mai luminoase și a celor mai întunecate obiecte fotografiate, este adesea folosit termenul nu complet corect „gamă dinamică a scenei”. Ar fi mai corect să vorbim despre domeniul de luminozitate sau nivelul de contrast, deoarece intervalul dinamic este de obicei o caracteristică a dispozitivului de măsurare (în acest caz, matricea unei camere digitale).

Din păcate, gama de luminozitate a multor scene frumoase pe care le întâlnim în viața reală poate depăși semnificativ intervalul dinamic al unei camere digitale. În astfel de cazuri, fotograful este forțat să decidă ce obiecte trebuie prelucrate în detaliu și care pot fi lăsate în afara intervalului dinamic fără a compromite intenția creativă. Pentru a profita la maximum de intervalul dinamic al camerei dvs., este posibil să aveți nevoie uneori nu atât de o înțelegere aprofundată a modului în care funcționează fotosenzorul, cât mai degrabă de un simț artistic dezvoltat.

Factori care limitează intervalul dinamic

Limita inferioară a intervalului dinamic este stabilită de nivelul de zgomot propriu al fotosenzorului. Chiar și o matrice neluminată generează un semnal electric de fundal numit zgomot întunecat. De asemenea, interferența apar atunci când sarcina este transferată la convertorul analog-digital, iar ADC-ul însuși introduce o anumită eroare în semnalul digitalizat - așa-numita. zgomot de eșantionare.

Dacă faceți o fotografie în întuneric complet sau cu capacul lentilei pus, camera va înregistra doar acest zgomot fără sens. Dacă o cantitate minimă de lumină este lăsată să ajungă la senzor, fotodiodele vor începe să acumuleze o sarcină electrică. Mărimea sarcinii și, prin urmare, intensitatea semnalului util, va fi proporțională cu numărul de fotoni capturați. Pentru ca orice detalii semnificative să apară în imagine, este necesar ca nivelul semnalului util să depășească nivelul zgomotului de fundal.

Astfel, limita inferioară a intervalului dinamic sau, cu alte cuvinte, pragul de sensibilitate al senzorului poate fi definit formal ca nivelul semnalului de ieșire la care raportul semnal-zgomot este mai mare decât unitatea.

Limita superioară a intervalului dinamic este determinată de capacitatea unei fotodiode individuale. Dacă în timpul expunerii orice fotodiodă acumulează o sarcină electrică de valoarea sa maximă, atunci pixelul imaginii corespunzător fotodiodei supraîncărcate va deveni complet alb, iar iradierea ulterioară nu va afecta în niciun fel luminozitatea acestuia. Acest fenomen se numește tăiere. Cu cât este mai mare capacitatea de suprasarcină a unei fotodiode, cu atât este mai mare semnalul de ieșire pe care îl poate produce înainte de a ajunge la saturație.

Pentru o mai mare claritate, să ne întoarcem la curba caracteristică, care este un grafic al semnalului de ieșire în funcție de expunere. Axa orizontală reprezintă logaritmul binar al radiației primite de senzor, iar axa verticală reprezintă logaritmul binar al mărimii semnalului electric generat de senzor ca răspuns la această radiație. Desenul meu este în mare măsură convențional și servește pur scop ilustrativ. Curba caracteristică a unui fotosenzor real are o formă ceva mai complexă, iar nivelul de zgomot este rareori atât de ridicat.

Graficul arată clar două puncte de cotitură critice: în primul dintre ele, nivelul semnalului util traversează pragul de zgomot, iar în al doilea, fotodiodele ajung la saturație. Valorile de expunere care se află între aceste două puncte alcătuiesc intervalul dinamic. În acest exemplu abstract, este egal, așa cum este ușor de văzut, cu 5 EV, i.e. Aparatul foto poate gestiona cinci dublări ale expunerii, ceea ce este echivalent cu o diferență de 32 de ori (2 5 = 32) de luminozitate.

Zonele de expunere care alcătuiesc intervalul dinamic sunt inegale. Zonele superioare au un raport semnal-zgomot mai mare și, prin urmare, par mai curate și mai detaliate decât cele inferioare. Drept urmare, limita superioară a intervalului dinamic este foarte semnificativă și vizibilă - clippingul întrerupe lumina la cea mai mică supraexpunere, în timp ce limita inferioară este înecată în zgomot în mod discret, iar tranziția la negru nu este nici pe departe la fel de ascuțită ca la alb.

Dependența liniară a semnalului de expunere, precum și creșterea bruscă la un platou, sunt caracteristici unice ale procesului fotografic digital. Pentru comparație, aruncați o privire la curba caracteristică a filmului fotografic tradițional.

Forma curbei și în special unghiul de înclinare depind puternic de tipul de film și de procedura de dezvoltare a acestuia, dar diferența principală, izbitoare dintre graficul filmului și cel digital rămâne neschimbată - natura neliniară a dependenței de densitatea optică a filmului asupra valorii expunerii.

Limita inferioară a latitudinii fotografice a filmului negativ este determinată de densitatea vălului, iar limita superioară este determinată de densitatea optică maximă realizabilă a stratului fotografic; pentru filmele reversibile este invers. Atât în ​​umbre, cât și în lumini, se observă curbe netede în curba caracteristică, indicând o scădere a contrastului la apropierea limitelor intervalului dinamic, deoarece panta curbei este proporțională cu contrastul imaginii. Astfel, zonele de expunere situate în partea de mijloc a graficului au contrast maxim, în timp ce în lumini și umbre contrastul este redus. În practică, diferența dintre film și o matrice digitală este vizibilă în special în evidențieri: în cazul în care într-o imagine digitală, evidențierile sunt arse prin tăiere, pe film detaliile sunt încă vizibile, deși scăzute în contrast, iar tranziția la albul pur arată neted și natural.

În sensitometrie se folosesc chiar și doi termeni independenți: de fapt latitudinea fotografică, limitat de o porțiune relativ liniară a curbei caracteristice și latitudine fotografică utilă, care, pe lângă secțiunea liniară, include și baza și umărul diagramei.

Este de remarcat faptul că atunci când se prelucrează fotografii digitale, de regulă, li se aplică o curbă în formă de S mai mult sau mai puțin pronunțată, crescând contrastul în tonuri medii cu prețul reducerii acestuia în umbre și lumini, ceea ce conferă imaginii digitale un aspect mai mare. aspect natural și plăcut ochiului.

Adâncime de biți

Spre deosebire de matricea unei camere digitale, vederea umană este caracterizată de, să spunem, o viziune logaritmică a lumii. Dublările succesive ale cantității de lumină sunt percepute de noi ca modificări egale ale luminozității. Numerele luminoase pot fi chiar comparate cu octavele muzicale, deoarece modificările duble ale frecvenței sunetului sunt percepute de ureche ca un singur interval muzical. Alte simțuri funcționează pe acest principiu. Neliniaritatea percepției extinde foarte mult gama de sensibilitate umană la stimuli de intensitate diferită.

Când convertiți un fișier RAW (nu contează - folosind camera sau într-un convertor RAW) care conține date liniare, așa-numitele. curba gamma, care este concepută pentru a crește neliniar luminozitatea unei imagini digitale, aducând-o în conformitate cu caracteristicile vederii umane.

Cu conversia liniară, imaginea este prea întunecată.

După corecția gama, luminozitatea revine la normal.

Curba gamma întinde tonurile întunecate și le comprimă pe cele deschise, făcând distribuția gradațiilor mai uniformă. Rezultatul este o imagine cu aspect natural, dar zgomotul și artefactele de eșantionare din umbră devin inevitabil mai vizibile, ceea ce este doar exacerbat de numărul mic de niveluri de luminozitate din zonele inferioare.

Distribuția liniară a gradațiilor de luminozitate.
Distribuție uniformă după aplicarea curbei gamma.

ISO și interval dinamic

În ciuda faptului că fotografia digitală folosește același concept de fotosensibilitate a materialului fotografic ca și în fotografia de film, trebuie înțeles că acest lucru se întâmplă numai datorită tradiției, deoarece abordările privind schimbarea fotosensibilității în fotografia digitală și filmul sunt fundamental diferite.

Creșterea sensibilității ISO în fotografia tradițională înseamnă înlocuirea unui film cu altul cu granulație mai grosieră, de exemplu. Există o schimbare obiectivă a proprietăților materialului fotografic în sine. Într-o cameră digitală, sensibilitatea la lumină a senzorului este strict determinată de caracteristicile sale fizice și nu poate fi modificată în sensul literal. Când crește ISO, camera nu modifică sensibilitatea reală a senzorului, ci doar amplifică semnalul electric generat de senzor ca răspuns la iradiere și ajustează algoritmul de digitizare pentru acest semnal în consecință.

O consecință importantă a acestui fapt este că intervalul dinamic efectiv scade proporțional cu creșterea ISO, deoarece odată cu semnalul util crește și zgomotul. Dacă la ISO 100 întreaga gamă de valori ale semnalului este digitalizată - de la zero până la punctul de saturație, atunci la ISO 200 este luată ca maximă doar jumătate din capacitatea fotodiodelor. La fiecare dublare a sensibilității ISO, treapta superioară a intervalului dinamic este tăiată, iar treptele rămași sunt trase la locul său. Acesta este motivul pentru care utilizarea valorilor ISO foarte ridicate nu are sens practic. Cu același succes, puteți lumina fotografia într-un convertor RAW și puteți obține un nivel de zgomot comparabil. Diferența dintre creșterea ISO și luminozitatea artificială a imaginii este că la creșterea ISO, semnalul este amplificat înainte de a intra în ADC, ceea ce înseamnă că zgomotul de cuantizare nu este amplificat, spre deosebire de zgomotul propriu al senzorului, în timp ce într-un convertor RAW este supuse amplificării, inclusiv erori ADC. În plus, reducerea intervalului de eșantionare înseamnă o eșantionare mai precisă a valorilor rămase ale semnalului de intrare.

Apropo, scăderea ISO sub valoarea de bază (de exemplu, la ISO 50), disponibilă pe unele dispozitive, nu extinde deloc intervalul dinamic, ci pur și simplu atenuează semnalul la jumătate, ceea ce echivalează cu întunecarea imaginii în convertorul RAW. Această funcție poate fi considerată chiar dăunătoare, deoarece utilizarea unei valori ISO subminimale provoacă camera să mărească expunerea, ceea ce, în timp ce pragul de saturație al senzorului rămâne neschimbat, crește riscul de tăiere în zonele evidențiate.

Interval dinamic adevărat

Există o serie de programe precum (DxO Analyzer, Imatest, RawDigger etc.) care vă permit să măsurați intervalul dinamic al unei camere digitale acasă. În principiu, acest lucru nu este foarte necesar, deoarece datele pentru majoritatea camerelor pot fi găsite gratuit pe Internet, de exemplu, pe site-ul web DxOMark.com.

Ar trebui să credem rezultatele unor astfel de teste? Destul de. Cu singura avertizare că toate aceste teste determină intervalul dinamic efectiv sau, ca să spunem așa, tehnic, i.e. relația dintre nivelul de saturație și nivelul de zgomot al matricei. Pentru un fotograf, cel mai important lucru este intervalul dinamic util, adică. numărul de zone de expunere care vă permit cu adevărat să captați câteva informații utile.

După cum vă amintiți, pragul intervalului dinamic este stabilit de nivelul de zgomot al fotosenzorului. Problema este că, în practică, zonele inferioare, care sunt deja incluse din punct de vedere tehnic în intervalul dinamic, conțin încă prea mult zgomot pentru a fi utilizate în mod util. Aici depind foarte mult de dezgustul individual - fiecare determină singur nivelul de zgomot acceptabil.

Părerea mea subiectivă este că detaliile din umbră încep să arate mai mult sau mai puțin decente atunci când raportul semnal-zgomot este de cel puțin opt. Pe această bază, definesc intervalul dinamic util ca interval dinamic tehnic minus aproximativ trei opriri.

De exemplu, dacă o cameră DSLR, conform testelor de încredere, are o gamă dinamică de 13 EV, ceea ce este foarte bun pentru standardele actuale, atunci intervalul său dinamic util va fi de aproximativ 10 EV, ceea ce, în general, este și destul de bun. Desigur, vorbim de fotografiere în RAW, cu ISO minim și adâncime maximă de biți. Când fotografiați JPEG, intervalul dinamic depinde în mare măsură de setările de contrast, dar în medie ar trebui să renunțați la încă două sau trei opriri.

Pentru comparație: filmele de inversare a culorilor au o latitudine fotografică utilă de 5-6 opriri; Filmele negative alb-negru oferă 9-10 opriri cu proceduri standard de dezvoltare și imprimare și cu anumite manipulări - până la 16-18 opriri.

Pentru a rezuma cele de mai sus, să încercăm să formulăm câteva reguli simple, a căror respectare vă va ajuta să obțineți performanță maximă din senzorul camerei dvs.:

  • Gama dinamică a unei camere digitale este pe deplin accesibilă numai când fotografiați în format RAW.
  • Intervalul dinamic scade pe măsură ce sensibilitatea la lumină crește, așa că evitați setările ISO ridicate, dacă nu este absolut necesar.
  • Folosirea unei adâncimi de biți mai mari pentru fișierele RAW nu crește intervalul dinamic real, dar îmbunătățește separarea tonală în umbre datorită nivelurilor mai mari de luminozitate.
  • Expunerea la dreapta. Zonele superioare de expunere conțin întotdeauna maximum de informații utile cu un minim de zgomot și ar trebui utilizate cel mai eficient. În același timp, nu uitați de pericolul tăierii - pixelii care au ajuns la saturație sunt absolut inutili.

Și cel mai important: nu vă faceți griji prea mult cu privire la intervalul dinamic al camerei dvs. Gama sa dinamică este bună. Abilitatea ta de a vedea lumina și de a gestiona corect expunerea este mult mai importantă. Un fotograf bun nu se va plânge de lipsa latitudinii fotografice, ci va încerca să aștepte o iluminare mai confortabilă, sau să schimbe unghiul sau să folosească blițul, într-un cuvânt, va acționa în conformitate cu circumstanțele. Vă spun mai multe: unele scene beneficiază doar de faptul că nu se încadrează în intervalul dinamic al camerei. Adesea, o abundență inutilă de detalii trebuie pur și simplu ascunsă într-o siluetă neagră semi-abstractă, ceea ce face fotografia atât mai laconică, cât și mai bogată.

Contrastul ridicat nu este întotdeauna un lucru rău – trebuie doar să știi cum să lucrezi cu el. Învață să exploatezi neajunsurile echipamentului, precum și avantajele acestuia și vei fi surprins cât de mult se vor extinde posibilitățile tale creative.

Vă mulțumim pentru atenție!

Vasily A.

Post scriptum

Dacă articolul ți s-a părut util și informativ, poți susține proiectul contribuind la dezvoltarea lui. Dacă nu ți-a plăcut articolul, dar ai gânduri despre cum să-l îmbunătățești, critica ta va fi acceptată cu nu mai puțină recunoștință.

Vă rugăm să rețineți că acest articol este supus dreptului de autor. Retipărirea și citarea sunt permise cu condiția să existe un link valid către sursă, iar textul folosit nu trebuie să fie distorsionat sau modificat în niciun fel.

Compresia este unul dintre cele mai pline de mituri în producția de sunet. Se spune că Beethoven chiar i-a speriat pe copiii vecinului cu ea:(

Bine, de fapt, utilizarea compresiei nu este mai dificilă decât utilizarea distorsiunii, principalul lucru este să înțelegeți principiul funcționării acesteia și să aveți un control bun. Asta vom vedea împreună acum.

Ce este compresia audio

Primul lucru de înțeles înainte de pregătire este compresia. lucrul cu gama dinamică a sunetului. Și, la rândul său, nu este altceva decât diferența dintre cele mai puternice și cele mai silentioase niveluri de semnal:

Asa de, compresia este compresia intervalului dinamic. Da, Doar compresie în intervalul dinamic, sau cu alte cuvinte scăderea nivelului părților puternice ale semnalului și creșterea volumului părților silentioase. Nu mai.

S-ar putea să vă întrebați în mod rezonabil de ce este conectat un astfel de hype atunci? De ce toată lumea vorbește despre rețete pentru setările corecte ale compresorului, dar nimeni nu le împărtășește? De ce, în ciuda numărului uriaș de plugin-uri cool, multe studiouri folosesc încă modele scumpe și rare de compresoare? De ce unii producători folosesc compresoare la setări extreme, în timp ce alții nu le folosesc deloc? Și care dintre ele are dreptate până la urmă?

Probleme rezolvate prin compresie

Răspunsurile la astfel de întrebări se află în planul înțelegerii rolului compresiei în lucrul cu sunetul. Și permite:

  1. Subliniază atacul sunet, făcându-l mai pronunțat;
  2. „Setarea” părților individuale ale instrumentelor în mix, adăugându-le putere și „greutate”;
  3. Faceți mai coezive grupurile de instrumente sau un amestec întreg, un astfel de monolit unic;
  4. Rezolvarea conflictelor dintre instrumente folosind sidechain;
  5. Corectați greșelile vocalistului sau ale muzicienilor, nivelându-le dinamica;
  6. Cu o anumită setare acționează ca un efect artistic.

După cum puteți vedea, acesta nu este un proces creativ mai puțin semnificativ decât, să zicem, a veni cu melodii sau a crea timbre interesante. Mai mult, oricare dintre problemele de mai sus poate fi rezolvată folosind 4 parametri principali.

Parametrii de bază ai compresorului

În ciuda numărului imens de modele software și hardware de compresoare, toată „magia” compresiei are loc atunci când parametrii principali sunt configurați corect: prag, raport, atac și eliberare. Să le privim mai detaliat:

Pragul sau pragul de răspuns, dB

Acest parametru vă permite să setați valoarea de la care va funcționa compresorul (adică comprimați semnalul audio). Deci, dacă setăm pragul la -12dB, compresorul va funcționa numai în acele părți ale intervalului dinamic care depășesc această valoare. Dacă tot sunetul nostru este mai silențios de -12db, compresorul îl va trece pur și simplu prin el însuși fără a-l afecta în vreun fel.

Raport sau raport de compresie

Parametrul raport determină cât de mult va fi comprimat un semnal care depășește pragul. Puțină matematică pentru a completa imaginea: să presupunem că am configurat un compresor cu un prag de -12dB, raport 2:1 și i-am alimentat o buclă de tobă în care volumul tobei este -4dB. Care va fi rezultatul funcționării compresorului în acest caz?

În cazul nostru, nivelul tobei depășește pragul cu 8dB. Această diferență în funcție de raport va fi comprimată la 4dB (8dB / 2). Combinat cu partea neprocesată a semnalului, acest lucru va duce la faptul că, după procesarea de către un compresor, volumul tobei va fi de -8db (pragul -12dB + semnal comprimat 4dB).

Atacul, dna

Acesta este timpul după care compresorul va răspunde la depășirea pragului de răspuns. Adică, dacă timpul de atac este peste 0 ms - compresorul începe compresia depășirea semnalului de prag nu imediat, ci după un timp specificat.

Eliberare sau recuperare, ms

Opusul unui atac - valoarea acestui parametru vă permite să specificați cât timp după ce nivelul semnalului revine sub prag compresorul se va opri din comprimare.

Înainte de a trece mai departe, vă recomand cu tărie să luați o probă binecunoscută, să plasați orice compresor pe canalul său și să experimentați cu parametrii de mai sus timp de 5-10 minute pentru a fixa în siguranță materialul.

Toate alți parametri sunt opționali. Ele pot diferi între diferite modele de compresoare, motiv pentru care producătorii folosesc modele diferite în scopuri specifice (de exemplu, un compresor pentru voce, altul pentru un grup de tobe, un al treilea pentru canalul principal). Nu mă voi opri asupra acestor parametri în detaliu, ci voi oferi doar informații generale pentru a înțelege despre ce este vorba:

  • Genunchi sau îndoire (genunchi dur/moale). Acest parametru determină cât de repede va fi aplicat raportul (raportul) de compresie: dur de-a lungul unei curbe sau fără probleme. Remarc că în modul Soft Knee compresorul nu funcționează liniar, ci începe să comprima lin (în măsura în care acest lucru poate fi potrivit când vorbim de milisecunde) sunetul. deja înainte de valoarea pragului. Pentru a procesa grupuri de canale și amestecul general, se folosește adesea soft knee (deoarece funcționează neobservat), iar pentru a sublinia atacul și alte caracteristici ale instrumentelor individuale, se folosește hard knee;
  • Mod de răspuns: Vârf/RMS. Modul Peak este justificat atunci când trebuie să limitați strict exploziile de amplitudine, precum și pe semnalele cu o formă complexă, a căror dinamică și lizibilitate trebuie să fie transmise pe deplin. Modul RMS este foarte blând cu sunetul, permițându-ți să-l îngrozi în timp ce menții atacul;
  • Previziune (privire). Acesta este timpul în care compresorul va ști ce se întâmplă cu el. Un fel de analiză preliminară a semnalelor de intrare;
  • Machiaj sau câștig. Un parametru care vă permite să compensați scăderea volumului ca urmare a compresiei.

În primul rând și cel mai important sfat, care elimină toate întrebările ulterioare despre compresie: dacă a) înțelegeți principiul compresiei, b) știți cu fermitate cum acest sau acel parametru afectează sunetul și c) ați reușit să încercați mai multe modele diferite în practică - nu mai ai nevoie de sfaturi.

Sunt absolut serios. Dacă ați citit cu atenție această postare, ați experimentat cu compresorul standard al DAW-ului dvs. și unul sau două plug-in-uri, dar tot nu ați înțeles în ce cazuri trebuie să setați valori mari de atac, ce raport să utilizați și în ce mod să procesați semnal sursă - atunci veți continua să căutați pe internet rețete gata făcute, aplicându-le fără gânduri oriunde.

Rețete de reglare fină a compresoarelor este un fel de rețete pentru reglarea fină a unei reverb sau refren - nu are sens și nu are nimic de-a face cu creativitatea. Prin urmare, repet cu insistență singura rețetă corectă: înarmați-vă cu acest articol, căști monitor bune, un plug-in pentru controlul vizual al formei de undă și petreceți seara în compania unor compresoare.

Ia măsuri!