Аналоговый и цифровой способы записи звука. Цифровая запись информации

Звукоза́пись - процесс записи звуковых сигналов. Результатом звукозаписи является фонограмма .

Необходимое оборудование: устройство для преобразования акустических колебаний в электрический сигнал (микрофон) или генератор тона (напр. звуковой синтезатор , семплер), устройство для преобразования электрических колебаний в последовательность цифр (в цифровой записи), устройство для сохранения (магнитофон, жёсткий диск компьютера или иное устройство для сохранения полученной информации на носитель). Звукозапись может быть моно-, стерео- и квадрофонической.

Самая старая из известных звукозаписей была сделана 9 апреля 1860 года парижским изобретателем Эдуардом-Леоном Скоттом де Мартенвилем с помощью устройства, называемого «фоноавтограф » .

В зависимости от сохранения, выделяют два основных вида записи звуков: аналоговый и цифровой .

Аналоговая звукозапись [ | ]

Магнитная звукозапись [ | ]

Запись производится с помощью записывающей магнитной головки, создающей переменное магнитное поле на участке движущегося носителя (зачастую магнитной ленты), обладающего магнитными свойствами. На ферромагнитном слое носителя остаётся след остаточного намагничивания. След и есть дорожка фонограммы. При воспроизведении магнитная головка преобразует остаточный магнитный поток движущегося носителя записи в электрический сигнал звуковой частоты.

Цифровая звукозапись [ | ]

Под цифровой записью понимают оцифровку и сохранение звука в виде набора бит (битовой последовательности), который описывает воспроизведение тем или иным устройством.

Магнитная цифровая звукозапись [ | ]

Запись цифровых сигналов производится на магнитную ленту. Выделяют два типа записи:

Магнитооптическая запись [ | ]

Запись на магнитооптический диск осуществляется по следующей технологии: излучение лазера разогревает участок дорожки выше температуры точки Кюри , после чего электромагнитный импульс изменяет намагниченность, создавая отпечатки, эквивалентные питам на оптических дисках. Считывание осуществляется тем же самым лазером, но на меньшей мощности, недостаточной для разогрева диска: поляризованный лазерный луч проходит сквозь материал диска, отражается от подложки, проходит сквозь оптическую систему и попадает на датчик. При этом в зависимости от намагниченности изменяется плоскость поляризации луча лазера (эффект Керра), что и определяется датчиком.

Лазерная запись [ | ]

При записи данные записываются на диск лучом лазера повышенной мощности, чтобы физически «прожечь» органический краситель записывающего слоя. Когда краситель нагревается выше определённой температуры, он разрушается и темнеет, изменяя отражательную способность «прожжённой» зоны. Таким образом при записи, управляя мощностью лазера, на записывающем слое получают чередование тёмных и светлых пятен, которые при чтении интерпретируются как питы. При чтении лазер имеет значительно меньшую мощность, чем при записи, и не разрушает краситель записывающего слоя. Отражённый от отражающего слоя луч попадает на фотодиод, а если луч попадает на тёмный - «прожжённый» - участок, то луч почти не проходит через него до отражающего слоя и фотодиод регистрирует ослабление светового потока. Чередующиеся светлые и тёмные участки дорожки порождают изменение светового потока отражённого луча и переводятся в изменение электрического сигнала, который далее и преобразуется в биты информации электрической системой привода - «декодируется».

Оптическая цифровая запись звука [ | ]

Звуковое сопровождение к фильму печатается непосредственно на 35-мм киноплёнку оптическим методом в цифровом закодированном виде. При воспроизведении цифровой сигнал считывается специальной насадкой на кинопроектор и затем декодируется процессором в многоканальную фонограмму.

Цифровые аудиоформаты [ | ]

Запись звуковых данных производится в файл определённого формата , который сохраняется на электронных звуковых носителях.

Целью данной статьи не является разжигание святой войны между поклонниками аналогового и цифрового аудио. Целью является показать принципиальные
различия между двумя технологиями. Автор статьи (то есть я) занимает сторону цифровой технологии как наиболее совершенной и хочет
разъяснить всем желающим свою точку зрения не только с субъективной, но и с научной стороны. Знание принципа цифровой записи звука, вкупе с пониманием научной стороны этого дела,
однозначно исключает какие-либо сомнения в превосходстве цифровых технологий над аналоговыми.

Аналоговая запись звука.

По сути, звук (колебание частиц воздуха) имеет аналоговую природу. Звук распространяется в воздушном пространстве, он может искажаться в зависимости
от разнообразных условий - расстояния до источника звука, отражения от окружающих предметов, скорости движения относительно источника и т.п.
Диапазоном воспринимаемых человеческим ухом звуковых колебаний принято считать промежуток от 20 Гц до 20 кГц. На самом деле, 20 кГц - цифра довольно
оптимистичная, мало кто может похвастаться тем, что реально слышит такую частоту. Большинство из встречавшихся мне взрослых людей не слышали частоты выше 15-16
кГц, так что я с большой долей уверенности в качестве среднего порога слышимости назвал бы частоту в 15 кГц. Впрочем, в плане тона нашим ухом
воспринимаются частоты всего лишь до 5 кГц - всё, что выше, является дополнительными гармониками, обертонами, созвуками и т.п. Однако, правильное
воспроизведение высоких составляющих (граничная частота воспроизведения) в основном и является мерой качества записи звука, обычно указываемой в
технических характеристиках любого сколько-нибудь серьёзного звукозаписывающего устройства.

В мире аналоговой записи звука, колебание воздуха сначала преобразуется в электрическое колебание посредством микрофона. Далее, электрическое
колебание подаётся на звукозаписывающую магнитную головку (в случае магнитной ленты) или механический резец (в случае винила). В первом случае,
информация записана на намагниченной ленте, во втором - в канавке пластинки. Для воспроизведения звука, достаточно протянуть магнитную ленту вдоль магнитной головки с той же
скоростью, с которой производилась запись - головка преобразует переменное магнитное поле обратно в электрические колебания, которые усиливаются и
подаются на звуковоспроизводящую систему (динамик). Звуковоспроизводящая система заставляет воздух колебаться и мы слышим звук. В случае с
пластинкой, достаточно прогнать иглу по канавке, которая преобразует механические колебания в электрические, а далее - снова усилитель с колонками.

Чисто с точки зрения здравого смысла из всего вышесказанного следует, что винил - это наихудший вариант для записи звука в принципе, потому что
в процессе записи/воспроизведения присутствует грубая механика (как ни
парадоксально, консерваторами почему-то принято отстаивать именно винил а не магнитные ленты, хотя последние в пике своего развития имели значительно более
высокие качественные характеристики). Кроме всего прочего, почти весь более-менее нормальный винил писАлся именно с магнитных лент. Ему просто
неоткуда было записываться - мастеринг и сведение делались в ленте, поскольку на пластинке это в принципе невозможно. То есть, звук с винила - это
звук с магнитной ленты, только дополненный собственными недостатками винила - треском, шипением и прочими "меломанскими"
безобразиями, обусловленными механическим съёмом звука с канавки пластинки - "плуг в борозде".

Фактически, аналоговая запись звука несовершенна почти на всех стадиях. Например, при записи на магнитную ленту, многое зависит от качества магнитной
головки, архиважным является её калибровка относительно ленты (вечная головная боль). Добавьте сюда детонацию (непостоянство скорости ленты
из-за неточностей в лентопротяжном механизме), саморастяжение ленты, изменения характеристик ленты на её протяжении, случайные выбоины/посторонние
частицы на ней. Винил? Детонация, попадание в канавку мусора, деформация диска, ухудшение качества звука после каждого
проигрывания из-за "раздалбывания" канавки. Но самым главным недостатком аналоговой записи является невозможность
создания точной копии - любая копия с оригинала будет хуже качеством. Плюс ко всему, любой аналоговый носитель, даже будучи неиспользуемым, подвержен
старению и постепенному ухудшению качества воспроизводимого с него звука.

Цифровая запись звука.

Цифровая запись звука стала возможной благодаря огромному техническому прогрессу, произошедшему в последние десятилетия. По сути, в
основе цифровой записи звука лежит довольно старая теория - просто стало возможным сделать из теории практику. Чтобы пояснить принцип цифровой
записи, мне придётся поразглагольствовать несколько больше, поскольку в двух словах рассказать его невозможно.

Само название "цифровая запись" предполагает наличие цифр. Что за цифры? Выше я уже говорил, что сам по себе звук имеет аналоговую природу. Чтобы
записать звук в цифровую форму, нужно просто зафиксировать значения звукового колебания, изменяющегося во времени, в числах с как можно большей
точностью. Далее, для иллюстрации принципа цифровой записи звука я воспользуюсь собственной разработкой - программой
моделирования систем цифровой обработки сигналов sDCAD .

На рисунке зелёным цветом представлен аналоговый, непрерывный сигнал, желтым - его зафиксированные отсчёты (выборки). Выборка - значение сигнала в данный момент времени,
записанное цифрой. Поскольку аналоговый сигнал непрерывно меняется во времени, сразу вырисовывается проблема: для точного воспроизведения сигнала
необходимо бесконечное количество выборок - "одна за другой". Однако, здесь в силу вступает теорема Котельникова (тут вам придётся поверить мне на
слово) - сигнал с известной максимальной частотой можно точно восстановить из цифровых выборок, сделанных с частотой
вдвое большей максимальной частоты этого сигнала . В компакт-дисках (CD) частота выборки установлена "с запасом" - 44.1 кГц, таким образом, с
компакт-диска можно с высокой точностью восстановить сигналы с частотами до 22.05 кГц, что перекрывает возможности самого чуткого уха с лихвой.

Процесс восстановления "промежуточных" значений сигнала между снятыми выборками называется интерполяцией. Интерполяция делается при воспроизведении звука,
записанного в цифровой форме. Чем качественнее производится интерполяция, тем
лучше восстанавливается сигнал. Обратимся к визуальной демонстрации восстановления сигнала из выборок.

На рисунке показан оригинальный сигнал и его зафиксированные выборки. Следующий рисунок показывает то, что получится, если "восстановить" сигнал
без интерполяции, грубо "соединив" ближайшие выборки между собой прямыми линиями.

Как видим, результат немного похож на оригинал, но всё же весьма далёк от него. Конечно, "восстановленный" таким образом звук будет отличаться
от оригинала и на слух. Что получится, если интерполировать выборки и "восстановить" сигнал с
коэффициентом интерполяции 2 (т.е., добавить между уже имеющимися у нас выборками по одной "искусственной", восстановленной выборке)?

Теперь, между имеющимися у нас выборками добавлено по одной "восстановленной". Заметьте, насколько сигнал стал похож на оригинал! Конечно, до
идеала ещё далеко - но ведь это всего лишь коэффициент интерполяции 2! Заостряю внимание: никакого волшебства нет - сигнал интерполируется строго по
теории, математическими вычислениями, без какого-либо подвоха. Также, заметьте интересный факт: восстановленные выборки вовсе не являются средними
значениями между двумя соседними оригинальными выборками.

Удвоим коэффициент интерполяции (4). Качество восстановления сигнала растёт небывалыми темпами.

Если ещё удвоить коэффициент (8), восстановленный сигнал на вид практически не отличается от оригинального. Думаю, продолжать интерполировать
далее не имеет смысла - вы и так уже всё поняли.

Теперь подхожу к ещё одной проблеме цифровой записи. На самом деле, мало просто сделать выборки сигнала на нужной частоте. Надо ещё и записать их
значение максимально точно. Точность при записи называется разрядностью. Чем выше разрядность - тем точнее можно записать выборки сигнала. Нагляднее
всего это демонстрируют два следующих рисунка.

На рисунке представлен всё тот же сигнал, что и на предыдущих - только оцифрованный с разрядностью 2 бита. Несмотря на то, что интерполяция
производилась с коэффициентом 16, восстановленный сигнал вовсе непохож на оригинал. Он и не может быть похожим на него - разрядность в 2 бита
является очень низкой и непригодной для записи звукового колебания.

Всё тот же сигнал, оцифрованный в 16 бит (именно такое качество у CD) и восстановленный с коэффициентом интерполяции 16. Практически неотличим от
оригинала. Отличия будут незаметны на слух. В студийной практике чаще используются более высокие разрядности и частоты выборок -
например, 24бит/48кГц, 24бит/96кГц и т.д. Это связано с тем, что на студиях звук подвергается дальнейшей кропотливой обработке и его лучше иметь в
максимально доступном цифровом качестве. В финальном результате - например, на CD - качества 16бит/44.1кГц для отличного воспроизведения хватает с лихвой.

Добавим сюда тот факт, что цифровая запись не стареет и не может испортиться в принципе. Это - слепок звука, который сам по себе
никаким временным изменениям не подвержен. Также, с этого слепка можно наделать сколь угодное количество копий - и все они будут в точности
одинаковы. А при достаточной точности слепка, его ещё можно и обрабатывать практически неограниченное количество раз.

Подведу черту: все предыдущие изыскания, увещевания и рисунки сводятся к одной мысли - цифровая звукозапись в теории является идеальной. С её
помощью можно записать любой звук, который только может услышать человеческое ухо. А затем можно максимально точно воспроизвести этот звук - с такой
точностью, которая и не снилась аналоговым носителям по причине очевидного несовершенства последних.

Где же подвох?

Теория цифровой записи - как вы, вероятно, уже убедились - свободна от изъянов. Что же происходит на практике?

Во-первых, звук надо грамотно оцифровать - а это задача не совсем тривиальная, хотя упирается она в основном в одну-единственную деталь - АЦП
(аналого-цифровой преобразователь). Допустим, мы взяли суперкачественный микрофон, обеспечили нормальное прохождение электрического сигнала через все
аналоговые цепи (провода, микшер и т.п.). Некачественный АЦП, стоящий на входе цифрового записывающего устройства, враз испортит все старания. Он
может записывать отсчёты с недостаточной точностью. Он может делать выборки с неравномерной частотой. В общем - если АЦП на записи был плох -
записанный звук получается далёким от оригинала и мы уже ничего не сможем с ним сделать (хотя отсчёты по прежнему будут цифровые - исправить их не представится
никаким образом).

Во-вторых, цифровой звук надо грамотно воспроизвести. Ситуация с точностью до наоборот: имеем прекрасную акустическую систему, замечательный
усилитель, отличные провода. Но если мы подключим всё это к выходу некачественного ЦАПа (цифро-аналоговый преобразователь) - получим соответствующий
некачественный звук. У ЦАП обычно больше способов испортить звук: это и неравномерная частота, и недостаточная точность, и, возможно, полное
отсутствие интерполяционной схемы как таковой! Автору доводилось видеть "супербюджетные" звуковые карты для компьютеров, на которых никакой
интерполяции не производилось вовсе, а разрядность выводимого сигнала на вид не доходила и до 5 бит.

Что всё вышесказанное означает? Да то, что качество цифровой записи/воспроизведения зависит только и только от аппаратуры - ровным счётом так же, как и в случае с аналоговыми технологиями.
И если на звукозаписывающих студиях уж явно постарались, приобрели себе хорошую электронику и не имеют проблем с цифровым звуком - у вас эти проблемы
вполне могут появиться, поскольку бытовые проигрыватели цифровой музыки зачастую производят ужасный звук. Здесь раскрывается один момент: во времена
винила и магнитной ленты сама звуковоспроизводящая аппаратура делалась куда более качественно - автор и сам помнит те времена. В наш же век, век
удешевления всего, чего только можно и переноса производства сами знаете куда, ожидать замечательного качества от подавляющего количества среднебюджетной аппаратуры не приходится. Возможно, с
этим и связано большинство негатива в сторону цифровой музыки, т.к. люди не слышат тот звук, который они слышали когда-то. Но зачем винить в этом
цифровую запись? Эта тема уже для другого разговора.

Иногда приходится видеть забавные "обзоры", где люди сравнивают одинаковые альбомы каких-либо исполнителей - сначала в виниле, потом - в CD.
Это смешит: во-первых, переизданная на CD запись будет, конечно же, иметь другой звук, поскольку её ремастерили специально для CD.
Причём, разумеется, ремастеринг делается уж явно для улучшения звука, а не для его ухудшения. Думается, на студиях, переиздающих классические
коллекционные издания хитовой музыки прошлых десятилетий, сидят не профаны.
Во-вторых, тот же винил не в состоянии правильно передать некоторое количество высоких частот из-за очевидной инерционности иглы - звук с винила всегда
характеризуется завалом по ВЧ - он будет более мягким и глуховатым, но кто сказал, что всем нравится эдакая ретро-мягкость?

В голову также приходит другая забавная аналогия. Почему-то, никто не отстаивает видеоформат VHS, говоря, что на DVD худшая картинка. Оно и
понятно - здесь всё видно невооружённым глазом. В случае же со звуком, когда каждый спешит убедить окружающих в своём исключительном слухе, всё
сложнее и плацдарм для разнообразного рода спекуляций шире. Отсюда многочисленные бредовые высказывания, ничего общего со здравым смыслом и наукой не имеющие.
Например, высказывание о том, что "особенно на цифровой записи пропадают басы". Почему именно басы - совершенно непонятно. Равно как и непонятно,
откуда такие профанские мнения постоянно берутся.

Резюме.

С точки зрения науки, цифровая запись звука в сравнении с аналоговой имеет сплошные преимущества и не имеет недостатков. С точки зрения реалий - чтобы услышать по-настоящему
качественный цифровой звук - надо выложить кучу денег, да и не всегда даже за кучу будет хороший результат. Впрочем, в случае с аналоговой записью - ровным счётом всё то же самое.

А напоследок - маленькая сенсация: звук с магнитных лент на самом деле... Цифровой. Связано это с тем, что фактически в
зазор магнитной головки в каждый конкретный момент времени попадает конечное количество магнитных частиц ленты. Следовательно,
значение сигнала уже записано не с полной, а с ограниченной точностью. "Интерполятором" в таком случае выступает сама магнитная головка, т.к. в
ней магнитное поле не может меняться абсолютно мгновенно. Где-то читал (не буду ручаться за достоверность), что примерная разрядность магнитной ленты
- 18 бит. Впрочем, не стоит путать эту "разрядность" с цифровой - всё же, это всего лишь приближение, граничащее с шуткой.

А что же винил?

А винил записан с магнитной ленты.

Традиционное аналоговое представление сигналов основано на подобии (аналогичности) электрических сигналов (изменений тока и напряжения) представленным ими исходным сигналам (звуковому давлению, температуре, скорости и т.п.), а также подобии форм электрических сигналов в различных точках усилительного или передающего тракта. Форма электрической кривой, описывающей (переносящей) исходный сигнал, максимально приближена к форме кривой этого сигнала.

Такое представление наиболее точно, однако малейшее искажение формы несущего электрического сигнала неизбежно повлечет за собой такое же искажение формы и сигнала переносимого. В терминах теории информации, количество информации в несущем сигнале в точности равно количеству информации в сигнале исходном, и электрическое представление не содержит избыточности, которая могла бы защитить переносимый сигнал от искажений при хранении, передаче и усилении.

Любой природный звук имеет аналоговую природу: кожа барабана, струны рояля, голосовые связки плавно перемещаются в пространстве, вызывая упругие волны (области сжатия/разрежения воздуха), которые распространяются в атмосфере. Звуком называются механические волны, частоты которых лежат в пределах от 17-20 до 20000 Гц. Механические волны таких частот производят ощущение звука. Механические волны с частотами ниже 17 Гц называют инфразвуками ,

а свыше 20000 Гц - ультаразвуками . Звуковые волны, улавливаемые ушной раковиной, вызывают вибрацию барабанной перепонки (рис.7.1) и затем через систему слуховых косточек, жидкостей и др. образований передаются воспринимающим рецепторным клеткам, вызывающим в мозгу челеовека звуковые ощущения. При этом громкость звука определяется силой, с которой звуковые волны воздействуют на ухо человека (амплитудой звуковой волны), а высота тона определяется частотой колебаний. Сила ощущения звуковых волн органами слуха субъективна, зависит от чувствительности органа слуха, но непосредственно связана с интенсивностью волн. При определенной минимальной интенсивности человеческое ухо не воспринимает звука. Эта минимальная интенсивность называется порогом слышимости . Порог слышимости имеет различные значения для звука различных частот. При больших интенсивностях ухо испытывает болевое ощущение. Наименьшая интенсивность при болевом восприятии звука называется порогом болевого ощущения .



Уровень интенсивности звука определяется в децибелах (дБ). Количество децибел равно десятичному логарифму отношения интенсивностей, умноженному на 10, т.е. 10lg(I/I 0).

Для преобразования звуковых колебаний в электрические в телефонных аппаратах, устройствах звукозаписи, системах радиовещания и др. областях используются микрофоны. При этом на выходе микрофонов образуется непрерывно изменяющееся аналоговое напряжение (аналог давления и частоты колебаний звуковой волны).

Однако компьютер оперирует нулями и единицами. Процесс оцифровки звука заключается в мгновенной регистрации величины напряжения в различные моменты времени и последующем "склеивании" полученных значений. При просмотре фильма, глаза и мозг связывают цепочку неподвижных изображений в непрерывное движение. В случае цифрового звука "кадры" сливаются в проигрывающем устройстве: непрерывно изменяющееся напряжение более или менее точно воссоздается и подается на громкоговоритель. Если все сделано правильно, то динамик воспроизводит оригинальное движение струны рояля или кожи барабана. Аналогия с фильмом верна в принципе, однако, аудио-"кадры" (samples) записываются в сотни и тысячи раз чаще, чем кадры фильма.

Возможно, аудио-"кадры" нагляднее сравнивать с точками, из которых состоит газетная фотография. Чем плотнее расположены точки (чем выше линиатура), тем более детально воспроизводится изображение. Высокая линиатура требует более качественной бумаги и более аккуратной печати, а большая частота сэмплирования приводит к сильной загрузке компьютера: за один и тот же промежуток времени обрабатывается больше значений, а для хранения и передачи данных требуется большая память и полоса пропускания. В обоих случаях приходится искать компромисс между практичностью и точностью воспроизведения.

При аналоговом способе записи сохраняются величины, непрерывно изменяющиеся по амплитуде и во времени, то есть изменение параметров может происходить на любую бесконечно малую величину. Для сигналов, изменяющихся во времени, важную роль играет частота измерений. Рассмотрим это утверждение на примере цифровой звукозаписи. Оцифрованный звук представляет собой существенную часть мультимедиа. Поэтому представляется рациональным принципиально разобраться в оцифровке звуковой информации.

Как и при оцифровке изображения, для цифровой звукозаписи требуется наличие технического аналога органа чувств. Только здесь это не «электронный глаз», а «электронное ухо», в качестве которого обычно используют микрофон. В микрофоне имеется мембрана, в которой под воздействием звуковой волны возбуждаются колебания, и с помощью катушки на магнитном сердечнике звуковая информация преобразуется в численные значения. Таким образом, мы должны иметь дело с изменяющимся во времени сигналом, а именно, с электрическим напряжением, величина которого изменяется с течением времени.

При цифровом способе записи сохраняются величины, измеренные через определенные последовательные промежутки времени и принимающие фиксированные значения.

Звуковые колебания преобразуются в аудиоадаптере в цифровой сигнал, записываются на каком-либо носителе информации, например, на магнито-оптическом компакт-диске, а затем, если потребуется, через аудиоадаптер преобразуются обратно в аналоговый сигнал и воспроизводятся через громкоговоритель. На рис.7.2 повышение и спад звукового давления представлены в виде кривой.

Обычно уже в аналоговом представлении имеется ошибка, появляющаяся из-за несовершенства преобразований. Так как при обработке, передаче и записи возникают искажения и помехи, то при воспроизведении сигнала нет точного совпадения с оригиналом. Сигнал ухудшается при каждой последующей обработке. Чем чаще повторять этот процесс, тем хуже и хуже будут результаты. Как правило, потеря качества отчетливо ощущается уже после первой обработки. Потеря качества с каждой новой копией может зайти так далеко, что на копии Х вообще нельзя будет ничего различить. Для того чтобы при обработке уменьшить эти ошибки, приходится применять дорогое и сложное оборудование.

Вернемся к примеру со звуковыми волнами. Чтобы характеристики звука (например, его высоту) описать более точно, нужны определенные физические понятия. Первоначально звук существует как аналоговый сигнал (воспринимаемый микрофоном), причем в виде чередования возрастания и спада звукового давления на мембрану микрофона, что вызывает в ней колебательный процесс.

Первая гармоника колебаний мембраны может быть представлена в виде синусоиды. Максимальное отклонение от положения покоя (как вверх, так и вниз) называется амплитудой.

Число колебаний в течение одной секунды называется частотой и измеряется в герцах (Гц). Одно колебание совершается в течение промежутка времени, называемого периодом колебаний, за который процесс, начиная от положения покоя, побывает в верхней и нижней максимальных точках и снова вернется в положение покоя (рис.7.3).

Если представить звуковые волны в виде колебаний на осциллографе, то можно заметить, что большей громкости звука соответствует большая амплитуда колебаний. Точно также и частота колебания зависит от того, низкий звук или высокий (рис.7.4).

Если рассмотреть на осциллографе реакцию микрофона на речь или музыку, то мы увидим не регулярную синусоиду, а более сложную кривую, которая возникает как результат наложения и взаимодействия разных колебаний; это наложение также называют интерференцией.

Цифровое представление выглядит совершенно иначе. При цифровом представлении изменение величины происходит дискретно и как бы заморожено в некоторые моменты времени для измерения значений. Таким образом, эти значения описывают процесс, определяя его состояние в определенные моменты времени последовательностью дискретных чисел. Аналоговый сигнал преобразовывается в цифровой (дискретизируется) при помощи аналого-цифрового преобразователя (АЦП). В нем аналоговый сигнал после измерения на входе квантуется и кодируется. Чем короче временные промежутки между отдельными измерениями, тем точнее описывается и затем воспроизводится процесс. Частота, с которой дискретизируется аналоговый сигнал, называется частотой дискретизации. Преимущество этого способа представления очевидно: так как измеренная величина существует в форме числа, то копирование происходит без потери качества, так как переписывается лишь число. Не наблюдается потеря качества и для копии X, если, разумеется, копирование происходит без ошибок.

Теперь давайте выясним, как часто в единицу времени требуется измерять величину напряжения, поступающего от микрофона, чтобы получить наилучшее качество оцифровки. В качестве важнейшего граничного условия здесь выступает чувствительность человеческого уха к звуковым волнам различной длины

В молодом возрасте порог чувствительности находиться на частоте около 20000 герц, а со временем существенно снижается, и человек не способен их воспринимать звуковые волны с частотами выше 20000 герц. При этом происходило бы только бесполезное увеличение объема данных. Из критерия Найквиста следует, что для оцифровки без искажений замеры следует производить с шагом вдвое меньше, чем самая тонкая деталь информации. При звукозаписи самой тонкой деталью является колебание с частотой 20000 герц, поэтому замеры напряжения должны производиться не реже 40000 раз в секунду. Фактически берут несколько большее значение и производят замеры с частотой 44100 герц.

Это некруглое значение обусловлено тем, что для осуществления первых цифровых записей применялся видеомагнитофон. Такой магнитофон, работающий по стандарту цветного телевидения PAL, записывает 50 изображений (полей) в секунду, и в каждом поле записывается по 294 телевизионных строки, причем это значение стандартизовано. В противоположность этому, число замеров звукового сигнала на строку может изменяться и до определенной верхней границы может быть любым целым числом. При трех замерах на строку в секунду получается 50 х 294 х 3 замеров, что и составляет точно 44100. Интересно, что видеомагнитофон, работающий по американскому стандарту NTSC, также пригоден для такой звукозаписи, поскольку в нем записывается 60 полей в секунду по 245 строк (60 х 245 х 3 также дает 44100).

Однако звуковой сигнал, получаемый, например, от музыкального инструмента, вполне может содержать обертоны с частотой 22000 герц. Это вызывает определенные трудности. Так же как при сканировании изображений со слишком низким разрешением, недостаточное разрешение при оцифровке в случае звукозаписи может привести к искажениям. Из-за низкого числа замеров в оцифрованном сигнале возникают новые колебания, которых не было в исходном сигнале. Этот эффект называют помехой дискретизации, а саму помеху - ложными частотами (по-английски используется термин aliasing). На начальном этапе цифровой звукотехники ложные частоты создавали значительные трудности для инженеров. Между тем появились фильтры с очень резким срезом, которые устраняют в звуковом сигнале частоты выше допустимого значения около 22000 герц, перед тем как сигнал будет подан на аналого-цифровой преобразователь. В этой связи говорят, что перед оцифровкой сигнал ограничивается по полосе частот.

Остается еще проблема точности измерений. Хотя при заниженной точности ложные частоты и возникают, качество записи явно ухудшается. АЦП сравнивает измеренную величину со шкалой числовых значений и присваивает этой величине дискретное значение из имеющихся на шкале. Присвоенное дискретное значение настолько точно отражает состояние процесса, насколько малы по величине деления на шкале.

Если, например, имеется довольно грубая шкала от 1 до 16 (всего 16 значений), то неизбежно возникает относительно большое отклонение значения дискретизируемой величины от квантованного присвоенного значения. Это отклонение называется ошибкой квантования или искажением квантования. Если же шкала имеет 256 значений, то, следовательно, ошибка квантования уменьшается в четыре раза. Так как для записи используется лишь двоичное представление числа, то это означает, что 16 (2 4) степеней сравнения требуют для описания четыре бита. Следовательно, для 256 (2 8) потребуется 8 бит. При допустимой ошибке менее 0,1 процента необходимо иметь 1000 степеней сравнения, для чего потребуется 10 бит.

Цифровая запись музыки в стереофоническом режиме, используемая, например, на компакт-дисках, выполняется с частотой отсчетов 44,1 килогерц и точностью измерений 16 бит (2 байта). Это соответствует объему данных 44100 х 2 х 2 = 176400 байт в секунду, что весьма немало. В мультимедиа-приложениях такой поток данных приемлем только в определенных условиях. Обычно качество записи для этих целей снижают, используя частоту отсчетов 22 килогерц и разрешение 8 бит, причем ограничиваются монофоническим воспроизведением. Благодаря этому поток данных снижается до 22 Кбайт в секунду. Однако дальнейшее снижение уже недопустимо, поскольку оно привело бы к слишком сильному снижению качества звука.

Высококачественный (Hi-Fi) проигрыватель компакт-дисков имеет разрядность 16 бит; это позволяет различать при сравнении 65536 различных состояний. Аудиоадаптер может иметь разрядность 8 бит и 256 различных состояний. Так как при записи приходится обрабатывать огромные объемы данных, то, чтобы не загружать микропроцессор, используется так называемый метод DMA(Direct Memory Access - прямой доступ к памяти). Данные, минуя микропроцессор, прямо попадают в память Чтобы устранить конфликт между аудиоадаптером и микропроцессором, в компьютере имеется специальная микросхема которая называется контроллер прямого доступа к оперативной памяти Контроллер управляет доступом к памяти со стороны микропроцессора или других адаптеров через каналы прямого доступа (номер такого канала требуется задать при инсталляции аудиоадаптера).

Преобразование цифровой величины в аналоговый сигнал который может слышать ухо, происходит в цифро-аналоговом преобразователе (ЦАП - Digital-to-Analog Converter - DAC).

Подводя итог, можно сказать, что цифровая аудиозапись (digital audio) - это цифровое представление аналогового звукового сигнала. Для формирования цифрового представления звукового сигнала используется процесс выборки (sampling). Данный процесс заключается в периодическом измерении амплитуды (громкости) аналогового звукового сигнала и преобразовании полученного значения в последовательность битов. Для осуществления такого преобразования используется специальное устройство, которое называется аналого-цифровой преобразователь - АЦП (Analog-to-Digital Converter - ADC). На выходе АЦП формируется последовательность байтов, которая может быть записана либо на магнитную ленту, либо на другое цифровое устройство в двоичной форме.

Запись в двоичной форме позволяет избежать появления помех во время записи на магнитный носитель, так как записываются только два уровня сигнала - логический ноль и логическая единица, в отличие от аналогового способа записи, при котором записывается много различных уровней сигнала.

Такие системы записи звука обычно называют системами цифровой аудиозаписи с импульсно-кодовой модуляцией (Pulse Code Modulation - PCM). Однако в компьютерной терминологии такой процесс принято называть волновой аудиозаписью (waveaudio или waveform audio).

Цифровой звук характеризуется следующими параметрами:

частотой дискретизации (sampling rate), которая определяет, сколько раз оцифровывается звуковой сигнал за единицу времени и измеряется в килогерцах (килогерц - тысяча выборок в секунду). Данная характеристика показывает, как часто измеряется значение амплитуды входного звукового сигнала в момент записи звука, а тем самым - насколько правильно цифровое представление звука отражает скорость изменения амплитуды звукового сигнала (рис.7.6).

звуковым разрешением (audio resolution), характеризующим правильность представления амплитуды исходного аналогового сигнала. Обычно цифровые аудиосистемы бывают 8- и 16-разрядными.

Наиболее часто используют частоты дискретизации 11,025; 22,05 и 44,1 кГц. При частоте 11,025 кГц достаточно хорошо воспроизводится человеческая речь. При частоте 22,05 кГц неплохо звучит не только человеческая речь, но и музыкальные фрагменты. А для очень хорошего представления музыкального звучания необходимо использовать частоту дискретизации не менее 44,1 кГц.

Частота дискретизации сильно влияет на количество информации, необходимое для хранения звука. Так, например, воспроизведение 16-разрядного стереозвука с частотой дискретизации 44,1 кГц требует хранить для одной секунды звучания 176,2 Кбайт, а для воспроизведения секунды такого же звука с частотой дискретизации 22,05 кГц требуется 90 К байт, что почти в два раза меньше.

8-разрядные системы осуществляют преобразование амплитуды аналогового сигнала только в 256 фиксированных значений (рис.7.8). Такое представление аналогового сигнала не является очень точным, а, следовательно, выходной сигнал, восстановленный по 8-разрядному представлению, будет отличаться от оригинального звукового сигнала. Такое отличие обычно хорошо заметно на слух.

16-разрядные системы осуществляют преобразование амплитуды аналогового сигнала уже в 65536 фиксированных значений. В таких системах качество оцифрованного звука намного лучше и практически не отличается от оригинального звучания. Кроме того обеспечивается широкий динамический диапазон (выраженная в децибелах разность между самым сильным сигналом, который устройство в состоянии пропустить, и самым слабым, еще различимым на фоне остаточных шумов). Благодаря этому современные цифровые системы воспроизведения звука, такие как цифровые аудио компакт-диски и цифровые аудиомагнитофоны, обычно используют 16-разрядные системы (рис.7.9).

Аудиофайлы, как и графические данные, можно уплотнять. Это позволяет значительно сократить объем передаваемой информации. Для этого используются кодеки (рис.7.10).

Что лучше: аналоговая или цифровая запись? У той и другой есть свои поклонники и приверженцы. Но давайте все-таки разберемся в сути этих двух технологий, и рассмотрим принципиальные различия между ними.

Что такое аналоговая запись?

Звук как таковой имеет аналоговую природу. Он распространяется в воздухе и при этом неизбежно искажается. На искажения звука оказывают влияние самые разные условия: расстояние от источника, скорость движения относительно него, особенности отражения от окружающих предметов и т.д.

Человеческое ухо воспринимает звуковые колебания в диапазоне от 20 Hz до 20 000 Hz. Однако далеко не каждый может похвастаться такими выдающимися слуховыми возможностями. Основная масса взрослых слышит частоты до 16 000-18 000 Hz. Стоит уточнить, что даже частоты выше 6 000-8 000 Hz обычно являются только дополнительными гармониками и призвуками.

С другой стороны, качество записи во многом определяется как раз правильным воспроизведением гармоник и иных высокочастотных элементов.

При аналоговой записи звуковая волна, попадая в микрофон, превращается в электрическое колебание, которое потом подается или на механический резец, если речь идее о виниловой пластинке, или на магнитную головку, если запись производится на магнитную ленту.

Чтобы воспроизвести звук, следует протянуть намагниченную ленту вдоль магнитной головки, причем скорость этого процесса должна быть равной скорости записи.

В случае же с винилом для воспроизведения будет нужно прогнать иглу по канавке, в которой записана информация. Механические колебания будут преобразованы в электрические, которые передадутся в усилитель, а с усилителя соответственно в громкоговорители.

При внимательном ознакомлении с вышеизложенным материалом вполне очевидно несовершенство аналоговой записи.

1. Записывая на магнитную ленту, следует побеспокоиться о качестве магнитной головки и учесть ее калибровку относительно ленты.

2. Неточности лентопротяжного механизма порождают непостоянство ее скорости.

3. Нельзя не упомянуть о способности ленты растягиваться, об изменениях ее характеристик на всем протяжении, о случайных посторонних частицах на ней и т.д.

4. В случае с виниловой пластинкой имеют место детонация, попадание пыли в канавки и всевозможные механические повреждения. Кроме того, канавка, так или иначе, деформируется после каждого проигрывания.

5. Ну и, наконец, стоит вспомнить, что практически невозможно сделать копию виниловой пластинки или магнитной записи без потери качества. Да и все аналоговые носители со временем стареют и теряют в качестве звучания, даже если их не использовать слишком часто.

Что такое цифровая запись?

Для записи звука в цифровую форму достаточно простой фиксации значений звукового колебания, которое изменяется во времени, в числах с максимально возможной точностью.

Выборка

Для понимания принципов цифровой записи разберемся в таком понятии, как выборка. Выборкой, или дискретизацией, называют значение сигнала в определенный момент времени в цифровом виде.

Из-за непрерывных изменений аналогового сигнала во времени стает очевидной необходимость бесконечного количества выборок. Однако теорема Котельникова гласит, что сигнал может быть точно восстановлен из цифровых выборок, созданных с частотой, превышающей вдвое максимальную частоту этого сигнала.

Например, у стандартного Audio CD частота дискретизации 44.1 kHz, а соответственно можно восстановить с большой точностью сигнал с частотами вплоть до 22.05 kHz, что уже превышает возможности человеческого уха.

Интерполяция

Восстановление значений сигнала в промежутках между снятыми выборками называют интерполяцией. Этот процесс применяется при воспроизведении звука, который записан в цифровой форме. От качества интерполяции зависит качество восстановления сигнала.

Восстановленный без применения интерполяции сигнал будет сильно отличаться от оригинала. Если же установить даже небольшой коэффициент интерполяции, то это прибавит сигналу куда большей схожести с оригиналом.

Увеличивая коэффициент интерполяции, можно существенно увеличить и качество восстановления сигнала.

Разрядность

Если копнуть глубже, становиться понятно, что создание выборки сигнала на нужной частоте – это только полдела. Нужно еще и зафиксировать значение с максимально возможной точностью или, как ее называют, разрядностью.

Запись выборки сигнала будет тем точнее, чем выше будет разрядность, которая измеряется в битах.

Если разрядность будет слишком низкой, например, 4 bit, то не спасёт даже высокий коэффициент интерполяции, и восстановленный сигнал будет ужасного качества.

Но если тот же сигнал оцифровать с разрядностью, например 16 bit, то он будет практически неотличимым на слух от оригинала. Кстати, у стандартного Audio CD глубина разрядности как раз 16 bit.

В студиях звукозаписи обычно применяют более высокие разрядности 24 и 32 bit, частоты дискретизации 48, 96 и даже 192 kHz, что объясняется необходимостью наличия максимально доступного цифрового качества, необходимого для дальнейшей обработки.

Цифровая запись

Нельзя не упомянуть, что цифровая запись не подвержена старению или каким-либо другим временным изменениям. С нее можно создать сколько угодно копий с одинаковой точностью.

Как можно заметить из всего вышесказанного, теория цифровой записи не подразумевает наличия каких-либо в ней изъянов. Давайте разберемся, что же происходит на практике.

1. Во-первых, для получения высокого качества требуется высококачественная оцифровка аналогового звука, которая главным образом зависит от качества АЦП – аналого-цифрового преобразователя. Высококлассный микрофон или дорогостоящие соединительные кабели не помогут в ситуации, когда качество работы АЦП оставляет желать лучшего.

Запись отсчетов с недостаточной точностью, создание выборок с неравномерной частотой и т.п. приведут к получению звука, далекого по качеству от оригинала, и исправить это уже не удастся потом ничем.

2. А во-вторых, оцифрованный звук нужно ведь еще и качественно воспроизвести, что возможно только при наличии качественного ЦАП – цифро-аналогового преобразователя.

Из-за неравномерной частоты дискретизации, недостаточной точности или отсутствия интерполяции звук испортится так, что никакая современная акустическая система этого не компенсирует.

Таким образом, можно понять что, на качество цифровой записи и воспроизведения главным образом влияет качество преобразователей.

Преобразователи, встроенные в современные (причем, отнюдь не в самые дешёвые) аудиоинтерфейсы, в своей основной массе не способны выдавать действительно высококачественный звук и по этой причине многие отдают предпочтение аналоговой записи.

Но, всё же, резюмируя вышесказанное, стоит отметить, что цифровая запись обладает определёнными и достаточно выраженными преимуществами, по сравнению с аналоговой.

Хотя на практике для получения действительно качественного цифрового звука нужно потратить немало средств на высококачественные преобразователи.

______________________


При копировании материала ссылка на сайт обязательна!

Занимаясь музыкой, бывает очень полезно представлять себе в целом, что такое звук и как происходит запись звука на компьютере. Имея такие знания, становится намного проще понять, что такое, например, компрессия или как появляется клиппинг. В музыке, как и почти в любом деле, зная основы, проще идти вперёд.

Что такое звук?

Звук - это физические колебания среды, распространяющиеся в виде волн. Мы улавливаем эти колебания и воспринимаем их как звук . Если же попытаться графически изобразить звуковую волну, мы получим, как это ни удивительно, волну .

Синусоидальная звуковая волна

Выше изображена синусоидальная звуковая волна, звучание которой можно услышать из аналоговых синтезаторов или из телефонной трубки стационарного телефона, если вы им ещё пользуетесь. Кстати, в телефоне звучит , говоря техническим, а не музыкальным языком.

Звук обладает тремя важными характеристиками, а именно: громкость, высота и тембр - это субъективные ощущения, но они имеют своё отражение в физическом мире в виде физических свойств звуковой волны.

Амплитуда

То что воспринимается нами как громкость - это сила колебаний или уровень звукового давления , который измеряется в (дБ).

Графически изображается волнами разной высоты:

Чем выше амплитуда (высота волны на графике), тем громче воспринимается звук, и наоборот, чем меньше амплитуда, тем тише звук. Конечно, на восприятие громкости влияет ещё и частота звука, но это особенности нашего восприятия.

Примеры различной громкости, в децибелах:

Звук Громкость (дБ) Эффект
Сельская местность вдали от дорог 25 дБ Почти не слышно
Шёпот 30 дБ Очень тихо
Офис в рабочее время 50-60 дБ Уровень шума остаётся комфортным до 60 дБ
Пылесос, фен для волос 70 дБ Назойливый; мешает говорить по телефону
Кухонный комбайн, блендер 85-90 дБ Начиная с громкости в 85 дБ при длительном (8 часов) прослушивании начинается повреждение слуха
Грузовик, бетономешалка, вагон метро 95-100 дБ Для звуков от 90 до 100 дБ рекомендуется воздействие не более 15 минут на незащищённое ухо
Бензопила, отбойный молоток 110 дБ Регулярное воздействие звуков громче 110 дБ на протяжении более 1 минуты вызывает риск необратимой потери слуха
Рок концерт 110-140 дБ Болевой порог начинается около 125 дБ

Частота

Когда мы говорим, что звук «выше» или «ниже», то понимаем о чём речь, но графически это отображается не высотой, а расстоянием и частотой:

Высота ноты (звука) — частота звуковой волны

чем меньше расстояние между звуковыми волнами, тем выше частота звука или, просто, выше звук.

Думаю, все знают, что человеческое ухо способно воспринимать звуки частотой приблизительно от 20 Гц до 20 кГц (в исключительных случаях - от 16 Гц до 22 кГц), а музыкальные звуки находятся в интервале от 16,352 Гц («до» субконтроктавы) до 7,902 кГц («си» пятой октавы).

Тембр

И последняя важная нам характеристика - тембр звука. Говоря словами, это то, как «окрашен» звук, а графически выглядит как различная комплексность, сложность звуковой волны. Вот, например, графическое отображение звуковых волн скрипки и рояля:

Тембр звука — комплексность (сложность) звуковой волны

Посложнее синусоиды, не правда ли?

Существует несколько способов записи звука: нотная запись, аналоговая запись и цифровая запись.

Нотная запись - это просто данные о частоте, длительности и громкости звуков, которые необходимо воспроизвести на каком-либо инструменте. В компьютерном мире есть аналог - MIDI данные. Но рассмотрение этого вопроса выходит за рамки данной статьи, разберём его подробно в другой раз.

Аналоговая запись - по сути своей запись физических колебаний как они есть на какой-либо носитель: виниловую пластинку или магнитную ленту. Тут сразу должно начаться обильное слюноотделение у любителей тёплого лампового звука, но мы не из таких и , что аналоговые приборы имеют сильную погрешность и принципиальные ограничения, это вносит искажения и ухудшает качество записи, а физические носители со временем изнашиваются, что ещё сильней снижает качество фонограммы, поэтому аналоговая запись сейчас ушла в прошлое.

Цифровая запись звука - технология, которая дала возможность любому попробовать себя звукоинженером или продюсером. Так как же она работает? Ведь компьютер может записывать только числа, а если быть точным, только нули и единицы, в которых кодируются другие цифры, буквы, изображения. Как в цифрах записать такие сложные данные как звук?

Решение довольно простое - нарезать звуковую волну маленькими кусочками, то есть преобразовать непрерывную функцию (звуковую волну) в дискретную. Этот процесс называется дискретизацией , не от слова «кретин», а от слова «дискретность» (лат. discretus - разделённый, прерывистый). Каждый такой маленький кусочек звуковой волны уже очень легко описать цифрами (уровень сигнала в определенный момент времени), что при цифровой записи и происходит. Этот процесс называется аналого-цифровым преобразованием (analog to digital conversion), а преобразующее устройство (микросхема), соответственно, - аналого-цифровым преобразователем (analog to digital convertor) или АЦП (ADC).

Вот пример отрывка звуковой волны длиной почти в пять миллисекунд райд-тарелки (ride cymbal):

Видите, она вся состоит из зубчиков? Это и есть дискретные маленькие кусочки, на которые нарезана звуковая волна, но при желании через эти зубчики-столбики можно провести непрерывную кривую линию, которая и будет изначальной звуковой волной. При воспроизведении так и происходит в устройстве (тоже микросхеме) под названием цифро-аналоговый преобразователь (digital to analog convertor) или ЦАП (DAC). АЦП и ЦАП являются основными деталями аудио-интерфейса и от их качества зависит его качество и возможности.

Частота дискретизации и битность

Я, наверное, уже утомил даже самых стойких читателей, но не отчаивайтесь, это часть статьи, ради которой она и затевалась.

У процесса преобразования аналогового сигнала в цифровой (и наоборот) есть два важных свойства - это частота дискретизации (она же частота семплирования или sample rate) и глубина дискретизации (битность).

Частота дискретизации - это частота, с которой звуковой сигнал режется на кусочки (семплы). Не повторите мою ошибку: с частотой звука частота дискретизации связана только через теорему Котельникова, которая говорит: для того, чтобы однозначно восстановить исходный сигнал, частота дискретизации должна более чем в два раза превышать наибольшую частоту в спектре сигнала. Таким образом используемая при записи CD и музыки частота дискретизации в 44,1 кГц покрывает
слышимый человеком диапазон частот.

Битность - это глубина дискретизации, измеряемая в битах, то есть это количество бит, используемое для записи амплитуды сигнала. При записи CD используется 16 бит, что достаточно для в 96 дБ, то есть мы сможем записать звук, у корого разница между самой тихой и самой громкой его частями составляет 96 дБ, что почти всегда достаточно для записи любой музыки. В студиях при записи обычно применяют 24-битную разрядность, что даёт динамический диапазон в 144 дБ, но поскольку 99% устройств, воспроизводящих звук (магнитофоны, плееры, звуковые карты, идущие в комлекте с компьютером) умеют обрабатывать только 16-разрядный звук, при рендеринге всё равно придётся потерять 48 дБ (144 минус 96) динамического диапазона, используя 16-битное разрешение.

Напоследок подсчитаем битрейт музыки на Audio CD:
16 бит x 44 100 семплов в секунду x 2 канала = 1 411 200 бит в секунду = 1 411,2 кбит/с.

Таким образом, одна секунда записи на Audio CD занимает 172 килобайта или 0,168 мегабайта.

Это всё, что я хотел рассказать про запись звука на компьютере.
Ну, или почти всё.

Последний раздел для хардкорных читатателей.

Dither

При рендеринге проектов в звуковых редакторах при выборе формата 44 100 kHz 16 bit иногда появляется галочка Dither. Что это такое?
Это подмешивание псевдослучайного сигнала. Едва ли вам стало легче от такой формулировки, но я сейчас объясню.

При аналого-цифровом преобразовании происходит округление амплитуды. То есть при 16-битной глубине дискретизации нам доступно 2 16 = 65 536 возможных вариантов уровня амплитуды. Но если амплитуда у звука в одном из семплов оказалась равной 34 целых и 478 тысячных, то нам придётся её округлить до 34.

Для малых уровней амплитуды входного сигнала такое округление несёт негативные последствия в виде искажений, с чем и борется dither .

Вот теперь точно всё. Спасибо за чтение!

Не забудьте написать комментарий и нажать на красивые кнопочки социальных сетей в низу статьи.