4.3. Кодирование речевых сигналов в стандарте GSM

Лекция

Привет, Вы узнаете о том , что такое кодирование речевых сигналов в стандарте gsm , Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое кодирование речевых сигналов в стандарте gsm , настоятельно рекомендую прочитать все из категории Основы сотовой связи стандарта GSM.

Применение в различных системах радиосвязи изощренных алгоритмов кодирования относительно узкополосных сигналов речи (300...3400 Гц) и широкополосных факсимильных звуковых сигналов (от 10 Гц до 20 кГц), сигналов изображения (до 15 МГц) становится все более эффективным и экономичным с точки зрения затрат [4.1].

Появление маломощных сверхбыстродействующих интегральных микросхем (СБИС) привело к использованию алгоритмов кодирования в мобильных телефонных аппаратах и движению по пути к цифровому радиовещанию. Назначение большинства из этих алгоритмов — аналого-цифровое преобразование аналогового сигнала источника в цифровой сигнал с возможно меньшим количеством битов и его обработка, для передачи в форме цифровых данных и/или запоминания, или же синтеза и восстановления пораженного шумом и помехами ограниченного по полосе или искаженного сигнала. При этом сжатие (компрессия) цифровых данных может быть достигнута за счет устранения избыточности сигнала, преобразованного из аналоговой формы в цифровую.

Кодер речевого сигнала является первым элементом цифрового участка передающего тракта, следующим после АЦП (рис. 4.2).
Основной задачей кодера является предельно возможное сжатие сигнала речи, представленного в цифровой форме, то есть предельно возможное устранение избыточности речевого сигнала при сохранении приемлемого качества передаваемой речи.

Компромисс между степенью сжатия и сохранения качества обычно отыскивается экспериментально, а проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке кодера.

В приемном устройстве (рис. 4.2) перед ЦАП размещен декодер (decoder) речевого сигнала. Задачей декодера является восстановление цифрового сигнала речи, с присущей ему естественной избыточностью, по принятому кодированному сигналу.
Сочетание кодера и декодера обычно называют кодеком (coder/decoder= codec).

Кодек речевого сигнала.

В стандарте GSM обработка речевого сигнала осуществляется в рамках принятой системы прерывистой передачи речи DTX (DiscontinuousTransmission), которая обеспечивает включение передатчика только тогда, когда пользователь начинает разговор и отключает его в паузах и в конце разговора.

Система DTX управляется детектором активности речи VAD (Voice Activity Detection), который обеспечивает обнаружение и выделение интервалов речи с шумоми шума без речи, даже в тех случаях, когда уровень шума соизмерим с уровнем речи.

В состав системы DTXвходит устройство формирования комфортного шума, которое включается и прослушивается в паузах речи (когда передатчик отключен).

Система прерывистой передачи речи также включает в себя устройство для экстраполяции фрагментов речи, потерянных из-за ошибок в канале.

Структурная схема процесса обработки речевого сигнала показана на рис. 4.3.
Основным устройством в данной схеме является кодек речи.

В соответствии со стандартом GSM каждый радиоканал используется для организации восьми цифровых каналов с TDMA. Значит, если это будут стандартные ИКМ-каналы, то потребуется скорость передачи 8x64 = 512 кбит/с. Такую скорость передачи пользовательской информации по одному радиоканалу обеспечить невозможно.

4.3. Кодирование речевых сигналов в стандарте GSM Рис. 4.3. Структурная схема процесса обработки речевого сигнала в стандарте GSM

Выход из данной ситуации может быть найден, с одной стороны, в увеличении плотности передаваемой информации, а с другой — в применении более сложных способов кодирования речевых сигналов, требующих меньшего объема информации.

Снижение требуемой скорости цифрового потока каждого канала за счет использования более сложных способов кодирования должно осуществляться без значительного ухудшения качества. Наиболее низкая скорость передачи информации — (1...3) кбит/с требуется при использовании вокодеров, однако, качество передачи речи в этом случае достаточно низкое, при декодировании получается «синтетический» речевой сигнал. Высокое качество передачи речи при незначительном снижении требований к скорости можно получить при использовании различных модификаций ИКМ, но более сложной аппаратной реализации.

Для того, чтобы иметь высокое качество передачи речи при более низких требованиях к скорости передачи информации, в GSM используется способ кодирования, объединяющий вокодеры и дифференциальную ИКМ, который получил название дифференциального кодирования.Вокодерное преобразование основано на использовании особенностей речевых органов человека.

Звуковые колебания, излучаемые голосовыми связками, формируются далее в «фильтрах», образуемых горлом, ртом и носом. Об этом говорит сайт https://intellect.icu . Зная в каждый момент спектр частот и параметры таких «фильтров», можно восстановить исходный сигнал. Учитывая инерционность голосовых органов человека, можно считать, что за небольшой промежуток времени (порядка 10...30 мс) они не изменяют своего состояния, то есть остаются постоянными частоты и параметры «фильтров».

Следовательно, если брать отрезки речевого сигнала по 20 мс, частоту основного тона и параметры фильтра речеобразующего тракта, то по ним легко можно восстановить исходный сигнал. Так, например, при кодировании с линейным предсказанием определяется и передается следующая информация:
- параметры модели речеобразующего тракта;
- характер возбуждения (гласный или звонкий согласный звуки в сопоставлении с глухими звуками);
- период основного тона;
- коэффициент усиления.

В фиксированные промежутки времени голосовые органы человека не остаются в фиксированном положении, их возбуждения носят более комплексный характер, чем передаваемые характер возбуждения и период основного тона. Это приводит к значительному ухудшению качества.

Дифференциальная ИКМ учитывает корреляцию дискретных отчетов АИМ сигнала. При этом кодируются не сами дискретные отсчеты, а разность амплитудпоступившего и предыдущего дискретных отсчетов. Поскольку диапазон изменения амплитуд разности дискретных отсчетов меньше диапазона изменения амплитуд самих дискретных отсчетов, для их кодирования требуется меньшее число разрядов.

Таким образом, дифференциальное кодирование подразумевает деление речевого сигнала на отрезки в 20мс с предыдущим их кодированием.

Кодек стандарта GSM

В стандарте GSMв системе кодирования речевых сигналов используется метод линейного предсказания с возбуждением регулярной последовательностью импульсов и долговременным предсказанием, то есть метод RPE-LTP.

Упрощенная блок-схема кодека в стандарте GSMпредставлена на рис. 4.4.

4.3. Кодирование речевых сигналов в стандарте GSM Рис. 4.4. Схема кодека речевого сигнала в стандарте GSM

Кодер

Кодер, представленный на рис. 4.4, состоит из шести основных блоков Б.1...Б.6[4.4]. Рассмотрим последовательно назначение указанных блоков.
Б.1 — блок предварительной обработки осуществляет следующие функции:
- предсказание входного цифрового сигнала sn(после АЦП) при помощи цифрового фильтра, подчеркивающего верхние частоты;
5- 632
- разделение входного сигнала snна сегменты по 160 выборок (20мс);
- взвешивание каждого из сегментов окном Хемминга («косинус на пьедестале» — амплитуда сигнала плавно спадает от центра окна к краям).
Б.2 — фильтр-анализатор STP: с выхода блока Б.1 сигнал фильтруется решетчатым фильтром-анализатором кратковременного линейного предсказания и по его выходному сигналу — остатку предсказания STPЬп— оцениваются параметры долговременного предсказания LTP: коэффициент предсказания gи временная задержка dв блоке Б.5.
Б.З — блок оценки параметров фильтра STP: для каждого 20 мс сегмента оцениваются параметры фильтра-анализатора STP— 8коэффициентов частичной корреляции kt (i= 1...8), при порядке предсказания М=8(/ = 1 ...М),которые для передачи по каналу связи преобразуются в логарифмические отношения площадей LARrhпричем для функции логарифма используется кусочно-линейная аппроксимация.
Б.4 — фильтр-анализатор LTP: сигнал остатка предсказания Ьпфильтруется фильтром- анализатором LTPдолговременного линейного предсказания, при этом формируется остаток предсказания LTP— v„.
Б.5 — блок оценки параметров фильтра LTP: в блоке по остатку STP— Ьпоцениваются параметры долговременного предсказания gи d.При этом выборочный сегмент остатка кратковременного предсказания, имеющий 160 выборок, разделяется на четыре подсегмен- та по 40 выборок в каждом, и параметры gи dоцениваются для каждого подсегмента в отдельности, причем для оценки величины временной задержки dдля текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания Ьп.
Б.6 — блок оценки параметров сигнала возбуждения: выходной сигнал фильтра-анализатора LTP— остаток предсказания vn— фильтруется сглаживающим фильтром и по нему формируются параметры возбуждения, в отдельности для каждого из 40 выборочных под- сегментов. Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервалы дискретизации сигнала после АЦП — то есть исходного сигнала), и имеющих различные амплитуды. Для формирования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка v„ обрабатываются следующим образом:
- последний сороковой импульс отбрасывается;
- первые 39 импульсов разбиваются на три последовательности:

■ в первой последовательности — импульсы 1, 4.. .37;
■ во второй — импульсы 2, 5, ..., 38;
■ в третьей — импульсы 3, 6, ..., 39.

В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, то есть задается номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.

Таким образом, выходная информация кодера речевого сигнала для одного 20 мс сегмента речи включает:
- параметры фильтра-анализатора STP— 8коэффициентов логарифмического отношения площадей LARг, (/ = 1.. .8) — один набор на весь сегмент;
- параметры фильтра-анализатора LTP— коэффициент долговременного предсказания gи временную задержку dдля каждого из 4-х подсегментов;- параметры сигнала возбуждения — номер последовательности п, максимальная амплитуда В, нормированные амплитуды bt(1...13) импульсов последовательности — для каждого из 4-х подсегментов.

Число бит, отводимых на кодирование передаваемых параметров, приведено в табл. 4.1.

4.3. Кодирование речевых сигналов в стандарте GSM

Всего для одного 20-миллисекундного сегмента речи передается 260 бит информации, то есть кодер речи осуществляет сжатие информации почти в 5 раз (1280/260 = 4,92, где 1280 = 160x8 — число бит в методе линейного предсказания).

Декодер.

Рассмотрим принцип декодирования информации, поступающей по каналу связи в соответствии со схемой рис. 4.4.

1. Блок формирования сигнала возбуждения 1.Б, используя принятые параметры сигнала возбуждения, восстанавливает 13-импульсную последовательность сигнала возбуждения для каждого из подсегментов сигнала речи, включая амплитуды импульсов и их расположение во времени, то есть сигнал — как остаток долговременного предсказания поступает на вход 2.Б — фильтра-синтезатора LTP.

2. Сформированный таким образом сигнал возбуждения фильтруется фильтром-синтезатором долговременного предсказания LTP, на выходе которого получается восстановленный остаток кратковременного предсказания <У . Следует отметить, что на второй вход фильтра LTP поступают сигналы, передающие параметры долговременного линейного предсказания, а именно коэффициент долговременного предсказания gи временная задержка d.

3. Сигнал — остаток кратновременного предсказания Ь'п— поступает на решетчатый фильтр-синтезатор STP, который реализует фильтрацию сигнала 6^, причем параметры фильтра предварительно преобразуются из LARг* в коэффициенты частичной корреляции kt.

4. В 4.Б — блоке фильтрации выходной сигнал с фильтра-синтезатора STPфильтруется в (блоке пост-фильтрации) цифровым фильтром, восстанавливающим амплитудные соотношения частотных составляющих речевого сигнала, то есть в кодере блок Б.1 вносит компенсирующие предыскажения, а в блоке 4.Б декодера восстанавливается цифровой сигнал речи.
Таким образом, после декодирования получается цифровой речевой сигнал S'nSn.

Оценка качества речевого кодирования.

Как следует из рассмотрения функционирования кодека GSM, создание экономичного и совершенного кодека речи является сложным процессом, связанным с непрерывными поисками новых технических решений.

При оценке качества кодирования кодеков оцениваются разборчивость речи и качество синтеза (качество звучания) речи.
Для оценки разборчивости речи используется метод DRT(DiagnosticRhymeTest)— диагностический рифмованный текст. В этом методе подбираются пары близких по звучанию слов, отличающихся отдельными согласными (типа «дом» — «том», «кол» — «гол»), которые многократно произносятся несколькими дикторами, и по результатам испытаний оценивается доля искажений. Метод позволяет получить оценку разборчивости отдельных согласных и общую оценку разборчивости речи.

Для оценки качества звучания используется критерий DAM (DiagnosticAcceptabilityMeasure) — диагностическая мера приемлемости. Испытания заключаются в чтении несколькими дикторами (мужчинами и женщинами) ряда специально подобранных фраз, которые прослушиваются на выходе тракта связи рядом экспертов, выставляющих свои оценки по пятибальной шкале. Результатом является средняя субъективная оценка или средняя оценка MOS (MeanOpinionScore).Хотя метод оценки качества звучания по критерию MOS является субъективным, его результаты достаточно объективны и используются на практике.

В качестве примера в табл. 4.2 приведены результаты оценки четырех типов кодеков по критерию MOS.

4.3. Кодирование речевых сигналов в стандарте GSM

Близкие к шкале MOS результаты дает объективный метод оценки качества с использованием понятия кепстрального расстояния CD (Cepstrum Distance).

Следует отметить, что при разработке стандарта GSMбыли исследованы шесть типов кодеков, после чего выбор был остановлен на кодеке RPE-LTP.

Работы по совершенствованию кодеков в стандарте GSMпродолжаются:
- введено полускоростное кодирование (6,5 кбит/с),
- предлагаются новые усовершенствования полноскоростного кодека [4.6, 4.7].

Анализ данных, представленных в статье про кодирование речевых сигналов в стандарте gsm , подтверждает эффективность применения современных технологий для обеспечения инновационного развития и улучшения качества жизни в различных сферах. Надеюсь, что теперь ты понял что такое кодирование речевых сигналов в стандарте gsm и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Основы сотовой связи стандарта GSM

4.3. Кодирование речевых сигналов в стандарте GSM

Комментарии

Оставить комментарий

Основы сотовой связи стандарта GSM

Термины: Основы сотовой связи стандарта GSM