Утвержден и введен в действие
Приказом Федерального агентства
по техническому регулированию
и метрологии
от 22 ноября 2013 г. N 1703-ст
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
ЗВУКОВОЕ ВЕЩАНИЕ ЦИФРОВОЕ
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ
ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ.
ЧАСТЬ III
(MPEG-4 AUDIO)
ИНТЕРФЕЙС ПРЕОБРАЗОВАНИЯ ТЕКСТА В РЕЧЬ (TTSI)
Sound broadcasting digital. Coding of signals of sound
broadcasting with reduction of redundancy for transfer on
digital communication channels. A part III (MPEG-4 audio).
Texe to speech interface (TTSI)
ISO/IEC 14496-3:2009
(NEQ)
ГОСТ Р 53556.6-2013
ОКС 33.170
Дата введения
1 сентября 2014 года
Предисловие
1 РАЗРАБОТАН Санкт-Петербургским филиалом Центрального научно-исследовательского института Связи "Ленинградское отделение" (ФГУП ЛО ЦНИИС)
2 ВНЕСЕН Техническим комитетом по стандартизации N 480 "Связь"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 22 ноября 2013 г. N 1703-ст
4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009 "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио" (ISO/IEC 14496-3:2009 Information technology - Coding of audio-visual objects - Part 3: Audio (NEQ)
5 ВВЕДЕН ВПЕРВЫЕ
Правила применения настоящего стандарта установлены в ГОСТ Р 1.0-2012 (раздел 8). Информация об изменениях к настоящему стандарту публикуется в годовом (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячно издаваемом информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (gost.ru)
1 Область применения
Стандарт определяет кодированное представление преобразования текста в речь MPEG-4 Audio (M-TTS) и его декодер для синтеза речи высокого качества и для того, чтобы задействовать различные приложения.
Стандарт предназначается для приложения к функциональности M-TTS, такой как функциональность анимации лица (FA) и совместимость кинофильмов (MP) с кодированным потоком битов. Функциональности M-TTS включают возможность использования просодической информации, извлеченной из естественной речи. Функциональности также включают приложения в переговорное устройство для инструментов FA и устройство дублирования для кинофильмов, используя форму губ и вводимую информацию о тексте.
Технология синтеза преобразования текста в речь (TTS) становится довольно распространенным инструментом интерфейса и начинает играть важную роль в различных областях приложения мультимедиа. При использовании функциональности синтеза TTS легко могут быть составлены мультимедийные контенты с дикторским текстом, не записывая естественный звук речи. Кроме того, функциональность синтеза TTS с анимацией лица (FA) / кинофильма (MP) возможно сделала бы содержание контента более выразительным. Технология TTS может использоваться в качестве устройства речевого выхода для инструментов FA и для дублирования MP с информацией о форме губ.
В MPEG-4 общие интерфейсы определяются для синтезатора TTS и для функциональной совместимости FA/MP. Функциональные возможности M-TTS можно рассматривать как надмножество стандартной платформы TTS. Синтезатор TTS может также использовать просодическую информацию естественной речи в дополнение к входному тексту и генерировать синтезированную речь гораздо более высокого качества. Формат потока битов интерфейса в высшей степени удобен для пользователя: если некоторые параметры просодической информации недоступны, пропущенные параметры генерируются, используя предварительно установленные правила. Функциональность M-TTS, таким образом, простирается от обычной функции синтеза TTS до кодирования естественной речи и областей его приложения, то есть, от простой функции синтеза TTS до функций для FA и MP.
2 Термины и определения
В настоящем стандарте применены термины с соответствующими определениями, используемые в ГОСТ Р 53556.0-2009.
3 Символы и сокращения
F0 основная частота (частота основного тона)
DEMUX демультиплексор
FA анимация лица
FAP параметр анимации лица
ID идентификатор
IPA Международный фонетический алфавит
MP кинофильм
M-TTS TTS MPEG-4 Audio
STOD повествователь историй по требованию
TTS преобразование текста в речь
4 Синтаксис потока битов преобразования текста в речь MPEG-4 Audio
4.1 TTSSpecificConfig MPEG-4 Audio
TTSSpecificConfig () { TTS_Sequence () }
Таблица 1
Синтаксис TTS_Sequence ()
Синтаксис Количество битов Мнемоника
TTS_Sequence () {
TTS_Sequence_ID; 5 uimsbf
Language_Code; 18 uimsbf
Gender_Enable; 1 bslbf
Age_Enable; 1 bslbf
Speech_Rate_Enable; 1 bslbf
Prosody_Enable; 1 bslbf
Video_Enable; 1 bslbf
Lip_Shape_Enable; 1 bvslbf
Trick_Mode_Enable; } 1 bslbf
4.2 Полезная нагрузка преобразования текста в речь MPEG-4 Audio
AlPduPayload { TTS_Sentence (); }
Таблица 2
Синтаксис TTS_Sentence ()
Синтаксис Количество битов Мнемоника
TTS_Sentence () {
TTS_Sentence_ID; 10 uimsbf
Silence; if (Silence) { 1 bslbf
SilenceDuration; } else { if (Gender_Enable) { 12 uimsbf
Gender; } 1 bslbf
if (Age_Enable) { Age; } if (!Video_Enable && Speech_Rate_Enable) { 3 uimsbf
Speech_Rate; } 4 uimsbf
Length_of_Text;
Для просмотра документа целиком скачайте его >>>