Выбор оптимального алфавита марковских моделей для распознавания речи (отчет)
Материал из MachineLearning.
Введение в проект
Описание проекта
Цель проекта
Цель проекта -- выбор оптимального набора марковских моделей для распознавания речи.
Обоснование проекта
Полученные данные могут быть использованы в качестве словаря аллофонов в масштабных дикторонезависимых системах распознавания слитной русской речи.
Описание данных
В качестве речевого материала используется обучающая выборка базы данных TeCoRus, предназначенная для приложений, использующих телефонный канал связи. Обучающая выборка представляет собой шестичасовую запись чтения 6 дикторами и состоит из 510 отдельных предложений, отсегментированных и размеченных вручную
Критерии качества
Критерием качества служит логарифм правдоподобия контрольной выборки относительно модели.
Требования к проекту
Логарифм правдоподобия для нашего дерева должн быть больше логарифма правдоподобия для базового. В качестве базового выбран набор марковских моделей соответсвующих фонемам русского языка.
Выполнимость проекта
Сложность распознавания ухудшается высокой вариативностю произношения одних и тех же звуков, а так же различными артикулярными характеристиками речевого аппарата у разных дикторов. Так же в данных присутсвует фоновый шум.
Используемые методы
В данной работе для статистического моделирования спектральной динамики гласных и согласных звуков применяется скрытая марковская модель (СММ) из 3-х последовательных состояний. Классификация аллофонов осуществляется с помощью бинарных деревьев. Для построения бинарного дерева решений разработан набор вопросов, зависящих от контекста и адресованных к центральному элементу аллофона.
Постановка задачи
Вход:
Обучающая выборка , элементы которой
, где
последовательность 12 мел-кепстральных векторов соответствует звуковой реализации фонемы, а
- правый, левый контекст аллофона и центральный элемент.
Список бинарных вопросов адресованных к центральному элементу аллофона. Служит множеством элементарных предикатов при построении бинарного дерева.
Выход:
Бинарное дерево скрытых марковских моделей (СММ) аллофонов .
Функционал качества:
Логарифм правдоподобия выборки относительно модели
есть
Критерии останова:
Приращение меньше порога, или число элементов выборки в вершине меньше порогового.
Базовые предположения или гипотезы, лежащие в основе алгоритма
Мы вводим понятие обобщённого (типичного) аллофона, т.е.
В настоящей работе для моделирования спектральной динамики гласных используется скрытая марковская модель СММ, которая позволяет представить звук в виде последовательных состояний, соотносимых счленением звука на сегменты (субаллофоны). Внашем случае гласный разделяется на три отрезка одинаковой длины (начальный и конечный формантные переходы плюс вокалическое ядро). Поэтому СММ имеет три состояния и лево-правую матрицу переходных вероятностей
.
Математическое описание алогритмов
Обучение скрытой марковской модели (СММ)
Составляющие СММ:
1. — общее количество состояний в модели. В нашей задаче
Мы обозначим совокупность состояний модели множеством
, а текущее состояние в момент времени
как
.
2. Матрица вероятностей переходов , где
то есть это вероятность того, что система, находящаяся в состоянии , перейдет в состояние
. В контексте нашей задачи используется лево-правая матрица переходов. То есть
и
для
. В остальных состояниях вероятность перехода
.
3. ,
где - моделируемый вектор наблюдений,
- весовой коэффициент
-й компоненты в состоянии
.
- гауссова плотность вероятности с вектором средних значений
и ковариационной матрицей
.
У нас используется
компонет смеси.
4. Распределение вероятностей начального состояния , где
то есть вероятность того, что
это начальное состояние модели.
В нашем случае всегда начинаем с 1-го состояния т.е.
Совокупность значений и
- это скрытая марковская модель, которая может сгенерировать наблюдаемую последовательность.
Для решения задачи обучения СММ требуется подобрать параметры модели таким образом, чтобы максимизировать
.
В этой работе используется метод Баума-Уэлча, EM-метод переоценки параметров СММ. Формулы повторного оценивания для коэффициентов
,
и
, составляющих плотности имеют вид.
,
где штрих означает транспонирование вектора, а - вероятность того,что (при заданной последовательности наблюдений) в момент времени
модель находиться в состоянии
, причём наблюдаемый в этот момент вектор
порождён
-й компонентой смеси плотности, т.е.
,
где - прямая переменная, а
- обратная переменная.
Алгоритм построения решающего дерева ID3
В качетсве основного алгоритма использовался рекурсивный алгоритм синтеза бинарного решающего дерева ID3. Идея заключается в последовательном дроблении выборки на две части до тех пор, пока дальнейшее расщепление не перестанет давать достаточное приращение информативности.
Процедура LearnID3 выглядит следующим образом
Вход:
- выборка из последовательностей мел-кепстральных векторов соответсвующих фонеме;
- множество вопросов к контесту фонемы, ращепляющих выборку на 2 класса.
Выход:
возвращает корневую вершину дерева
- найти предикат с максимальной информативностью:
- разбить выборку на две части
по предикату
;
- eсли (
\leq
то
- ::создать новый лист
.
- иначе
- создать новую вершину
;
-
; (построить левое поддерево)
-
; (построить правое поддерево)
- создать новую вершину
- вернуть
Для построения полного дерева рекурсивная процедура LearnID3 применяется ко всей выборке.
В качаестве критерия ветвления используется максимум приращения логарифма правдоподобия , где
- логарифм правдоподобия родительской вершины, а
и
- логарифм правдоподобия левой и правой дочерней вершин соответственно. Логарифм правдоподобия выборки
относительно СММ
есть
считается алгоритмом прямого-обратного хода.
Множество вопросов к контексту фонемы (элементарных предикатов) задается шаблоном:
left-center+right,
где left и right - левый и правый контекст, а center - сама фонема. Например вопрос выделяющий все гласные:
*-ALL_VOWELS+*.
Предредукция или критерий раннего останова досрочно прекращает ветвление, если максимальное приращение информативности меньше порогового
.
Варианты или модификации
Описание системы
- Ссылка на файл system.docs
- Ссылка на файлы системы
Отчет о вычислительных экспериментах
Визуальный анализ работы алгоритма
Анализ качества работы алгоритма
Анализ зависимости работы алгоритма от параметров
Отчет о полученных результатах
Список литературы
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |