У статті розглянуті алгоритми сегментації на основі оцінок формант і антіформант. отримано алгоритм сегментації мови з використанням моментних функцій третього і четвертого порядку. Запропоновано з метою придушення корельованих завад використовувати цифрову фільтрацію на основі моделі авторегресії змінного-середнього. Отримано оцінки дисперсії оцінювання часових меж слів для ряду запропонованих алгоритмів сегментації мови

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Омельченко С.В.


Algorithms of segmentation of speech signal on the correlated noise background

Algorithms of segmentation based on formant and antiformant assessments are considered in the article. An algorithm for speech segmentation using momentary functions of third and fourth order is obtained. It is proposed to use digital filtering based on the sliding-average autoregressive model to suppress correlated noise. Estimates of variance in estimating the time boundaries of words for a number of proposed speech segmentation algorithms are obtained


Область наук:
  • Комп'ютер та інформатика
  • Рік видавництва: 2018
    Журнал: ScienceRise

    Наукова стаття на тему 'АЛГОРИТМИ СЕГМЕНТАЦІЇ МОВНОГО СИГНАЛУ НА ТЛІ корелювати ПЕРЕШКОДИ'

    Текст наукової роботи на тему «АЛГОРИТМИ СЕГМЕНТАЦІЇ МОВНОГО СИГНАЛУ НА ТЛІ корелювати ПЕРЕШКОДИ»

    ?621.391

    Б01: 10.15587 / 2313-8416.2018.129703

    АЛГОРИТМИ СЕГМЕНТАЦІЇ МОВНОГО СИГНАЛУ НА ТЛІ корелювати ПЕРЕШКОДИ

    © С. В. Омельченко

    У статті розглянуті алгоритми сегментації на основі оцінок формант і антіформант. Отримано алгоритм сегментації мови з використанням моментних функцш третього і четвертого порядку. Запропоновано з метою придушення корельованих завад використовувати цифрову фільтрацію на основі моделі авторегресії змінного-середнього. Отримано оцінки дисперсії оцінювання часових меж слів для ряду запропонованих алгоритмів сегментації мови

    Ключові слова: сегментація мови, модель авторегресії змінного-середнього, моментні функції, форманти, фонеми, корельовані перешкоди

    1. Введення

    Під сегментацією мови зазвичай розуміють розчленування мовного потоку на деякі елементи - фонеми, склади, слова (при розпізнаванні злитої промови), як правило, пов'язані з фонетичним поданням мовних повідомлень. Існуючі методи автоматичної сегментації мови погано защешени від впливу перешкод і погано адоптіруютя до ізменінія навколишнього оточення. Тому завдання пошуку перешкодостійких методів сегментації є актуальним завданням.

    2. Літературний огляд

    Для створення алгоритмів розпізнавання мови, стійких до дії перешкод, необхідна висока точність оцінок часових меж сегментів мови в умовах дії перешкод. В якості інформативних параметрів, використовуваних для сегментації, можуть бути різні характеристики мовних сигналів. До них відносяться частота основного тону [1, 2] формантного частоти [2], ознака вокалізованності [2], потужність сигналу в різних смугах частот сигналу [2], тривалості вимовлених фонем [1, 2] сегментація по кореляції між рівновіддаленими спектрами [2 -4]. Однак необхідні подальше дослідження алгоритмів сегментації мови стійких до дії корельованих завад.

    3. Мета і завдання дослідження

    Мета дослідження - розробка алгоритмів сегментації мови стійких до дії перешкод в каналі святи.

    Для досягнення мети були поставлені такі завдання:

    1. Розглянути можливість придушення корельованих завад.

    2. Розработать методи сегментації мови, які є стійкими до дії перешкод, характерних для мовного каналу і телефонних каналів зв'язку.

    3. Провести експерементальні дослідження розроблених алгоритмів.

    4. Матеріали та методи дослідження

    Розглянемо математичну постановку задачі сегментації мови і основні особливості її рішення.

    Апріорна інформація у вигляді еталонів сигналу, необхідна для алгоритмів розпізнавання, задається у вигляді класифікованих навчальних вибірок в паузах між словами для кожного з дикторів. Вважається, що час появи слова в злитому мовному сигналі апріорі невідомо і задані обмеження на тривалість пауз між складами слів.

    Якість До алгоритму л- будемо оцінювати величиною дисперсії D (s) оцінки тимчасового положення сегментів при відсутності зовнішньої адитивної перешкоди і стійкістю до (я) алгоритму s до впливу адитивної перешкоди

    K (s) = (D (s), kycm (s)).

    (1)

    Під показником стійкості до (я) розуміється дисперсія оцінки тимчасового положення сегментів при впливі адитивної перешкоди в каналі з заданим відношенням сигнал-шум [1, 2].

    Необхідно побудувати оптимальний алгоритм визначення по реалізаціям мови моментів часу початку і кінця слів, який забезпечує максимум цільової функції в класі робастних алгоритмів.

    5. Попередня обробка мовленнєвого сигналу

    Розглянемо попередню обробку мовного сигналу цифровим фільтром, побудованим на основі моделі авторегресії змінного-середнього (АРСС) [5]. Такий фільтр необхідний для виключення корельованих завад з сигналу і вирівнювання АЧХ розпізнаються сигналів [6-11]. Вважається, що апріорі відомий інтервал часу, протягом якого відсутня мова (пауза). Такий інтервал часу використовується для оцінювання АРСС-параметрів фільтра попередньої обробки.

    Для оцінювання АРСС- параметрів, як правило, застосовуються процедури роздільного оцінюючи-

    ня параметрів авторегресії (АР) і параметрів змінного-середнього (СС) [5]. Спочатку оцінюються АР-параметри, а потім їх оцінки використовують для побудови зворотного фільтра, який буде застосований до вихідних даних. Послідовність залишкових помилок на виході цього фільтра повинна характеризувати процес змінного середнього, до якого буде застосовано процедуру оцінювання СС-параметрів.

    Роздільне оцінювання Ар- параметрів в умовах дії білого шуму призводить до погіршення якості спектральних оцінок параметрів вибілювали фільтра (зміщується, і розширяться смуга фільтра). Експериментально показано, що точність АР-параметрів можна підвищити за рахунок корекції кореляційної функції з урахуванням рівня білого шуму.

    Модель АР описується різницевим рівнянням

    n =? aun<-і +4,,

    (2)

    де ац - коефіцієнти АР; р - порядок моделі АР; - некорельовані помилки передбачення.

    Мінімізуючи дискретну помилку передбачення по параметру ац, приходимо до рівняння Юла -Уокера:

    [Г] • a = i

    (3)

    де матриці і вектори, що входять в рівняння, мають вигляд:

    [Г] =

    1

    p-1

    Р-2

    1

    "Г1" a

    _ Г2 _ a2

    , Г =, a =

    r a

    _ Р _ _ p _

    де Я * - кореляційна функція сигналу при відсутності шуму; В "- дисперсія білого шуму; б (у) -Дельта-функція Дірака.

    Тому кореляційна функція узкополосной перешкоди в паузі коригується з урахуванням рівня білого шуму

    R = R -D S (j),

    nyj yj п V / 5

    (6)

    де S (j) =

    1, де j = 0

    [0, де j * 0

    Наближені оцінки дисперсії білого шуму В обчислюються по спектральним оцінками шуму в паузі? (/) у вигляді

    в = ш1п (в, в, •••, в),

    1 Ь2 уд

    де В1 = - У У (?>(1) ->(/)) -

    у Д - (? 2 + 1 -? 1), Уд + 1 (

    оцінки дисперсії шуму, побудовані в ьй смузі частот.

    Вектор оцінок коефіцієнтів АР знаходиться з виразу

    ; = [Г]

    a = I г I • г.

    (7)

    Алгоритм оцінювання помилки передбачення описується виразом

    У, = х, -? Anx, -і ,

    (8)

    де АІ - оцінки коефіцієнтів АР.

    Оцінка нормованої кореляційної функції помилки передбачення сигналу в паузі

    Кореляційна матриця представлена ​​компонентами г = Я / Я, де

    1 L2 T - j

    R = _1_у у ^). (V))

    nj (T + 1 - j). (L2 +1 - L1)? ? ( '+ J')

    V-И 1 = 0

    - оцінка кореляційної функції сигналу в паузі, v-номер вибірки.

    Процедура оцінювання дисперсії адитивної білого шуму утруднена наявністю узкополосной перешкоди.

    При наявності адитивного білого шуму і узкополосной перешкоди (будемо вважати їх статистично незалежними) сигнал в паузі описується виразом

    У, = X / + "г, з кореляційної функцією Яу / = Яу + Вп -8 (у),

    (4)

    (5)

    1

    L2 T-j

    к = _

    yj "(T +1 - j) • (L2 +1 -

    т ^ г? ? (У + j • y)), (9)

    1 - L1) v = L1 I = 0

    де v-номер вибірки, Т-період спостереження.

    Фільтрація сигналу помилки передбачення описується різницевим рівнянням

    = -? bus, -u + y,,

    (10)

    де Ь = куї / ^ о - коефіцієнти фільтра, що є результатом оцінювання нормованої кореляційної функції помилки передбачення. Нормована АЧХ фільтра

    | 1 -? (a,

    H (n2n / T) = * = '

    g-ikn2nlT ^ |

    I? (bk

    g-ikn2n / T ^ |

    і = 1

    і = 1

    і = 1

    k = 0

    Коефіцієнти а = (а 0, ах, ...., ар) і

    В = ф0, ь1, ...., Ьр) вибілювали АРСС фільтра обчислюють з використанням вибірок мовного сигналу, взятих в період мовчання.

    6. Алгоритми сегментації мови з енергетичних ознаками

    Розглянемо алгоритми сегментації мови з енергетичних ознаками.

    В результаті застосування декорелірующего фільтра, алгоритми виявлення можуть бути спрощені за рахунок декорреляции тимчасових відліків мовного сигналу [2].

    При забезпеченні некоррелированности ознак і рівності дисперсій в координатному представленні в алгоритмі виявлення мовного сигналу з енергетичних ознаками виноситься рішення про наявність мовної інформації в к-ой вибірці, якщо виконується нерівність

    Вибіркові значення оцінок моментних функції визначаються виразом

    m [0, j - i, k - i] =

    1

    X x [t] • x [t + i] • x [t + k],

    (17)

    N - до ^

    Т4 [0,] -1, до -1, п - /] =

    1 ^ г (18) = --- X #] • # +1] • # + к] • х + п],

    де h - максимальне значення зсуву для кожного набору (І), (И).

    Рішення на основі оцінок тривимірних мо-цементних функцій приймається відповідно до вираження

    H: R (k) < Л,

    (19)

    H: (l (k)) > Л,

    (12)

    Pl Р 2

    N 2

    де I (к) = X 8 *, а 8 * -1-ий відлік до другої вибірки ре-

    {= 1

    чевого сигналу.

    В іншому випадку виноситься рішення про наявність паузи.

    Поріг Л в загальному випадку обчислюється як

    Л = OU

    2 + 2 а-а

    (\ N А2

    2

    а

    > о, а > а0.

    (13)

    Для критерію Неймана-Пірсона при заданому а поріг перетвориться до виду Л = ст02 х2, де х2 -виражена у відсотках відхилення випадкової величини, розподіленої за законом% 2 з п ступенями свободи.

    Обчислення порогових рівнів Л, також може здійснюватися експериментально за результатами визначення локальних мінімумів прилеглих праворуч або ліворуч (в залежності від завдання) від глобального максимуму гістограми розподілу вирішальної статистики [2].

    7. Алгоритми сегментації мови в просторі оцінок моментних функцій

    Моментні функції третього порядків стаціонарного процесу визначаються виразами

    m [i, j] = m2 [0, j -i].

    (14)

    Тривимірні моментні функції стаціонарного процесу визначаються виразами

    m [i, j, k] = m [0, j - i, k - i].

    (15)

    Чотиривимірні моментні функції стаціонарного процесу визначаються виразами

    m [i, j, k, n] = m [0, j - i, k - i, n - i].

    (16)

    де R (k) = XZsgn №, k u, v)) ® sgn № (0, u, v)),

    u = 0 v = 0

    fl, X > 0;

    де функція sgn (x) = \

    [0, X < 0.

    Обчислення порогових рівнів Л, проводиться експериментально за результатами визначення локальних мінімумів прилеглих справа або зліва від глобального максимуму гістограми розподілу вирішальної статистики.

    Вирішальне правило на основі оцінок знакових функцій моментной функції може бути представлено у вигляді

    H: Я (к) < Л, (20)

    pl p 2

    де R (k) = XX (sign (т'к (0, u, v)) • sign (mj '(0, u, v))),

    sign (x) =

    1, x > 0; -1, x < 0.

    Рішення на основі оцінок моментной функції приймається відповідно до вираження

    Н: Я (к) <Л, (21)

    де середня відстань можна обчислити у вигляді

    К (к) = X X (тз, до (0, і, V)) - ТЗГ (0, і, V)) 2.

    і = 0 V = 0

    Відстані тривимірних моментних функцій може бути представлено у вигляді

    Р1 Р2

    К (к) = XX- (тз, до (0, і, V)) -т / (0, і, V) + а) -1,

    pi p 2 p

    = ZZZ mu (0, u, v, ")) - w3r (0, u, v, n

    u = 0 v = 0 n = 0

    ) '+ «) - 1,

    де ЯФ ° "- функціонали, побудовані на основі метрик в просторі Ll, Ь2

    де г - параметр відстані.

    8. Алгоритм сегментації мови за сукупністю формант і антіформант

    Для сегментації можливе використання оцінок формант і антіформант. Авторегресійну спектральні оцінки формантних частот обчислюються відповідно до виразом

    ?b (ri) Qxp (-j2nnk)

    ./ ,. = Y arg loc maxi I -JL ± ~ I, - •

    k 1 ~ X 'exp (-j 2жпк)

    к = 0, М},

    де / '= аг? 1оС тах (л;) - векторна функція, що задає відповідність елементам вхідної послідовності хьх2, ..., хм елементів вихідної послідовності впорядкована множина номерів локальних максимумів {^. / = 0. /. |: Вектор оцінок

    = (]] Р! = 0. /. |. Ь-кількість локальних максимумів в спектрі; ^ = 1 / А / - частота дискретизації сигналу, А - період дискретизації сигналу; м = I [N / 2-1]; 2 [у] - функція округлення до найближчого цілого числа.

    Авторегресійну спектральні оцінки частот антіформант обчислюються відповідно до виразом

    До

    fa, v = arg loc mini l-2 ^

    ^ B (і) exp (-j27rnk)

    k = 0, M},

    1 - ^ a (n) • exp (-j2; nik)

    де у = а ^ / оС7771П (л;) - векторна функція, що задає відповідність елементам вхідної послідовності хьх2, ..., хм елементів вихідної послідовності впорядкована множина номерів локальних мінімумів {^. I = 0. /. |: Вектор оцінок / у

    = {, = 0,? Бреши "}, Lмін-кількість локальних

    максимумів в спектрі.

    Після виконання сегментації фонем необхідно прийняти рішення про найбільший ступінь близькості в просторі ознак усної фонеми і однією з фонем навчальних вибірок.

    Рішення про початок нового сегмента фонем в черговий вибірці приймається за результатом порівняння з порогом значень Яф0 ", обчислених за формулою

    Яфш > д

    Bf =? min «, ', • I / (п) ~ fn (n +1) Г +

    La

    + Х min «!, • I fa (n) - fa11 (n + \) \\

    де / (п), / а (п) - оцінки частот ьой форманти п-го

    сегмента; а; . - вагові коефіцієнти, i = -ТД;

    j =; q приймає значення 1 або 2 в залежності від виду критерію близькості.

    На основі первинної сегментації слів по формантного ознаками виноситься рішення про наявність мовної інформації в п-му сегменті в разі якщо

    Н1: ясплов < а,

    Цп)

    Яп ° е =? .min aij- \ fjn) ~ f "Г +

    ,= 1 je [-J, J]

    L (n)

    Л \ q

    + У min се], - 1 fa (n) -fa

    1 = T .м-J, J] ''

    де / ( «), / а (і) - оцінки частот? -ої форманти і антіформанти п-го сегмента; / А ", у« 77 - еталонні

    оцінки частот ьой форманти і антіформанти, отримані усередненням оцінок для декількох сегм-

    тов, відповідних паузі мови; j = -ТД; q-вагові коефіцієнти.

    i = -J, J;

    9. Результати експериментального дослідження алгоритмів сегментації мови і їх обговорення

    Дослідження описаних вище методів сегментації виконані за вибірками реальних мовних сигналів для різних дикторів. Оцінювання показників якості вироблялося для алгоритмів виконують сегментація слів мови з енергетичних ознаками з вибілювання та без вибілення, за ознаками формант і антіформант для порядку моделі 12.

    З метою звукового контролю якості сегментації мови за допомогою експертів проведені експериментальні дослідження. За відліком звукового сигналу, що прямують до результаті дискретизації з частотою 8 кГц, проводилися оцінки часових меж початку і кінця кожного з 10 слів мови.

    У табл. 1 наведені результати дослідження 3 варіанти пристроїв сегментації слів, що відрізняються типом алгоритму оцінювання початку і кінця слова. З таблиці видно, що тип пристрою в сенсі критерію максимуму дисперсії оцінювання тимчасового положення слів, залежить від вимог стійкості.

    n = 1

    k

    n = 1

    Якщо задати допустиме значення показника персии оцінювання тимчасового положення D буде стійкості Кущ ^) відповідного відношенню алгоритм сегментації слів з енергетичних при-сигнал шум q = 13, то найкращим за показником дис- знакам з вибілювання.

    Таблиця 1

    Результати досліджень пристроїв сегментації слов_

    Алгоритми сегментації слів D, с2 D ^ 2 при q = 13

    За енергетичним ознаками з вибілювання 0,00023 0,0005

    За енергетичним ознаками без вибілення 0,0022 0,0035

    Формант і антіформант для порядку моделі 12 0,0019 0,0020

    10. Висновки

    1. У статті розглянуті можливості придушення корельованих завад за рахунок використання цифрового фільтра на основі моделі авторегресії змінного -Середній.

    2. Отримано алгоритми оцінювання часових меж слів мови на основі моментних функцій, формантних і антіформантних ознак з

    вибілювання. Розглянуто різні шляхи вирішення сформульованої задачі сегментації мовних сигналів.

    3. На основі експеременалних досліджень показана ефектівность запропонованих алгоритмів оцінювання часових меж слів мови на основі ряду енергетичних ознак, формантних і анти-формантних ознак з вибілювання.

    література

    1. Рабинер Л. Р., Шафер Р. В. Цифрова обробка мовних сигналів / під ред. М. В. Назарова, Ю. М. Прохорова. М .: Радио и связь, 1981. 496 с.

    2. Пресняков І. М., Омельченко С. В. Перешкодостійкі алгоритми сегментації мови в системах обробки // Радіотехніка. 2003. № 131. С. 165-177.

    3 Сорокін В. Н., Ципліхін А. І. Сегментація і розпізнавання голосних // Інформаційні процеси. 2004. Т. 4, № 2. С. 202-220.

    4. Сорокін В. Н., Ципліхін А. І. Сегментація мови на кардинальні елементи // Інформаційні процеси. 2006. Т. 6, № 3. С. 177-207.

    5. Марпл С. Л. Цифровий спектральний аналіз та його додатки. М .: Світ, 1990. 584 с.

    6. Пресняков І. М., Омельченко С. В. Автоматичне розпізнавання роздільних слів і фонем мови // Радіоелектроніка та інформатика. 2003. № 2. С. 41-47.

    7. Пресняков І. М., Омельченко С. В. Алгоритми розпізнавання фонем мови // Радіотехніка. 2003. № 135. С. 180189.

    8. Пресняков І. М., Омельченко С. В. Розпізнавання мовного сигналу на тлі корелятивною перешкоди // Радіотехніка. 2004. Вип. 137. С. 23-30.

    9. Пресняков І. М., Омельченко С. В. Алгоритми розпізнавання мови // Автоматизовані системи управління і прилади автоматики. 2004. № 126. С. 136-145.

    10. Пресняков І. М., Омельченко С. В. Розпізнавання фонем мови // Радіоелектроніка та інформатика. 2004. № 3. С. 59-63.

    11. Пресняков І. М., Омельченко С. В. Розпізнавання мовного сигналу на тлі білого шуму і узкополосной перешкоди // Прикладна радіоелектроніка. 2004. Т. 3, № 2. С. 29-35.

    Рекомендовано до публгкацІ д-р техн. наук Безрук В. М.

    Дата надходження рукопису 06.03.2018

    Омельченко Сергій Васильович, кандидат технічних наук, доцент, кафедра інформаційно мережева інженерія, Харківський національний університет радіоелектроніки, пр. Науки, 14, г. Харьков, Україна, 61166

    E-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.


    Ключові слова: СЕГМЕНТАЦИЯ МОВИ / МОДЕЛЬ авторегресії змінного-СЕРЕДНЬОГО / моментном ФУНКЦІЇ / форманта / фонем / корелювати ПЕРЕШКОДИ / SPEECH SEGMENTATION / SLIDING-AVERAGE AUTOREGRESSIVE MODEL / MOMENT FUNCTIONS / FORMANTS / PHONEMES / CORRELATED NOISE

    Завантажити оригінал статті:

    Завантажити