Викладаються базові елементи інформаційної теорії сприйняття мови. Вводиться поняття її фонетичного ладу через опис кожної фонеми у вигляді кластера, що складається з безлічі елементарних мовних одиниць за принципом мінімуму їх інформаційного неузгодженості. Ставиться і вирішується завдання оцінювання якості мови по її фонетичному строю. Дається теоретико-інформаційне обгрунтування критерію мінімуму необхідної надмірності мови.

Анотація наукової статті з математики, автор наукової роботи - Савченко В.В.


Analysis of speech quality on the basis of the information theory of perception

Base elements of the information theory of speech perception are stated. The concept it phonetic building through the description of each phoneme in the form of cluster, made of set of elementary speech units by a principle of a minimum information mismatch, is entered. The problem of estimation of speech qualities on it phonetic building is put and solved. The information substantiation of criterion of a minimum of demanded speech redundancy is given.


Область наук:
  • Математика
  • Рік видавництва: 2008
    Журнал
    Известия вищих навчальних закладів Росії. Радіоелектроніка
    Наукова стаття на тему 'АНАЛІЗ ЯКОСТІ МОВИ НА ОСНОВІ ІНФОРМАЦІЙНОЇ ТЕОРІЇ ВОСПРИЯТИЯ'

    Текст наукової роботи на тему «АНАЛІЗ ЯКОСТІ МОВИ НА ОСНОВІ ІНФОРМАЦІЙНОЇ ТЕОРІЇ ВОСПРИЯТИЯ»

    ?теорія сигналів

    УДК 621.372: 519.72

    В. В. Савченко

    Нижегородський державний лінгвістичний університет

    I Аналіз якості мови на основі інформаційної теорії воспріятія1

    Викладаються базові елементи інформаційної теорії сприйняття мови. Вводиться поняття її фонетичного ладу через опис кожної фонеми у вигляді кластера, що складається з безлічі елементарних мовних одиниць за принципом мінімуму їх інформаційного неузгодженості. Ставиться і вирішується завдання оцінювання якості мови за її фонетичному строю. Дається теоретико-інформаційне обгрунтування критерію мінімуму необхідної надмірності мови.

    Мова, мовний механізм, фонетичний лад, якість мовлення, теоретико-інформаційний підхід

    Визначальною особливістю людського мозку є його здатність до абстрактного, або образного мислення. Кожен образ у свідомості людини має власну "мовну мітку" - свого роду код даного способу. Залежно від складності опису образів варіюється в широких межах і складність їх мовних кодів: від окремих звуків (фонем) до цілих слів і висловів. За цими кодами образи і розрізняються між собою (орієнтуються) в процесі міжособистісних комунікацій. У такому випадку і самі коди-мітки повинні відрізнятися між собою - це головна вимога до якості членороздільноюмови.

    З іншого боку, одне й те саме явище в мові різних людей позначається схожими, але все ж різними навіть на слух, "мовними знаками". Іншими словами, кожна "мовна мітка" у свідомості людини-слухача асоціюється з деяким власним мовним чином, що включає в себе безліч всіх мислимих його реалізацій. Завдання розпізнавання первинних образів в процесі міжособистісних комунікацій перетворюється в такому випадку в завдання класифікації (розрізнення) їх міток-реалізацій. З цієї точки зору якість мовлення - поняття похідне, залежне насамперед від характеристик розрізнення між собою або розбірливості використовуваного людиною-диктором набору мовних сигналів. Додамо до викладеного, що саме усна розмовна мова є найбільш інформативною формою здійснення людських комунікацій, а її базовим визначальною ланкою служить звуковий, або фонетичний лад.

    Як пов'язані його склад і властивості окремих елементів з особливостями мовного механізму конкретного диктора? І як порівняти двох або більше різних дикторів між собою по фонетичному строю їх мови? Відповіді на ці та подібні до них питання і складають головний зміст цієї статті, причому в викладеному матеріалі використані підходи і методи інформаційної теорії сприйняття мови (ІТВР) [1].

    1 Робота виконана за підтримки гранту РФФД 07-07-12042-офі. 22

    © Савченко В. В., 2008

    Елементи ІТВР. Незважаючи на існуючі відмінності в різних мітках одного і того ж мовного образу (надалі будемо називати їх однойменними) всі вони сприймаються людиною як щось спільне, інакше мова втратила б свою інформативність. за-

    цього можна стверджувати, що однойменні мітки-продажу ХДУ, у = 1, Зг, Зг >> 1, в свідомості людини групуються в відповідні безлічі ХГ = {ху}, г = 1, Я, типу кластерів мовних сигналів з однорідними розподілами. Кожен такий кластер має чітко окреслені межі навколо деякого центру - еталонної мітки даного способу. У ІТВР зазначені еталони визначаються в строгому теоретико-інформаційному сенсі: мовна мітка хГ з ХГ утворює інформаційний центр-еталон г-го мовного образу, якщо в межах безлічі ХГ вона характеризується мінімальною сумою інформаційних неузгодженостей по Кульбаку-Лейблеру щодо всіх інших його міток-реалізацій

    ХДУ, у = 1, Jr. Аналізований (чутний) мовний сигнал х в межах кінцевого безлічі кластерів {ХГ} ототожнюється дослідником з тим Ху з них, якому відповідає мінімум інформаційного неузгодженості між вектором х і відповідним еталоном х ^, V < Я. Це відома [2] формулювання критерію мінімуму інформаційного

    неузгодженості (МИР) в задачах автоматичної обробки і розпізнавання мови.

    Головна мета обробки мови на базовому (фонетичному) рівні полягає у визначенні складу і властивостей мінімальних (елементарних) мовних одиниць (Ері), отриманих лінійним членуванням мовного сигналу х, причому кожної фонемі відповідає свій власний кластер Ері ХГ, г = 1, Я. Саме через поняття інформаційного еталону останнього дається одночасно інформативне і компактне опис кожної фонеми.

    І багато мовних міток {хГ} визначає в кінцевому підсумку фонетичний лад мови (ФСР) даного диктора. Завдання аналізу якості мови зводиться в даному випадку до статистичного (за вибіркою) оцінювання ФСР для різних дикторів і різних умов з подальшим порівнянням отриманих результатів між собою. Це типова задача статистичної класифікації сигналів з навчанням.

    Критерій СВІТ з навчанням. Завдання має оптимальне рішення, якщо скористатися нормальної аппроксимацией закону розподілу Ері загального вигляду Рг = N (Кг),

    де Кг - автокореляційна матриця (АКМ) з розмірами пхп, п > 1 [2], [3]. Аналізований (вхідний) мовний сигнал Х0) в дискретному часі ^ = 0, 1, ... спочатку розбивається на ряд послідовних сегментів (векторів) даних х = х 0) довжиною в одну епоху (зазвичай, 5___15 мс) [4]. Після цього кожен сегмент розглядається в межах кінцевого списку фонем {ХГ}. Рішення приймається на користь фонеми Ру, V < Я, за ознакою мінімуму у-й вирішальною статистики з наступного виразу:

    рг (х) = [1 / (2п)] [1г (Кк-1) - 1оё | КК-1 | - п], г = 1Ш, (1)

    де K - вибіркова оцінка АКМ; tr (-) - трек матриці. Статистика pv (x) визначає при

    цьому питому (на один відлік даних) величину інформаційного неузгодженості (ВІР) [5] між вибірковим розподілом сигналу на вході і v-м гіпотетичним нормальним розподілом. У завданнях з апріорної невизначеністю в вираз (1) підставляють статистичні оцінки альтернативних АКМ по R класифікованих вибірках спостережень. Це стандартне формулювання критерію СВІТ з навчанням.

    Припустимо, що кластер кожної фонеми Xr представлений як і раніше кінцевим

    (Обсягу Jr > 1) безліччю своїх векторів-реалізацій xrj, j = 1, Jr, складених з L послідовних в часі відліків однойменних Ері {xrj (t)} з періодом T = const.

    Розглядаючи кожну таку реалізацію в режимі "ковзного вікна" довжиною n відліків (n «L), будемо мати (L -n) векторів-стовпців даних {xrj;} розміром n = const кожен. Використовуючи формулу середнього арифметичного, визначимо по ним вибіркову оцінку для АКМ гіпотетичного нормального розподілу Krj, j = 1, Jr, яка спільно з виразом (1) визначає матрицю (з розмірами Jr х Jr) інформаційних неузгодженостей між однойменними мітками виду

    , jk = 1J. (2)

    Після підсумовування її елементів по стовпцях отримаємо наступне визначення інформаційного центру-еталона кластера r-й фонеми:

    хГ = xr0 = arg min prk, r = 1, R. (3)

    k

    Вибіркова оцінка АКМ KrQ за однакової кількості j = 9 і визначає, в кінцевому підсумку, оптимальну r-ю вирішальну статистику в вираженні (1). Залежно від складу кластера Xr положення (значення) еталона (3) буде змінюватися. Чим більше обсяг Jr кластера, тим стійкіше і, отже, точніше визначається відповідний еталон.

    Таким чином, виразами (1) - (3) представлений оптимальний за критерієм СВІТ алгоритм автоматичної класифікації Ері в складі злитого мовлення з попередніми його навчанням на заданому R-безлічі (списку) фонем {Xr}.

    При відсутності апріорі класифікованих вибірок, т. Е. В задачах розпізнавання образів "без вчителя", виникають проблеми. Автоматичний аналіз фонетичного складу мови найчастіше відноситься саме до такого кола завдань. І статистичні характеристики фонем, і їх використовується кожним диктором число R в межах національної мови залежать перш за все від особливостей мовного апарату диктора. Тому в даному випадку потрібно алгоритм з самонавчанням або адаптивний алгоритм, подібний запропонованому в роботі [6] як інформаційний (R +1) -Елемент.

    Синтез адаптивного алгоритму. Завдання складання списку фонем зводиться до послідовності задач статистичної класифікації "з учителем" при змінному (наростаючому) числі альтернатив R = 1, 2, .... 24

    ^ Г = || Prjk ||> Prjk - (V2n)

    tr

    до к-1

    rj rk

    log

    K,

    rj

    Krk

    n

    На деякому часовому інтервалі тривалістю в одну епоху (т = 5___15 мс) зафіксуємо кінцеве число відліків Ь мовного сигналу X і), отримавши тим самим мінімальний сегмент даних = {х1, ..., хь} в якості першої навчальної вибірки Х} для оцінювання АКМ першої ері розглянутого мовного сигналу. Відповідний закон розподілу Р1 = N (К) - перший елемент першого кластера з формованого списку фонем. Прирівняємо Я = 1 і візьмемо для аналізу другий сегмент даних Х2 = {хь + 1, •••, Х2ь}. Слідуючи загальному вираженню для вирішальної статистики СВІТ (1), визначимо для нього питому ВІР:

    р (X2, ХГ) = рг (X) х = ^ (4)

    щодо першої Ері, т. е. при г = 1. Отриманий результат можна порівняти з деякими пороговим рівнем граничної величини неузгодженостей зверху між однойменними реалізаціями одних і тих же фонем усного мовлення:

    Р (X2, ХГ) <ро. (5)

    При порушенні даної нерівності внесемо в формований список фонем цей сегмент як другий елемент, а число виявлених фонем Я збільшимо на одиницю. В іншому випадку приймемо рішення про об'єднання вибірок Х1 і Х2 в один мовний образ Р1 в якості однієї епохи подвоєною тривалості Ьг = 2Ь, якщо вибірки суміжні, або двох різних реалізацій першої фонеми, якщо вибірки не стикуються. Рівність Я = 1 в обох випадках зберігається.

    У формі умови (5) реалізується перевірка гіпотез про однорідність вибірок, а поняття фонеми визначається в даному алгоритмі як кластер однорідних Ері за критерієм СВІТ. Це типова формулювання інформаційного (Я +1) -елементом.

    Обчислення за схемою (4), (5) повторюються для всіх наступних сегментів даних з мовного сигналу Х (^), причому "наростаючим підсумком" щодо змінюваного значення

    Я = 2, 3, ____ Кожен черговий сегмент даних зіставляється за правилом (5) одночасно

    з усіма Я множинами {ХГ} з поточного списку фонем. При цьому не виключається можливість об'єднання одного і того ж сегмента даних з елементами одночасно декількох різних множин. В результаті буде сформований список фонем з деяким числом елементів Я - важлива характеристика як мовного сигналу, так і самого диктора: чим більше значення Я для конкретного диктора, тим багатшим з фундаментальної фонетичної точки зору його мова. Це перший очевидний висновок за результатами будь-якого фонетичного аналізу мови.

    В рамках даного адаптивного підходу виникає, однак, очевидна проблема: надмірно велика кількість фонем в мові диктора - ознака її нечіткості або недостатньо високої якості вимови. З точки зору якості мови першорядний інтерес, безумовно, є безліч чітких Ері, яке в такому разі і слід вважати основним підсумком ФАР. Тому логіка підказує, що після виконання алгоритму деякі "фонеми" з остаточного списку можна виключити як маргінальні.

    За такою логікою, розсортуємо отримані безлічі {Xr} в два види фонем -

    чіткі і сумнівні. В якості критерію використовуємо обмеження на мінімальну тривалість реалізацій фонем:

    Lr > Lo, (6)

    де Lo = const - деякий пороговий рівень.

    Вирази (4) - (6) в сукупності визначають адаптивний алгоритм формування R множин реалізацій кожної фонеми для подальшого визначення по ним відповідного списку їх інформаційних центрів-еталонів (3). В результаті створюється адаптивна, самоналагоджувальна на одного або на групу різних дикторів фонетична база даних (ФБД) для її подальшого застосування в задачах ФАР згідно з критерієм СВІТ. Для ефективного вирішення подібних завдань в роботі [2] запропоновано адаптивний метод відбілювати фільтра, заснований на авторегрессионной (АР) моделі Ері і на зворотних обчислювальних процедурах їх кореляційно-спектрального аналізу [7].

    Метод відбілювати фільтра. Головне достоїнство АР-моделі полягає, як відомо [1], в можливості попередньої нормування мовних сигналів по дисперсія їх породжують процесів. Стосовно до сигналів типу Ері така нормировка обумовлена ​​фізичними особливостями голосового механізму людини: повітряний потік на вході його моделі "акустичної труби" [4] має приблизно одну і ту ж інтенсивність на інтервалах тривалістю в ціле слово або в цілу навіть фразу. При обліку цієї властивості вираз для вирішальної статистики СВІТ (1) набуде гранично простий вигляд:

    2

    1

    Pr (x) = - ?

    F f = 1

    M

    1 + X ar (m) exp (- jnmf / F) m = 1

    M

    1, (7)

    2

    1 + X ах (т) ехр (-)

    т = 1

    де / < F - дискретна частота; {Ах (т)} і {аг (т)} - вектори АР-коефіцієнтів вхідного сигналу і г-го еталона відповідно (обидва порядку М > 1). Це стандартна [8] формулювання методу відбілювати фільтра (МОФ) в частотній області.

    Визначення ФБД згідно зі списком еталонних Ері (3), отриманим за МОФ в його адаптивної формулюванні (4) - (7), - перший крок у напрямку до оцінки якості мови. Другим кроком в тому ж напрямку буде аналіз інформаційних властивостей отриманої ФБД.

    В роботі [3], зокрема, показано, що ефективність МОФ залежить перш за все від матриці (має розміри Я х Я) значень інформаційних неузгодженостей || руг ||

    між гіпотетичними розподілами центрів різних фонем хГ з ХГ, г = 1, Я, в межах одного списку {хГ}. Це випливає з наступного виразу для ймовірності пере-путиванія у-й фонеми з г-й в завданню їх автоматичного розпізнавання:

    АУГ ± Р {рг (х) < ру (х) хеХу} = [1 - Ф ^, до (1 + Руг)], V Ф г < Я, (8)

    де Р {|} - символ ймовірності випадкової події; Фк до- інтегральна функція Р-розподілу Фішера з (до, к) ступенями свободи; к = Ь М; Ь = т / Т »1. Чим більше ВІР між розглянутими фонемами руг = рг (х) *, тим менше ймовірність

    х _ ху

    помилок при їх розпізнаванні. Наприклад, зафіксувавши ймовірність (8) на прийнятному рівні а уг = 0.05, для к = 60 прийдемо за допомогою таблиць Р-розподілу [9] до граничного значення ВІР, рівному р * «0.53. За своєю суттю це значення визначає вимоги до мінімальної розрізнення фонем за критерієм СВІТ. Таким чином, матриця інформаційних неузгодженостей фонем || руг || (ІРФ) і (слідом за нею) матриця ймовірностей змішування фонем || АУГ || (ВПФ) - перший рівень теоретико-інформаційного

    опису ФБД. Його мета - підготовка даних для аналізу якості мови диктора.

    Критерії якості. Дотримуючись загальних ідей теоретико-інформаційного підходу [1], будемо розглядати кожного диктора в ролі деякого джерела повідомлень X е {ХГ},

    певного на Я-безлічі його кластерів-фонем. Вичерпної характеристикою комунікативних властивостей такого джерела може служити інформаційна ємність ФБД, або кількість інформації в розрахунку на одну фонему. У припущенні про ідеальний мовному механізмі людини-диктора і безпомилковому сприйнятті його мови слухачем вказану кількість визначається відомим виразом для Шенноновская

    ентропії дискретного джерела повідомлень X е {хГ} виду

    R, R

    v * ~ т; ~ Rr ^ и Pr • r = 1 r = 1

    H (x) a? P (X = x *) log2 P (X = x *) =? Pr log2 Pr • (9)

    При цьому потрібно враховувати природне умова нормування його закону распреде-Я

    лення:? рг = 1. У найпростішому випадку рівноймовірно фонем, коли \ / г < Я: рг = 1 / Я, г = 1

    отримаємо максимальну ентропію: Н (X) = log2 Я біт на кожну фонему.

    Ситуація, однак, різко ускладнюється, якщо враховувати проблему варіативності мови. Один і той же диктор не промовляє однаково двічі навіть одну і ту ж фонему. У такому випадку і сприйняття його мови деяким умовним слухачем принципово носить імовірнісний характер. Критерій СВІТ - оптимальний варіант для такого роду сприйняття. Іншими словами, сигнал на виході мовного тракту диктора X відображається в свідомості іншої людини - слухача - незбіжним з ним (в загальному випадку спотвореним) мовним чином X 'е {хГ} * X. В результаті в процесі сприйняття мови з ймовірністю (8) виникають помилки змішування окремих фонем. При цьому вирішальне значення має ступінь спотворень кожного мовного образу X '.

    Спотворений образ сигналу X 'як дискретний джерело повідомлень характеризується відповідним "спотвореним" законом розподілу ймовірностей своїх станів: qг = Р (X' = х *) * рг, г = 1, Я, для якого як і раніше виконується тождест-

    R

    у ^ qr = 1. Дотримуючись теорії ентропії Шеннона і (9), визначимо для даного випадку інфор-

    г = 1

    мационного ємність результуючої ФБД за формулою різниці двох ентропій - апріорної і апостеріорної - для Я-позиційного джерела повідомлень: I (X, X ') = Н (X) - Н (').

    Апостеріорна ентропія Н (Х | Х ') в даному випадку має сенс величини розсіювання корисної інформації в процесі сприйняття мови, або мінімальної необхідної надмірності (МТІ) мовного сигналу для його безпомилкового сприйняття. У розрахунку на одну його фонему матимемо відносну величину необхідної надмірності (ОВТІ) і відповідний критерій якості мови виду:

    П = Н (Х | Х ') / н (X) ^ шт. (10)

    Чим менше значення ОВТІ п, тим вище розрізнення (розбірливість) окремих Ері в мові даного диктора, і тим менше "переспросов" [10] вона зажадають в середньому в процесі здійснюваних комунікацій.

    Результати обчислень. Використовуючи симетричну форму записи вираження для кількості інформації, отримаємо такий вираз:

    Я Я Я

    I (X, X ') 4 н (X0 - н (X1X) = -X qr 1082 qr + Е Рг Е qvr ^ 2 qvr

    Г = 1 Г = 1 У = 1

    або, в припущенні про рівну ймовірності всіх фонем

    Я Я Я

    I (X, X ') = -? qr 10Б2 qr + Я-1 ЇЇ qvr 1о§2 qvr, (11)

    Г = 1 Г = 1 У = 1

    де qvr = Р (X '= х * X = х ^) - умовна ймовірність формування г-го мовного образу хГ, г = 1, Я, в свідомості слухача за результатами розпізнавання за критерієм СВІТ поточної реалізації фонеми х ^. У разі рівного розподілу г = v qvv = Р (X '= х

    ймовірність безпомилкового розпізнавання у-й фонеми. Визначимо в явному вигляді обидві зазначені ймовірності.

    Зіставивши умовну ймовірність qvr з ймовірністю змішування у-й фонеми (8), шляхом нескладних міркувань при АУГ ^ 1 прийдемо до наближеного рівності

    qvr = Р {рг (ХС) = = Р {рг (ХС)<Р1 (ХС), Рг (ХС)<РЯ (ХС)} ~

    «Р {рг (ХС) <Ру (ХС)} = АУГ. (12)

    В такому випадку набір ймовірностей безпомилкового сприйняття фонем від даного диктора набуде вигляду

    Я Я _

    qvv = 1 - Е qvr -1 - Е АЧГ - а ™, ^ 1 Я (13)

    г = 1, г Фч г = 1, г ФЧ

    X = xV), v = 1, R є

    а ймовірність появи кожної з них в свідомості слухача

    Я Я _

    Чг = Е РуЧуг = Я- Е Чуг, г = 1Я- (14)

    Вирази (12) - (14) в сукупності визначають шукану кількість інформації (11), а слідом за ним, і МТІ мовного сигналу

    Я Я Я

    Н (X ') = 1о§2 Я +? Чг тисячі вісімдесят дві Чг - Я_1 ЇЇ Чуг 1о§2 Чуг (15)

    г = 1 г = 1 У = 1

    в залежності від параметрів сформованої ФБД (головним чином, від її матриці умовних ймовірностей || АУГ ||). При зроблених раніше допущених про властивості матриці співаючи Я

    лучім наступне наближення: Н ( «-Я-1 ЇЇ АУГ 1о§2 АУГ. Цей результат зі-

    г = 1 У = 1

    вместно з (10) визначає алгоритм гранично спрощеного виду для обчислень ОВТІ:

    (Я Я I \

    п = Я "1

    (16)

    Е Е avr lo§2 avr lo§2 R

    V r = 1 v = 1 / у

    З точки зору застосування даного алгоритму вельми важливо, що входять у вираз (16) ймовірності змішування фонем {avr, r ф v}, як і ймовірності їх безпомилкового сприйняття {a vv}, можуть бути оцінені по кінцевої вибірці спостережень за допомогою стандартної формули відносної частоти. При збільшенні вірогідності змішування в сумі по всій ФБД якість мовлення пропорційно знижується. Кількісні оцінки зазначеної залежності отримані в ході експериментальних досліджень запропонованого критерію в типової задачі ФАР (див. Далі).

    Програма експериментальних досліджень. Для експериментальних досліджень обрано групу з трьох дикторів - чоловіків різного віку і приблизно одного рівня освіти. Кожним з них був прочитаний в середньому темпі один і той же художній текст з першого розділу роману А. С. Пушкіна "Капітанська дочка" обсягом в одну машинописних сторінок. Отримані мовні сигнали записувалися в пам'ять комп'ютера. Для цього застосовувалися спеціальні апаратні і програмні засоби: динамічний мікрофон AKG D77 S, ламповий мікрофонний передпідсилювач ART TUBE MP Project Series USB, програма Sound Forge-7.0. Частота дискретизації вбудованого АЦП встановлювалася рівною 16 кГц - стандартному значенню при обробці розмовної мови. Тривалість запису по кожному дикторові склала півтори - дві хвилини.

    Для кожного диктора згідно з алгоритмом ФАР (4) - (6) виділені безлічі чітких однойменних Ері {Xr}, а потім відповідно до визначення (3) - їх інформаційні центри-еталони {хГ}. Довжина сегмента даних у всіх випадках становила L = 80 відліків або т = 5 мс. Для розрахунку коефіцієнтів авторегресії з виразу (7) застосовувалася рекуррентная процедура Берга-Левінсона [7], що володіє найбільш високою швидкістю збіжності в порівнянні з її відомими аналогами. Порядок АР-моделі встановлений для всіх дикторів однаковим і рівним M = 30 - близькому до оптимального ва-

    риант в умовах експерименту [8]. Елементи матриці ИРФ || руг || розраховувалися за тією ж формулою (7), але при подачі на вхід обчислювача еталонної реалізації кожної у-й фонеми, т. е. при х = х ^, у< Я, а елементи матриці ВПФ || АУГ || - за формулою (8). число

    ступенів свободи розподілу Фішера встановлювалося рівним к = Ь - М = 60 для всіх дикторів і всіх варіантів ФБД.

    Першим результатом проведених досліджень стало виведення про умовне, суб'єктивний характер самого поняття ФБД і, як наслідок, сумнів щодо об'єктивності будь-яких заснованих на конкретній ФБД оцінок якості мови. Так, в залежності від пропонованих вимог (5), (6) до ступеня однорідності розподілів Ері в межах кожного кластера Xr змінюється не тільки їх число Я, а й склад еталонів (3), а також властивості виділених фонем. Чим нижче поріг по ВІР ро, т. Е. Чим вище вимоги до якості кожної фонеми, тим менше значення Я. При збільшенні порога по тривалості Ері Ьо число фонем Я в підсумковому списку {Xr} також монотонно скорочується.

    Які саме значення обох порогів слід тоді задавати при фонетичному аналізі мови? На це питання немає однозначної відповіді: для кожної розв'язуваної задачі оптимальні значення будуть різними.

    Тому основна мета експериментальних досліджень полягала у вивченні залежності складу та властивостей формованих ФБД від особистості диктора і від параметрів адаптивного алгоритму ро і Ьо, а також в порівнянні ФБД різних дикторів між собою по

    інформаційному показнику ОВТІ (16). Отримані результати ілюструються далі трьома таблицями експериментальних даних.

    Основні результати. У табл. 1 представлений фрагмент результуючої матриці ИРФ, а в табл. 2 - фрагмент результуючої матриці ВПФ для ФБД першого диктора в первинному варіанті, коли параметри алгоритму ФАР фіксувалися на рівнях ро = 1.0 і Ьо = 4Ь = 320 (або 20 мс). Обидві матриці мають однаковий порядок Я = 87, т. Е. За результатами ФАР для першого диктора було виявлено 87 чітких фонем. Нулі на головній діагоналі матриці ИРФ - ознака ідентичності розподілів еталонів в межах кожного окремого кластера. Якщо не брати їх до уваги, то найбільш проблемними з точки зору розрізнення при їх сприйнятті, є пари фонем з номерами (3,5), (3,6), (3,8), (5,6), (6, 8) та інші - за ознакою мінімуму їх ВІР (4). Це ж випливає і з табл. 2: її елементи - ймовірності змішування фонем АУГ - досягають своїх максимальних значень на перетині відповідних рядків і стовпців. Елементи на головній діагоналі матриці - ймовірності безпомилкового сприйняття а уу - при цьому аналізі не враховуються.

    Для порівняння сформований другий варіант ФБД для того ж (першого) диктора, але при інших значеннях параметрів алгоритму: зниженому вдвічі значенні порога ро = 0.5 і

    подвоєному значенні порога Ьо = 8Ь (або 40 мс за часом дії Ері). Це випадок істотно більш жорстких вимог до якості виділяються з злитої промови фонем. як

    30

    Таблиця 1

    V r

    1 2 3 4 5 6 7 ... 87

    pvr

    1 0 3.7254 10.433 3.0455 12.963 11.345 15.789 7.5727

    2 8.0565 0 2.1818 5.1829 2.8152 1.7326 2.196 14.621

    3 7.4178 1.7205 0 8.7028 0.0700 0.5195 9.3816 3.9258

    4 0.8999 3.5081 10.77 0 13.211 10.118 1.2804 12.995

    5 8.6786 3.442 0.1161 8.4109 0 0.5400 9.5821 4.3292

    6 11.715 1.3591 0.3075 5.5221 0.3120 0 4.4833 8.4461

    7 2.1383 1.6098 10.571 1.0971 13.014 9.6922 0 14.309

    87 182.9 539.6 223.02 167.75 101.45 216.79 556.77 0

    Таблиця 2

    V r

    1 2 3 4 5 6 7 ... 87

    OCyr

    1 0.9032 5.1-10-9 8.23-10-18 1.03-10-7 4.79 -10-20 1.16-10-18 3.66 -10-22 1.00-10-14

    2 2.67 -10-15 0.925526 6.85 -10-6 1.84 10-11 3.03 -10-7 7.23 -10-5 6.37 -10-6 2.50 -10-21

    3 1.55 -10-14 7.72 -10-5 0.231668 4.96-10-16 0.397061 0.053924 9.29-10-17 2.25 -10-9

    4 0.007051 1.3110-8 3.93-10-18 0.687326 3.02 -10-20 1.67 -10-17 0.000856 4.5110-20

    5 5.27-10-16 1.75-10-8 0.33 5 902 1.05-10-15 0.221698 0.048555 5.77-10-17 4.45-10-10

    6 5.44-10-19 0.000554 0.150864 5.64 -10-12 0.147784 0.207958 2.44-10-10 9.57-10-16

    7 8.56 -10-6 0.00014 6.07 -10-18 0.002366 4.35 -10-20 4.45 -10-17 0.885096 4.26 -10-21

    87 4.98 -10-52 5.48 -10-66 1.42 -10-54 6.39-10-51 1.63 -10-44 3.27 -10-54 2.15 -10-66 0.910747

    результат відповідна матриця ИРФ (табл. 3) має істотно менший, у порівнянні з початковим, порядок Я = 32. Сильно змінився і склад проблемних пар фонем, одночасно різко скоротилася частота їх появи в таблиці. Кількісно даний ефект характеризується наступним чином: відносна надмірність п склала 13.65% в першому випадку проти 6.74% у другому. Таким чином, у другому випадку приблизно вдвічі скоротилося число помилок при сприйнятті виділених фонем в порівнянні з першим випадком, коли в середньому приблизно кожна сьома Ері з початкового списку {Xr} бракувалася як недостатньо чітко вимовлена ​​даними диктором.

    Таблиця 3

    V r

    1 2 3 4 5 6 7 ... 32

    pvr

    1 0 1.024 14.792 0.8948 2.7431 1.273 0.56761 2.3144

    2 0.8046 0 10.524 1.8852 2.2442 2.6846 1.4351 3.234

    3 11.625 9.6803 0 11.877 6.5335 9.9982 15.95 4.1093

    4 2.0194 1.3084 21.191 0 3.4887 0.9179 1.6385 6.9007

    5 3.2819 1.8624 3.2998 7.8007 0 5.9377 6.0817 4.8477

    6 7.2556 4.0163 16.064 0.7230 2.2032 0 6.2953 5.2093

    7 0.5402 0.92 3 8 19.495 1.329 2.4384 1.2953 0 6.863

    32 2.8951 9.8587 2.724 7.742 9.555 6.667 4.527 0

    Аналогічні результати були отримані для другого і третього дикторів: 11.89% проти 4.82% і 12.13% проти 6.56% відповідно в двох розглянутих варіантах алгоритму ФАР. У межах кожного варіанта алгоритму, т. Е. При його фіксованих параметрах, дані характерізівалі індивідуальні особливості кожного диктора. У цьому сенсі інформаційні показники (15), (16) - їх об'єктивна характеристика. При цьому порівняно кращим за критерієм мінімуму ОВТІ (10) з'явився другий диктор. Важливо відзначити, що його показники залишалися кращими одночасно першій-ліпшій нагоді адаптивного алгоритму. У зазначеному висновку і полягає головний сенс проведеного експериментального дослідження.

    Запропонована інформаційна теорія якості мови - природне продовження і розвиток ІТВР, розраховане на рішення цілого ряду актуальних завдань, які до теперішнього часу або не ставилися і не вирішувались, або вирішувалися, але незадовільним чином. Наприклад, це завдання автоматичного аналізу і порівняння різних дикторів по звуковому строю їх мови. Не треба відзначати, мабуть, наскільки широкі межі її сфери прикладання. Досить послатися на безліч різноманітних мовних баз даних, що застосовуються для навчання і настроювання автоматичних систем з голосовим управлінням. Проблема оптимізації та періодичного поновлення їх вмісту - одна з найбільш гострих сучасних проблем в галузі теоретичної та прикладної інформатики. Розглянутий у цій статті приклад націлений в тому числі і на її рішення.

    бібліографічний список

    1. Савченко В. В. Інформаційна теорія сприйняття мови // Изв. вузів. Радіоелектроніка. 2007. Вип. 6. С. 10-14.

    2. Савченко В. В. Автоматична обробка мови за критерієм мінімуму інформаційного неузгодженості на основі методу відбілювати фільтра // Радіотехніка та електроніка. 2005. Т. 50, № 3. С. 309-314.

    3. Савченко В. В. Розрізнення випадкових сигналів в частотній області // Радіотехніка та електроніка. 1997. Т. 42, № 4. С. 426-431.

    4. Принципи цифрової обробки сигналів / Под ред. А. В. Оппенгейма. М .: Мир, 1980. 550 з.

    5. Кульбак С. Теорія інформації та статистика. М .: Наука, 1967. 408 с.

    6. Савченко В. В. Автоматичне розпізнавання мови методом дерева на основі інформаційного (К + 1) -елементом .// Изв. вузів Росії. Радіоелектроніка. 2006. Вип. 4. С. 13-22.

    7. Марпл С. Л.-мл. Цифровий спектральний аналіз та його додатки. М .: Світ, 1990. 584 с.

    8. Савченко В. В., Акатов Д. Ю., Карпов Н. В. Автоматичне розпізнавання мовних одиниць методом відбілювати фільтра // Изв. вузів. Радіоелектроніка. 2007. Вип. 4. С. 11-19.

    9. Мюллер П., Нойман П., Шторм Р. Таблиці по математичній статистиці / Пер. з нім. М .: Фінанси і статистика, 1982. 278 с.

    10. Савченко В. В., Акатов Д. Ю. Автоматичне розпізнавання випадкових сигналів за критерієм мінімального інформаційного неузгодженості з перепитав // Изв. вузів Росії. Радіоелектроніка. 2006. Вип. 1. С. 20-29.

    V. V. Savchenko

    Nizhny Novgorod state linguistic university

    Analysis of speech quality on the basis of the information theory of perception

    Base elements of the information theory of speech perception are stated. The concept it phonetic building through the description of each phoneme in the form of cluster, made of set of elementary speech units by a principle of a minimum information mismatch, is entered. The problem of estimation of speech qualities on it phonetic building is put and solved. The information substantiation of criterion of a minimum of demanded speech redundancy is given.

    Speeches, speech mechanism, phonetic build, quality of speech, theory and information approach

    Стаття надійшла до редакції 4 березня 2008 р.


    Ключові слова: МОВА / МОВНОЇ МЕХАНІЗМ / SPEECH MECHANISM / фонетичний лад / PHONETIC BUILD / ЯКІСТЬ МОВИ / QUALITY OF SPEECH / ТЕОРЕТИКО-ІНФОРМАЦІЙНИЙ ПІДХІД / THEORY AND INFORMATION APPROACH / SPEECHES

    Завантажити оригінал статті:

    Завантажити