представлений алгоритм для автоматизації процесу ідентифікації особистості по голосу. Проводиться огляд існуючих методів вирішення поставленого завдання. Реалізується метод, заснований на застосуванні моделі гауссових сумішей, який дозволяє відрізняти голосу людей з високою точністю, оскільки компоненти гауссових сумішей можуть моделювати особливості голосу, індивідуальні для кожної людини. Наводяться результати тестування реалізованого алгоритму, робиться висновок про можливість застосування моделі гауссових сумішей для вирішення завдання ідентифікації особистості по голосу.

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Чернецова Е.А., Шишкін А.Д.


ALGORITHM FOR PERSONAL IDENTIFICATION BASED ON VOICE FOR INFORMATION ACCESS AUTHORIZATION

The authors present the algorithm for automating the personal identification process based on a voice. A review of existing methods for solving the problem is presented as well. The method based on the use of a Gaussian mixture model is implemented, it allows to distinguish the voices of people with the highest accuracy since the components of Gaussian mixtures can simulate voice characteristics that are individual for each person. The results of testing the implemented algorithm are given, the conclusion is drawn about the applicability of the Gaussian mixture model for solving the problem of identification by voice.


Область наук:

  • Комп'ютер та інформатика

  • Рік видавництва: 2019


    Журнал: Міжнародний науково-дослідний журнал


    Наукова стаття на тему 'АЛГОРИТМ ІДЕНТИФІКАЦІЇ ОСОБИСТОСТІ ПО ГОЛОСУ ДЛЯ санкціонування ДОСТУП ДО'

    Текст наукової роботи на тему «Алгоритм ідентифікації ОСОБИСТОСТІ ПО ГОЛОСУ ДЛЯ санкціонування ДОСТУПУ ДО ІНФОРМАЦІЇ»

    ?DOI: https://doi.org/10.23670/IRJ.2019.80.2.010

    АЛГОРИТМ ІДЕНТИФІКАЦІЇ ОСОБИСТОСТІ ПО ГОЛОСУ ДЛЯ санкціонування ДОСТУПУ ДО

    ІНФОРМАЦІЇ

    Наукова стаття

    Чернецова Е.А.1 '*, Шишкін А. Д.2

    1 ORCID: 0000-0001-5805-3111;

    2 ORCID: 0000-0003-1992-5663;

    1 2 Російський Державний Гідрометеорологічний Університет, Санкт-Петербург, Росія

    * Корреспондирующий автор (chemetsova [at] listru)

    анотація

    Представлений алгоритм для автоматизації процесу ідентифікації особистості по голосу. Проводиться огляд існуючих методів вирішення поставленого завдання. Реалізується метод, заснований на застосуванні моделі гауссових сумішей, який дозволяє відрізняти голоси людей з високою точністю, оскільки компоненти гауссових сумішей можуть моделювати особливості голосу, індивідуальні для кожної людини. Наводяться результати тестування реалізованого алгоритму, робиться висновок про можливість застосування моделі гауссових сумішей для розв'язання задачі ідентифікації особистості по голосу.

    Ключові слова: алгоритм, ідентифікація, голос, модель, гауссовская суміш.

    ALGORITHM FOR PERSONAL IDENTIFICATION BASED ON VOICE FOR INFORMATION ACCESS

    AUTHORIZATION

    Research article

    Chernetsova E.A.1, *, Shishkin A.D.2

    1 ORCID: 0000-0001-5805-3111;

    2 ORCID: 0000-0003-1992-5663;

    1 2 Russian State Hydrometeorological University, Saint Petersburg, Russia

    * Corresponding author (chernetsova [at] list.ru)

    Abstract

    The authors present the algorithm for automating the personal identification process based on a voice. A review of existing methods for solving the problem is presented as well. The method based on the use of a Gaussian mixture model is implemented, it allows to distinguish the voices of people with the highest accuracy since the components of Gaussian mixtures can simulate voice characteristics that are individual for each person. The results of testing the implemented algorithm are given, the conclusion is drawn about the applicability of the Gaussian mixture model for solving the problem of identification by voice.

    Keywords: algorithm, identification, voice, model, Gaussian mixture.

    У будь-якої людини є свої особливі вокальні характеристики, які визначаються індивідуальною структурою його голосового апарату. Прислухаючись до розмови, людина може на рівні підсвідомості ідентифікувати голоси будь-яких інших людей, однак розробка автоматичного различителями мови пов'язана зі значними труднощами [1].

    Завдання розпізнавання людини по голосу полягає у виділенні з вхідного аудиопотока людської мови, її класифікації і розпізнавання. При цьому зазвичай вирішуються дві підзадачі: розпізнавання мовця і перевірка. Для вирішення цих підзадач можна визначити метод розрахунку ступеня подібності вибірки з опорними сигналами. Ступінь подібності опорної і тестової вибірок можна розрахувати з використанням певної міри відстані або з використанням імовірнісних критеріїв [2]. Алгоритм ідентифікації мовця можна також визначити як текстозавісімий і текстонезавісімий. Якщо алгоритм ідентифікації мови залежить від тексту, то в ньому можна використовувати як фіксовані заздалегідь фрази, так і фрази, які генеруються системою розпізнавання. Текстонезавісімие системи необхідні для обробки довільній мови [3].

    В даній статті обговорюється проблема автоматичної ідентифікації особистості по її вокальним характеристикам і реалізується алгоритм, який вирішує проблему текстозавісімой ідентифікації.

    Методи моделювання переконливо говорить пройшли великий шлях від виконання усереднення векторів ознак до здійснення складних породжують і дискримінаційних моделей [4]. Концепція породжують моделей включає в себе моделювання даних, що застосовуються при навчанні, наприклад, шляхом оцінювання функції щільності ймовірності (для моделі гауссових сумішей). Дискримінаційні моделі покликані розмежовувати окремі класи (наприклад, при реалізації методу опорних векторів) [5].

    В даний час широко поширені такі способи для моделювання переконливо говорить [6]:

    • для класу текстозавісімих систем - динамічне перетворення часу (Dynamic Time Warping; DTW) і приховані марковские моделі (Hidden Markov Model; HMM);

    • для класу текстонезавісімих систем - векторне квантування (Vector Quantification; VQ), моделі гауссових моделі суміші (GMM) і метод опорних векторв (опорна векторна машина (SVM).

    Dynamic Time Warping (DTW) - алгоритм динамічного перетворення шкали часу, метод динамічного програмування, що дозволяє знаходити відстань між двома часовими рядами. Як правило, такі послідовності мають різну довжину, тому доводиться проводити вимірювання з різними швидкостями.

    Основна перевага даного алгоритму - це простота реалізації. Хоча цей алгоритм з успіхом використовується в різних додатках, іноді він дає невірні результати. Алгоритм намагається виправити неузгодженість осі x шляхом перетворення осі у, що може викликати вирівнювання, в якому одна точка вихідного часового ряду пов'язана з досить великим масивом точок іншого часового ряду [7]. Інша проблема при реалізації даного алгоритму полягає в тому, що йому важко виявити вирівнювання двох рядків в зв'язку з тим, що деяке значення (яке може мати вигляд піку, западини, плато, максимуму або мінімуму функції) одного ряду розташується трохи вище або трохи нижче відповідної точки в іншому ряду [8].

    Якщо для вирішення задачі розпізнавання декількох класів застосовується метод опорних векторів, то часто можна використовувати стратегію «один проти іншого». Це вимагає побудови q-класифікаторів, при цьому кожен класифікатор можна навчити відмінності одного конкретного класу від інших. При вирішенні задачі ідентифікації об'єкт буде визначено як що належить до класу, класифікатор якого дає максимальне значення розділяє функції Д (х). Метод опорних векторів передбачає високу точність класифікації, має теоретичне обгрунтування, дозволяє застосування різних підходів до класифікації згідно з вибором основної функції. Серед недоліків методу потрібно наголосити на необхідності вибору ядра, а також досить великий час, необхідне для твору процедури навчання алгоритму для вирішення завдання многоклассового розпізнавання [9].

    Моделі гауссових сумішей можуть бути застосовні не тільки для моделювання характеристик голосу мовця, а й для запису сигналу голосу і навколишнього середовища. Кожен з компонентів моделі відображає деякі загальні особливості голосу, але індивідуальні при їх відтворенні кожним мовцем. Моделі гауссових сумішей довели свою ефективність, оскільки володіють високою точністю розпізнавання. Саме тому цей підхід може бути успішно використаний для вирішення проблеми ідентифікації текстонезавісімого мовця [10].

    Розрахунок зваженої суми М компонент, що представляють модель гауссових сумішей, здійснюється за формулою

    [11]

    Р (х | Х) =? Л, рг' г (х), (1)

    де х - Б-мірний вектор випадкових величин, р1, 1< 1 < М - ваги компонентів моделі, видання г (х), 1< До М - функції щільності розподілу складових моделі:

    Комерсант (х) = - д1-ехр -ДГ) Г? Г1Х-Д "г], (2)

    (2ТГ) 2 | 2; | 1/2 ^ '

    де Д] - вектор математичного очікування і ^ - ковариационная матриця. Ваги суміші повинні задовольняти умові:

    ?Г =, рг = 1 (3)

    Модель гаусом суміші цілком визначається з використанням векторів математичного очікування, коваріаційних матриць і ваг сумішей для кожної з компонентів моделі:

    ^ = {Р 1, Д "г-? 0 -1 = 1,. | .М (4)

    При використанні методу кожен говорить людина може бути представлений своєю моделлю гауссовской суміші.

    Щоб побудувати систему автоматичної ідентифікації особистості по голосу з використанням гауссових сумішей необхідно вирішити наступні підзадачі:

    • Зняти і обробити ознаки вхідного мовного сигналу;

    • Розробити алгоритм ініціалізації і оцінки параметрів моделі;

    • Визначити число компонентів моделі гауссових сумішей.

    Спочатку виконується аналогово-цифрове перетворення звукового сигналу. При дискретизації сигнал розбивається на окремі значення квантованной амплітуди через деякі часові інтервали.

    Вся запис сигналу проглядається вікнами заздалегідь заданій тривалості, які перекриваються. Рекомендується вибирати тривалість тимчасового вікна в межах 20-30 мс. У даній роботі для спрощення розрахунків тривалість кожного вікна була обрана рівної 25 мс.

    Потім оцифрований сигнал проглядається невеликими фрагментами (кадрами), які характерні для окремих вокальних компонентів мовного сигналу і для яких передбачається, що сигнал зберігає постійними свої властивості на даному проміжку часу. Далі відбувається вибір функції вікна. Функція тимчасового вікна повинна приймати значення, не рівне нулю, всередині деякого тимчасового відрізка, а за його межами повинна бути дорівнює нулю. Потім функція вікна послідовно накладається на фрейми сигналу, і з мовного кадру відбувається вилучення інформації. Витяг цієї інформації відбувається за допомогою перемноження значення сигналу х [1], взятого в момент часу 1 із значенням віконної функції взятої в момент часу 1:

    У [t] = w [t] х [t] (5)

    Характеристиками віконної функції є наступні параметри: ширина (в мілісекундах), зміщення (число мілісекунд між кордонами послідовних вікон) і форма. У даній роботі застосовується вікно Хеммінга з шириною L = 30мс і зміщенням 10 мс .:

    Го, 54 - 0,46 cos (-), 0 < t < L - 1 w (t) = j \ l / (6)

    I 0, інакше

    Після фільтрації кожного сегмента отримуємо повний сигнал, в якому відсутні шуми, перешкоди та інші спотворення, що можуть заважати правильному розпізнаванню говорить.

    Далі необхідно витягти з сигналу, отриманого на попередніх етапах алгоритму, інформацію про спектральних складових, для чого використовується дискретне перетворення Фур'є. На вхід обчислювача подається сигнал, розбитий на кадри, а на виході обчислювача для кожного з Т частотних діапазонів отримуємо комплексне число Х [к], яке є амплітудою і фазою вихідного сигналу. Х [к] обчислюється за формулою:

    ~ Іл

    де к =

    гехР

    (7)

    Потім необхідно перейти від величини частоти звуку f до значення висоти (крейда). Спочатку потрібно розташувати отриманий спектр на крейда-шкалою. Цю операцію здійснюємо за формулою

    В (/ Н2) = 1127,01048 * 1п (1 + (^)

    (8)

    Дана операція потрібна для моделювання того, що людський слух має неоднакову чутливість в різних частотних діапазонах.

    Потім необхідно сформувати трикутні фільтри, службовці для накопичення значення енергії в кожному з частотних діапазонів (10 фільтрів розподіляються лінійно нижче 1000Ш, а решта - логарифмічно вище 1000Ш) і взяти логарифм кожного отриманого значення крейди. Використання логарифма необхідно для того, щоб відмінності в способах подачі вхідного сигналу менше впливали на оцінки індивідуальних ознак мови.

    Далі переводимо отримані значення в шкалу з частотами. На наступному кроці алгоритму обчислюється кепстра сигналу. Це перетворення дозволяє відокремити джерело хвилі звуку від фільтра, властивості якого дозволяють генерувати відповідний звук при проходженні хвилі, що має частоту основного тону мови по голосовому каналу. При цьому фільтр містить велику частину корисної інформації.

    Кожен сегмент сигналу може бути описаний за допомогою 12 крейда-частотних кепстральних коефіцієнтів. Для їх знаходження використовуємо формулу

    (9)

    де 0< п ^

    На малюнку 1 представлений графік залежності крейда-частотних кепстральних коефіцієнтів від часу для двох кадрів мовного сигналу двох різних дикторів, які виголошували однакову мовну фразу. На графіку можна бачити, що коефіцієнти записи розрізняються для різних мовців. Залежність крейда-частотних кепстральних коефіцієнтів від часу для двох різних записів мови одного і того ж диктора представлені на малюнку 2. З графіка малюнка 2 можна бачити невелику різницю між крейда-частотними кепстральних коефіцієнтами.

    Після того, як розраховані всі коефіцієнти, сигнал записи повинен пройти процедуру порівняння з еталонним сигналом, що зберігаються в базі даних. Критерієм збігу цих сигналів буде міра відстані Евкліда.

    На малюнку 3 представлена ​​повна блок-схема алгоритму, на основі якої розроблена програма для ідентифікації особи за її вокальними даними.

    Мал. 1 - Залежність крейда-частотних кепстральних коефіцієнтів записів мови двох різних дикторів від часу

    в перших двох фреймах мовного сигналу

    Мал. 2 - Залежність крейда-частотних кепстральних коефіцієнтів записів мови одного і того ж людини від

    часу в перших двох фреймах мовного сигналу

    Щоб форматувати початкові параметри моделі, в даній роботі був використаний алгоритм кластерного аналізу для векторів ознак мовного сигналу. В якості алгоритму кластеризації був обраний алгоритм ^ means ++, в якому в якості запобіжного спотворення використовується евклідова відстань [12].

    Мал. 3 - Блок-схема алгоритму автоматизації процесу ідентифікації диктора за голосом

    Алгоритм К-теапБ ++ є модифікацією алгоритму К-теапБ. В даному алгоритмі проводиться випадковий вибір центру першого кластера, а потім кожний наступний центр може бути обраний з решти точок даних з ймовірністю, пропорційною квадрату відстані до найближчого існуючого центру кластера. Після цього відбувається виконання стандартного алгоритму К-теапБ. Перевагою такого підходячи є велике зменшення похибки кінцевого результату.

    Для тестування розробленого алгоритму було розроблено програмний засіб на мові С ++. Були відібрані голосові сигнали двадцяти чоловік. Записи мови проводилися в моно режимі за допомогою вбудованого в комп'ютер мікрофона, що має частоту дискретизації 16 кГц і розрядність АЦП, рівну 16 біт. Тривалість мовного сигналу становила 50 секунд, а тривалість сигналу-тесту - 15 секунд. Перевірка працездатності алгоритму проводилася при різній кількості компонент моделі гауссових сумішей. На малюнку 4 зображено залежність числа правильно ідентифікованих дикторів (в%) від числа компонент моделі гауссових сумішей.

    Мал. 4 - Залежність числа правильно ідентифікованих дикторів (в%) від числа компонент моделі гауссових

    сумішей

    Результати розробки алгоритму автоматичної ідентифікації особистості по голосу для санкціонування доступу до інформації, отримані в даній роботі, дозволяють зробити наступні висновки:

    • Для моделювання індивідуальних особливостей голосу компоненти гауссових сумішей підходять найкраще, так як дозволяють розпізнавати говорять з високою точністю.

    • Визначення вихідних параметрів моделі з використанням алгоритму K-means ++ дозволяє значно збільшити швидкість навчання і підвищити точність ідентифікації.

    • Число компонент, що є оптимальним для ефективної роботи системи дорівнює п'яти. При цьому числі компонент точність ідентифікації мовця становить 96%, що свідчить про те, що реалізований алгоритм може бути з успіхом застосований для санкціонування доступу до інформації по голосу користувача.

    Конфлікт інтересів Conflict of Interest

    Не вказано. None declared.

    Список літератури I References

    1. Рибін С. В. Синтез мови. Навчальний посібник з дисципліни "Синтез мови" I С. В. Рибін. - СПб: Університет ИТМО, 2014. - 92 с.

    2. Сорокін В. Н. Верифікація диктора по спектрально-часових параметрів мовного сигналу I В. Н. Сорокін, А. І. Ципліхін II Інформаційні процеси. - 2010. -Т.10. - № 2. - С. 87-104

    3. Ахмад Хассан Мухаммад: Дослідження і розробка алгоритмів параметризації мовних сигналів в системі розпізнавання диктора: дис .... канд.тех.наук: 05.13.01: захищена 26.11.08: утв.12.06.09! Ахмад Хассан Мухаммад.-Володимир, 2008.-157 з.

    4. Первушин Є. А. Огляд основних методів розпізнавання дикторів I Е. А. Первушин II Математичні структури та моделювання. -2011. - Вип. 24. - С. 41-54

    5. Campbell J. P., Speaker Recognition: A Tutorial I J. P. II Proceedings of the IEEE. 1997. V. 85, N 9. P. 1437-1462.

    6. Martin A., Przybocki M. The NIST тисяча дев'ятсот дев'яносто дев'ять Speaker Recognition Evaluation - An Overview II Digital Signal Processing. 2000. V. 10

    7. Kim S. H. Pattern Matching Trading System Based on the Dynamic Time Warping Algorithm. Sustainability I S. H. Kim, H. S. Lee, H .J. Ko and others.2018, 10, 4641.

    8. Thi-Thu-Hong Phan Dynamic time warpingbased imputation for univariate time series data. Pattern Recognition Letters I Phan Thi-Thu-Hong, Emilie Poisson Caillault, Alain Lefebvre, Andre Bigand., Elsevier 2017, <10.1016Ij.patrec.2017.08.019>. <hal-01609256>

    9. Баєв Н. О. Використання методу опорних векторів в задачах класифікації I Н. О. Баєв II Міжнародний журнал інформаційних технологій та енергоефективності. - 2017. - Т.2 №2 (4). - С. 17-21

    10. Chow D. Speaker Identification Based on Perceptual Log Area Ratio and Gaussian Mixture Models / D. Chow, H. Waleed, A. Robust. - Auckland, New Zealand: 2002. - 65 р.

    11. Садихов Р. Х. Моделі гауссових сумішей для верифікації диктора по довільній мови / Р. Х. Садихов, В. В. Мушлі // Доповіді БГУИР. - 2003. - №4. - С.98 - 103

    12. Шокіна М. О. Застосування алгоритму k-means ++ для кластеризації послідовностей з невідомою кількістю кластерів [Електронний ресурс] / М. О. Шокіна // Нові інформаційні технології в автоматизованих системах. - 2017. - № 20. URL: https: //amosov.rn/artideMprimenenie-algoritma-k-means-dlya-klasterizatsii-posledovatelnostey-s-neizvestnym-kolichestvom-klasterov (дата звернення: 15.01.2019).

    Список літератури англійською мовою / References in English

    1. Rybin S. V. Sintez rechi. Uchebnoye posobiye po distsipline "Sintez rechi" [Synthesis of speech. Textbook on the discipline "Synthesis of speech."] / S. V. Rybin. - SPb: Universitet ITMO, 2014. - 92p. [In Russian]

    2. Sorokin V. N. Verifikatsiya diktora po spektral'no-vremennym parametram rechevogo signala [Speaker verification using the spectral-temporal parameters of a speech signal] / V. N. Sorokin, A. I. Tsyplikhin // Informatsionnyye protsessy. [Informational processes] - 2010. -T.10. - № 2. - P. 87-104 [in Russian]

    3. Akhmad Khassan Mukhammad: Issledovaniye i razrabotka algoritmov parametrizatsii rechevykh signalov v sisteme raspoznavaniya diktora [Research and development of algorithms for the parameterization of speech signals in the speaker recognition system]: dis .... PhD in Engineering: 05.13.01: defense of the thesis 26.11.08: approved 12.06.09 / Akhmad Khassan Mukhammad.-Vladimir, 2008.-157 p. [In Russian]

    4. Pervushin Ye. A. Obzor osnovnykh metodov raspoznavaniya diktorov [Review of the main speaker recognition methods] / Ye. A. Pervushin // Matematicheskiye struktury i modelirovaniye. [Mathematical Structures and Modeling] -2011. -Vyp. 24. - P. 41-54 [in Russian]

    5. Campbell J. P., Speaker Recognition: A Tutorial / J. P. // Proceedings of the IEEE. 1997. V. 85, N 9. P. 1437-1462.

    6. Martin A., Przybocki M. The NIST тисяча дев'ятсот дев'яносто дев'ять Speaker Recognition Evaluation - An Overview // Digital Signal Processing. 2000. V. 10

    7. Kim S. H. Pattern Matching Trading System Based on the Dynamic Time Warping Algorithm. Sustainability / S. H. Kim, H. S. Lee, H .J. Ko and others.2018, 10, 4641.

    8. Thi-Thu-Hong Phan Dynamic time warpingbased imputation for univariate time series data. Pattern Recognition Letters / Phan Thi-Thu-Hong, Emilie Poisson Caillault, Alain Lefebvre, Andre Bigand., Elsevier 2017, <10.1016 / j.patrec.2017.08.019>. <hal-01609256>

    9. Bayev NO Ispol'zovaniye metoda opornykh vektorov v zadachakh klassifikatsii [Using the support vector method in classification problems] / NO Bayev // Mezhdunarodnyy zhurnal informatsionnykh tekhnologiy i energoeffektivnosti. [International Journal of Information Technology and Energy Efficiency] - 2017. - T .2 №2 (4). - P. 17-21 [in Russian]

    10. Chow D. Speaker Identification Based on Perceptual Log Area Ratio and Gaussian Mixture Models / D. Chow, H. Waleed, A. Robust. - Auckland, New Zealand: 2002. - 65 p.

    11. Sadykhov R. KH. Modeli gaussovykh smesey dlya verifikatsii diktora po proizvol'noy rechi [Models of Gaussian Mixtures for Speaker Verification by Arbitrary Speech] / R. KH. Sadykhov, V. V. Rakush // Doklady BGUIR. [Reports of BSUIR] - 2003. - №4. - P.98 - 103 [in Russian]

    12. Shokina MO Primeneniye algoritma k-means ++ dlya klasterizatsii posledovatel'nostey s neizvestnym kolichestvom klasterov [The use of the k-means ++ algorithm for clustering sequences with an unknown number of clusters] [Electronic resource] / MOShokina // Novyye informatsionnyye tekhnologii v avtomatizirovannykh sistemakh. [New information technologies in automated systems] - 2017. - № 20. URL: https://load.amosov.org.ua/www/science/3/primenenie-algoritma-k-means-dlya- klasterizatsii-posledovatelnostey-s-neizvestnym-kolichestvom-klasterov (accessed: 15.01.2019). [In Russian]


    Ключові слова: GAUSSIAN MIXTURE /MODEL /VOICE /IDENTIFICATION /ALGORITHM /гауссовский СУМІШ /МОДЕЛЬ /ГОЛОС /ІДЕНТИФІКАЦІЯ /АЛГОРИТМ

    Завантажити оригінал статті:

    Завантажити