У статті розглядаються особливості медико-біологічних даних і їх вплив на вибір методів при розробці ансамблю моделей. Усе медико-біологічні дані умовно діляться на п'ять груп, так як можуть мати різну природу, а для їх систематизації необхідно застосовувати шкалювання. Так само в статті наведено ряд особливостей медико-біологічних даних, які безпосередньо впливають на вибір способу формування ансамблю (в залежності від необхідних результатів), а також на вибір методів, що входять в ансамбль. У статті наведено такі методи: кореляційний аналіз, асоціативні правила, карти Кохонена і дерева рішень. Таким чином, особливості вхідних даних при формуванні ансамблю необхідно враховувати на початковому етапі, щоб уникнути подальших помилок при роботі над ансамблем і інтерпретації результатів.

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Захарова Олена Олександрівна, Подвесовскій Олександр Георгійович, Толстенок Вікторія Павлівна


ANALYSIS OF REQUIREMENTS FOR THE ENSEMBLE OF MODELS STRUCTURE FOR BIOMEDICAL DATA PROCESSING

The article discusses the features of biomedical data and their influence on the choice of classifiers in the development of the ensemble of models. All biomedical data are conventionally divided into five groups, so they can have a different nature, and scaling is necessary for their systematization. The article also presents several features of biomedical data. Biomedical features have a direct impact on the choice of ensemble formation method (depending on the desired results), as well as on the choice of classifiers included in the ensemble. The following classifiers are presented in the article: correlation analysis, associative rules, Kohonen maps and decision trees. Thus, the features of the input data during the formation of the ensemble must be considered at the initial stage in order to avoid further errors when working on the ensemble and interpretation of the results.


Область наук:

  • Комп'ютер та інформатика

  • Рік видавництва: 2019


    Журнал

    Інформаційні та математичні технології в науці та управлінні


    Наукова стаття на тему 'АНАЛІЗ ВИМОГ ДО СТРУКТУРИ АНСАМБЛЮ МОДЕЛЕЙ ДЛЯ ОБРОБКИ МЕДИКО-БІОЛОГІЧНИХ ДАНИХ'

    Текст наукової роботи на тему «АНАЛІЗ ВИМОГ ДО СТРУКТУРИ АНСАМБЛЮ МОДЕЛЕЙ ДЛЯ ОБРОБКИ МЕДИКО-БІОЛОГІЧНИХ ДАНИХ»

    ?Аналіз вимог до структури ансамблю моделей для обробки медико-біологічних даних УДК 004.62

    АНАЛІЗ ВИМОГ ДО СТРУКТУРИ АНСАМБЛЮ МОДЕЛЕЙ ДЛЯ ОБРОБКИ

    МЕДИКО-БІОЛОГІЧНИХ ДАНИХ Захарова Олена Олександрівна

    Д.т.н., професор кафедри «Інформатика та програмне забезпечення», Брянський державний технічний університет, 241035, Росія, м Брянськ, бул. 50 років Жовтня, буд. 7, e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    ORCID: 0000-0003-4221-7710 Подвесовскій Олександр Георгійович к.т.н., доцент, завідувач кафедри «Інформатика та програмне забезпечення» Брянський державний технічний університет,

    241035, Росія, м Брянськ, бул. 50 років Жовтня, буд. 7, e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    ORCID: 0000-0002-1118-3266 Толстенок Вікторія Павлівна Магистрант, Брянський державний технічний університет, 241035, г. Брянск, бульвар 50-річчя Жовтня 7, e-mail: tol stenok21 @ yandex. ru

    Анотація. У статті розглядаються особливості медико-біологічних даних і їх вплив на вибір методів при розробці ансамблю моделей. Всі медико-біологічні дані умовно діляться на п'ять груп, так як можуть мати різну природу, а для їх систематизації необхідно застосовувати шкалювання. Так само в статті наведено ряд особливостей медико-біологічних даних, які безпосередньо впливають на вибір способу формування ансамблю (в залежності від необхідних результатів), а також на вибір методів, що входять в ансамбль. У статті наведено такі методи: кореляційний аналіз, асоціативні правила, карти Кохонена і дерева рішень. Таким чином, особливості вхідних даних при формуванні ансамблю необхідно враховувати на початковому етапі, щоб уникнути подальших помилок при роботі над ансамблем і інтерпретації результатів. Ключові слова: медико-біологічні дані, особливості медико-біологічних даних, ансамбль моделей, інтелектуальний аналіз даних.

    Цитування: Захарова А.А., Подвесовскій А.Г., Толстенок В.П. Аналіз вимог до структури ансамблю моделей для обробки медико-біологічних даних // Інформаційні та математичні технології в науці та управлінні. 2019. № 4 (16). С. 89-98. DOI: 10.25729 / 24130133-2019-4-07

    Вступ. Інтелектуальний аналіз став частиною великого числа досліджень і технологій в сучасному світі і включає такі напрямки як статистика, машинне навчання, штучний інтелект, розпізнавання образів, візуалізацію і алгоритмізацію. Інструменти Data Mining застосовуються в різних сферах: від бізнесу до медицини.

    Якщо говорити про застосування методів інтелектуального аналізу даних в медицині, то даний напрямок активно розвиватися, але головним обмеженням є

    особливості медико-біологічних даних, для якісного аналізу яких одного методу буде недостатньо. При роботі з такими даними більшість алгоритмів не дозволяє досягти бажаної точності. У подібних випадках доцільно використовувати ансамблі моделей. У цьому випадку головне завдання ансамблю складається в генерації різноманітних індивідуальних моделей, які дозволять підвищити точність і якість результату [2].

    Застосування інструментів Data Mining в області медицини дозволяє отримати нові комплексні рішення, які раніше не були доступні.

    1. Особливості медико-біологічних даних. Поняття «медико-біологічні дані» включає в себе не тільки вироблені людським організмом різні сигнали, які свідчать про стан людини, а також стан навколишнього середовища, яке безпосередньо впливає на життєдіяльність людини.

    Всі медико-біологічні дані можна умовно розбити на п'ять груп:

    а) Кількісні дані. Це параметри, які характеризуються дискретними величинами, такими як зріст, вага, показання загального аналізу крові або показник захворюваності населення.

    б) Якісні дані. Якісними даними є ознаки, яким не можна дати точну оцінку, але при цьому можна ранжувати, наприклад, систематизувати за низкою умовних балів. До таких даних належить бальні характеристики рівня болю, якості життя людини або якості навколишнього його середовища.

    в) Статичні картини органів людини або всього тіла. Такого роду дані можна отримувати завдяки засобам медичної радіології, які відображають стан пацієнта в цілому або окремих органів. Прикладом таких даних є рентгенограма, томограма і т.д.

    г) Дані, що характеризують динамічну картину органів людини. Дані такого роду можна отримати тільки при постійному відстеженні рухомих органів людини, таких як серце або легені.

    д) Дані, що характеризують динамічні фізіологічні функції, такі як електрокардіограма, електроенцефалограма і інші [3].

    Медико-біологічні дані можуть бути відображені в різних форматах (текстовий, числовий, графічний і т.д.), а також можуть мати різні ознаками, тому точної угруповання, яка б відобразила всі характеристики, особливості та способи реєстрації такого роду даних просто не існує.

    Особливу увагу варто приділити поняттям «ознака» і «параметр». Ці поняття різні, тому при роботі з медико-біологічними даними їх необхідно чітко розрізняти, але при цьому даний розподіл досить умовно [4].

    Ознака - бінарний параметр, який приймає два значення: наявність або відсутність.

    Параметр - це значення, яке можна охарактеризувати в абсолютних або відносних величинах.

    Щоб систематизувати і обробити медико-біологічні дані, їх необхідно впорядкувати. Для цього було запропоновано використовувати ряд шкал вимірювання: • Шкала найменувань - об'єднання об'єктів в ряд непересічних класів, при

    це прийнято вважати, що об'єкти, що відносяться до одного класу, є

    ідентичними.

    • Шкала порядку. Дана шкала відображає напрямок процесу: порядок зростання або зменшення ознаки.

    • Интервальная шкала - шкала, що має одиницю вимірювання, що є її відмінною рисою.

    • Шкала відносин - це різновид інтервального шкали, що має точку відліку, тобто точку, в якій досліджуваний параметр практично відсутня [3].

    Також медико-біологічні дані необхідно привести до єдиного формалізованого виду.

    Єдиний уніфікований вид дозволяє зіставляти результати різних досліджень, аналізів і звітної документації. У Російській Федерації формалізація даних регулюється законом «Про стандартизацію» та загальноприйнятою вважається формалізація параметричних даних про пацієнта на основі міжнародного стандарту СІ. Окремі стандарти регулюють передачу, обмін даними і архітектуру клінічних документів.

    Першим кроком при роботі з будь-якими даними, в тому числі і з медико-біологічними, необхідно визначити їх тип. Найчастіше використовуються два типи даних: якісні і кількісні. Якісні дані можна ранжувати, а кількісні - квантовать.

    Працюючи з медико-біологічними даними, необхідно враховувати ряд особливостей

    [1,8]:

    • Не можна використовувати обнулення, тобто в разі пропусків інформації порожні значення замінювати на нуль не можна, так як це в більшості випадків збігається з кодуванням норми за цією ознакою або внесе неправдиву інформацію в подальшу роботу з даними.

    Не рекомендується використовувати в малих вибірках середнє значення по класу з огляду на їх неоднорідності.

    • Необхідно чітко розділяти поняття «змінна» і «ознака». Так само необхідно враховувати дихотомичность, так як змінні можуть приймати одне з двох значень.

    Необхідно правильно визначити значення градації якісної ознаки. Наприклад, при визначенні болю по школі від 1 до 5. Тому щоб уникнути суб'єктивного значення необхідно провести додаткові дослідження.

    • Звернути увагу на формат запису дат. Він повинен бути записаний в єдиній формі для всіх досліджуваних даних.

    Звернути увагу на наявність дублюючих значень і помилки введення.

    При необхідності структурувати дані для отримання адекватних результатів і

    виключення помилок.

    2. Розробка ансамблю моделей з урахуванням особливостей медико-біологічних даних. Ансамбль моделей - це комбінація кількох методів, які дозволяють створити більш точну й ефективну модель, ніж модель, в основі якої лежить тільки один метод. Тобто при знаходженні рішення для однієї задачі або докази висунутої гіпотези буде застосована не одна модель, а кілька. При цьому буде мати значення не результат роботи однієї окремо взятої моделі, а результат роботи ансамблю в цілому [11].

    Навчання ансамблю - це процес навчання набору базових методів з наступним об'єднанням результатів їх прогнозування в єдиний прогноз агрегованого класифікатора методів. Таким чином завдяки агрегованого класифікатором методів можна отримати більш точний результат. Під поняттям «агрегований класифікатор методів» маються на увазі всі методи, що входять в ансамбль моделей.

    Мета об'єднання моделей - поліпшити (посилити) рішення, яке дає окрема модель. При цьому передбачається, що єдина модель ніколи не зможе досягти тієї ефективності, яку забезпечить ансамбль [9].

    Можна виділити три ключових причини об'єднання методів (моделей) в ансамбль:

    • Зменшує вірогідність впливу різного роду випадковостей (наприклад, викиди) на сукупну гіпотезу.

    • Ансамбль моделей шукає глобальним оптимум і уникає локальних оптимумів, так як веде пошук з різних точок вихідного безлічі гіпотез.

    • Існує можливість того, що сукупна гіпотеза буде знаходитися за межами безлічі базових гіпотез, в цьому випадку при побудові комбінованої гіпотези можна просто розширити безліч можливих гіпотез. Першим кроком для розробки ансамблю є вибір класу ансамблю. Усе

    ансамблі можна розділити на два класи:

    Ансамблі, що складаються з базових методів тільки одного типу (тільки з дерев рішень, нейронних мереж і т. Д.).

    Ансамблі, що складаються з базових методів різного типу (дерева рішень, карти Кохонена, різні алгоритми кластеризації і т. Д.).

    Для роботи з медико-біологічними даними оптимальним буде вибір ансамблю, що складається з методів різного типу, так як такий клас ансамблів має більшу гнучкість і точністю.

    Велику роль відіграє правильний вибір методу формування ансамблю. Багато в чому вибір залежить від поставлених цілей, так як кожен метод спрямований на вирішення певних завдань. Далі розглянемо два найбільш популярних і часто використовуваних методу.

    Бустінг - алгоритм, що відноситься до ітераційним і призначений для збільшення точності моделі. Кожного запису даних на кожній ітерації алгоритму присвоюється вага. Перший метод навчається на всіх прикладах з рівними вагами. На кожній наступній ітерації ваги розставляються відповідно класифікованих прикладів, т. Е. Ваги правильно класифікованих прикладів зменшуються, а неправильно класифікованих - збільшуються. Отже, пріоритетними для наступного методу стануть неправильно розпізнані приклади, навчаючись на яких новий метод буде виправляти помилки методу минулого ітерації [5].

    Беггінг спрямований на підвищення стабільності моделі. Даний метод будує модель ансамблю, використовуючи бутстреп-агрегування, яке генерує множинні моделі для отримання більш надійних прогнозів. Алгоритм Беггинген має на увазі наступні кроки. Спочатку формується кілька вибірок шляхом випадкового відбору з початкової множини даних. Потім на основі кожної вибірки будується метод, і виходи всіх методів агрегируются з використанням голосування або простого усереднення. Очевидно, що

    точність передбачення побудованих за допомогою Беггинген комбінованих методів виявляється значно вище, ніж точність окремих моделей [7].

    Для роботи з медико-біологічними даними підійде будь-який з методів.

    Важливим етапом при роботі з медико-біологічними даними є попередня обробка, так як дані можуть надходити з кількох джерел і вводитися вручну (тому можуть бути присутніми порожні або дублюючі значення, помилки введення і т.д.), також може бути присутнім різне шкалювання одних і тих же параметрів, що надійшли з різних джерел.

    У більшості випадків, що надійшли дані не придатні для аналізу, так як вони слабоструктуровані, в них зустрічаються пропуски, що дублюють і аномальні значення. Якщо почати працювати з даними в початковому вигляді, то результат роботи ансамблю моделей буде незадовільним. Наприклад, кожному пацієнтові може бути поставлено до декількох різних діагнозів, які занесені в одне поле. Таким чином, для ансамблю моделей вхідний параметр «Діагноз» замість 4 різних значень буде мати тільки одне, що складається відразу з декількох діагнозів.

    Пропуски і дублюючі значення також внесуть перешкоди в роботу моделі, що негативно позначиться на підсумковому результаті.

    На рис. 1 показані дані, які пройшли процедуру попередньої обробки.

    ?с1_Паціента Вік 1-чоловік; 2-дружин; | Пол Діагноз (під МКБ) Назва діагнозу Гемоглобін Відхилення

    1 28 1 Е78.0 Чистий гіперхолестеринемія 141 0

    1 28 1 690.9 Розлад вегетативної [автоног 141 0

    1 28 1 Н35.0 Фонова ретинопатія та ретинального 141 0

    1 28 1 Н52.1 Міопія 141 0

    Мал. 1. Дані після попередньої обробки

    Після попередньої обробки з'явилося нове поле «id_Паціента», кожен діагноз заноситься в окреме поле, усунуті дублюючі і порожні значення. Далі дані можна використовувати для розробки ансамблю моделей.

    3. Вибір методу. Існують обмеження при виборі методів для обробки медико-біологічних даних. Найчастіше використовуються такі методи:

    а) Кореляційний аналіз.

    Використовується при оцінці залежностей вихідних полів даних від вхідних факторів і при усуненні незначних факторів. Основний принцип полягає в пошуку в найменшій мірі корелюється (взаємопов'язаних) значень з вихідним результатом. Отримані фактори виключаються з результуючого набору даних майже без втрат важливої ​​інформації. Для прийняття рішення про виключення фактора використовується поріг значимості. Якщо кореляція (ступінь взаємозалежності) між вхідним і вихідним факторами менше порога значимості, то відповідний фактор відкидається як незначний.

    При роботі з медико-біологічні даними кореляційний аналіз дозволять виявити найбільш значимі показники для кожної групи пацієнтів.

    б) Асоціативні правила.

    Асоціативні правила [6] дозволяють знаходити закономірності між пов'язаними подіями. Для роботи з асоціативними правилами дані необхідно представити в

    вигляді транзакцій. Наприклад, одному пацієнту відповідає один і більше діагнозів. Приклад даних у вигляді транзакцій представлений на рис. 1. На рис. 2 показаний приклад роботи асоціативних правил.

    MS Умова Слідство ti Підтримка ab Достовірність ^ Ліфт

    Кількість%

    l Гіперметропія Нейросенсорна втрата Спук двостороння 3 3,00 33,33 11,11

    2 Гіперметропія Хронічна обструктивна легенева хвороба, неуточнена 3 3,00 33,33 8,3 з:

    3 Хронічна обструктивна легенева хвороба неуточнені Гіперметропія 3 3,00 75,00 s, 3 з:

    4 Гіперметропія Есенціальна [первинна] гіпертензія 3 3,00 2,38]

    5 Есенціальна [первинна] гіпертензія Гіперметропія 3 3,00 21,43 2,381

    S Пресбіопія Розлад вегетативної [автономної] нервової систеиой не 4 4,00 26,67 2,221

    7 Розлад вегетативної [автономної] нервової систеиой Пресбіопія 4 4,00 33,33 2,221

    Пресбіопія Чистий гіперхолестеринемія 6 6,00 40,00 1,5зг

    9 Чистий гіперхолестеринемія Пресбіопія 6 6,00 23,03 1,5зг

    10 Розлад вегетативної [автономної] нервової системи Чистий гіперхолестеринемія 5 5,00 41,67 1, бо:

    11 Чистий гіперхолестеринемія Розлад вегетативної [автономної] нервової системи не 5 5,00 19,23 1, бо:

    12 Чистий гіперхолестеринемія Есенціальна [первинна] гіпертензія 5 5,00 13,23 1,37 '

    13 Есенціальна [первинна] гіпертензія Чистий гіперхолестеринемія 5 5,00 35,71 1,37 '

    Мал. 2. Приклад роботи методу «Асоціативні правила»

    Застосування асоціативних правил дозволяє виявити пов'язані діагнози і побачити ступінь зв'язку і кількість випадків. в) Карти Кохонена.

    Самоорганізуються карти Кохонена [12] є зручним графічним інструментом для роботи з медико-біологічними даними. За допомогою карт можна побачити значущі відмінності в даних, докладно описати їх склад або виявити закономірності. На рис. 3 показаний приклад роботи методу «Самоорганізуються карти Кохонена».

    Мал. 3. Приклад роботи методу «Самоорганізуються карти Кохонена»

    Аналіз вимог до структури ансамблю моделей для обробки медико-біологічних даних г) Дерево рішень.

    Дерева рішень [6] - це спосіб представлення правил в ієрархічній, послідовної структурі, де кожному об'єкту відповідає єдиний вузол, що дає рішення. Під правилом розуміється логічна конструкція, представлена ​​у вигляді

    "якщо то ...". Приклад роботи методу показаний на рис. 4.

    ЕЕетрД'Н ^^ М ^^ МТ Iв! ж 188 В 68

    ? І І I Відхилення від норми! Лейкоцити = О I 1731І ~ | 62

    В- 1М Відхилення від норми | Гематокріг = -1 І I 28 I 8

    Вік = доЗЗ 3 II I 2 I 2

    + II В озраст = від 33 до 41 II I 'В \ Ш I 4

    У озраст = від 41 до 51 2 II I 5 | І I 3

    Вік = від 51 до 55 Про II I 4 \ Ш I 4

    У озраст = від 55 до 57 Про II I 3 I 3

    Вік = від 57 2 II I 5 I 3

    [+ І I Відхилення від норми | Гемагокріг = О I 1381М ~ | 51

    [+ Відхилення від норми | Гематокріг = 1 II I 7 I 4

    + НІШ Відхилення від норми | Лейкоцити = 1 В I 15 | І I 7

    Мал. 4. Приклад роботи методу «Дерево рішень»

    Стосовно до медико-біологічним даними, дерева рішень менш ефективні, ніж самоорганізуються карти Кохонена. Навіть на малих вибірках (близько 100-200 записів) дерево рішень виходить досить великим і трудноінтерпретіруемим.

    Таким чином, стандартний алгоритм розробки ансамблю моделей запропоновано скорегувати з урахуванням особливостей медико-біологічних даних і прийме наступний вигляд:

    Крок 1. Проаналізувати вихідні дані і при необхідності провести предобработку даних.

    Крок 2. Визначити групу, ознака і параметр для медико-біологічних даних. Так само необхідно грамотно підібрати єдину шкалу для аналізу даних.

    Крок 3. У залежності від поставлених завдань вибрати метод формування ансамблю.

    Крок 4. Правильно підібрати методи і послідовність їх використання.

    Крок 5. Інтерпретувати отриманий результат.

    В результаті роботи ансамблю можна буде побачити не тільки приховані закономірності, але і висунути ряд значущих гіпотез, які раніше не знайдених [10].

    Висновок. Медико-біологічні дані безпосередньо впливають на алгоритм розробки ансамблю моделей. У більшості випадків вихідні дані потребують передобробці: необхідно прибрати дублюючі значення, структурувати дані і виправити помилки ручного введення. Так само при роботі з такими даними необхідно правильно визначити їх тип (наприклад, кількісні або якісні дані), правильно визначити ознаку і параметр, а для упорядкування використовувати єдину шкалу.

    Медико-біологічні дані мають ряд особливостей, але при роботі з ними найбільш значущими є пропуски інформації (в цьому випадку не можна використовувати обнулення, так як воно може збігтися з кодуванням норми кого-небудь ознаки), наявність дублюючих значень і помилок введення, а також слабка структуризація даних.

    Так само запропонований алгоритм розробки ансамблю моделей, який враховує особливості слабоструктурованих вибірок медико-біологічних даних. Даний алгоритм пройшов апробацію на малих вибірках і показав свою ефективність.

    Робота виконана за фінансової підтримки Російського фонду фундаментальних досліджень, проект № 19-07-00844.

    СПИСОК ЛІТЕРАТУРИ

    1. Бар'єри та перспективи цифрової трансформації: проблеми управління великими даними в індустрії охорони здоров'я. Режим доступу: http://www.medlinks.ru/article.php?sid=83028 (дата звернення 11.11.2019)

    2. Кашницький Ю.С., Ігнатов Д.І. Ансамблевий метод машинного навчання, заснований на рекомендації класифікаторів // Інтелектуальні системи. Теорія і додатки. 2015. Т. 19. №4. С. 37-55.

    3. Королюк І.П. Медична інформатика. Самара: СамГМУ. 2012. 244 с.

    4. Мангалова Е.С. Дослідження впливу різноманітності індивідуальних моделей на точність ансамблю // Решетіевскіе читання. 2015. Т. 2. С. 67-68.

    5. Орєшков В.І. Методи і моделі інтелектуального аналізу даних в задачах управління в соціальних та економічних системах: автореф. дис. ... канд. техн. наук. Рязань. 2013. 23 с.

    6. Паклин Н.Б., Орєшков В.І. Бізнес-аналітика: від даних до знань. СПб .: Пітер. 2013. 704 с.

    7. Сошенко А.Е., Королева Н.А. Ансамблі моделей для прогнозування. Режим доступу: http://arbir.ru/articles/a_4053.htm (дата звернення 11.11.2019)

    8. Цвєткова Л.А., Черченко О.В. Технологія Великих Даних в медицині і охороні здоров'я Росії і світу // Лікар та інформаційні технології. 2016. № 3.

    С. 60-73.

    9. Циганкова І.А. Метод інтелектуальної обробки медико-біологічних даних // Програмні продукти і системи. 2009. №3. С. 120-123.

    10. Geger E.V., Podvesovskii A.G., Kuzmin S.A., Tolstenok V.P. Methods for the Intelligent Analysis of Biomedical Data // CEUR Workshop Proceedings of the 29th International Conference on Computer Graphics and Vision (GraphiCon 2019). Vol. 2485. Pp. 308-311.

    11. Hamed R. Bonab, Fazli Can. A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams // 25th Conference on Information and Knowledge Management, ACM, New York. 2016. Pp. 2053-2056.

    12. Kohonen T. The Self-Organizing Map // Proceeding of the IEEE. 1990. Vol. 78. Pp. 1464-1480.

    UDK 004.62

    ANALYSIS OF REQUIREMENTS FOR THE ENSEMBLE OF MODELS STRUCTURE

    FOR BIOMEDICAL DATA PROCESSING Alena A. Zakharova

    Dr. Tech. Sc., Professor of Informatics and Software Engineering Department

    Bryansk State Technical University 7, 50 let Oktyabrya blvd., 241035, Bryansk, Russia, e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    ORCID: 0000-0003-4221-7710 Aleksandr G. Podvesovskii Cand. Tech. Sc., Associate Professor Head of Informatics and Software Engineering Department к.т.н., доцент, завідувач кафедри «Інформатика та програмне забезпечення»

    Bryansk State Technical University 7, 50 let Oktyabrya blvd., 241035, Bryansk, Russia, e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    ORCID: 0000-0002-1118-3266 Viktoria P. Tolstenok Graduate Student, Bryansk State Technical University 7, 50 let Oktyabrya blvd., 241035, Bryansk, Russia, e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    Abstract. The article discusses the features of biomedical data and their influence on the choice of classifiers in the development of the ensemble of models. All biomedical data are conventionally divided into five groups, so they can have a different nature, and scaling is necessary for their systematization. The article also presents several features of biomedical data. Biomedical features have a direct impact on the choice of ensemble formation method (depending on the desired results), as well as on the choice of classifiers included in the ensemble. The following classifiers are presented in the article: correlation analysis, associative rules, Kohonen maps and decision trees. Thus, the features of the input data during the formation of the ensemble must be considered at the initial stage in order to avoid further errors when working on the ensemble and interpretation of the results.

    Keywords: biomedical data, features of biomedical data, ensemble of models, data mining.

    References

    1. Bar'ery i perspektivy cifrovoj transformacii: problemy upravlenija bol'shimi dannymi v industrii zdravoohranenija [Barriers and Opportunities of Digital Transformation: Problems of Big Data Control in the Industry of Public Health]. Available at: http://www.medlinks.ru/article.php?sid=83028 (accessed 11.11.2019) (in Russian)

    2. Kashnickij Ju.S., Ignatov D.I. Ansamblevyj metod mashinnogo obuchenija, osnovannyj na rekomendacii klassifikatorov [Ensemble Method of Machine Learning Based on Classifiers Recomendations] // Intellektual'nye sistemy. Teorija i prilozhenija. = Intelligent systems. Theory and applications. 2015. Vol. 19 (4). Pp. 37-55. (In Russian)

    3. Koroljuk I.P. Medicinskaja informatika [Medical Infomatics]. Samara: Samara State Medical University. 2012. 244 p. (In Russian)

    4. Mangalova E.S. Issledovanie vlijanija raznoobrazija individual'nyh modelej na tochnost 'ansamblja [Research of Influence of Individual Models Diversity on Ensemble Accuracy] // Reshetnevskie chtenija = Reshetnev Readings. 2015. Vol. 2. Pp. 67-68 (in Russian)

    5. Oreshkov V.I. Metody i modeli intellektual'nogo analiza dannyh v zadachah upravlenija v social'nyh i jekonomicheskih sistemah [Methods and Models of Intelligent Data Analysis in Tasks of Management in Social and Economic Systems]: Dissertation abstract. Ryazan. 2013. 23 p. (In Russian)

    6. Paklin N.B., Oreshkov V.I. Biznes-analitika: ot dannyh k znanijam [Business Intelligence: from Data to Knowledge]. Saint-Petersburg. Piter. 2013. 704 p. (In Russian)

    7. Soshenko A.E., Koroleva N.A. Ansambli modelej dlja prognozirovanija [Ensemble of Models for Forecasting]. Available at: http://arbir.ru/articles/a_4053.htm (accessed 11.11.2019) (in Russian)

    8. Tsvetkova L.A., Cherchenko O.V. Tekhnologiya Bol'shikh Dannykh v meditsine i zdravookhranenii Rossii i mira [Big Data Technology in medicine and healthcare of Russia and the world] // Vrach i informatsionnyye tekhnologi = Doctor and information technology. 2016. № 3. Pp. 60-73. (In Russian)

    9. Tsygankova I.A. Metod intellektual'noj obrabotki mediko-biologicheskih dannyh [Method of Intellectual Processing of Medical and Biologic Data] // Programmnye produkty i sistemy = Software and Systems. 2009. no. 3. Pp. 120-123 (in Russian)

    10. Geger E.V., Podvesovskii A.G., Kuzmin S.A., Tolstenok V.P. Methods for the Intelligent Analysis of Biomedical Data // CEUR Workshop Proceedings of the 29th International Conference on Computer Graphics and Vision (GraphiCon 2019). Vol. 2485. Pp. 308-311.

    11. Hamed R. Bonab, Fazli Can. A Theoretical Framework on the Ideal Number of Classifiers for Online Ensembles in Data Streams // 25th Conference on Information and Knowledge Management. ACM, New York. 2016. Pp. 2053-2056.

    12. Kohonen T. The Self-Organizing Map // Proceeding of the ШИЇ. 1990. Vol. 78. Pp. 1464-1480.


    Ключові слова: МЕДИКО-БІОЛОГІЧНІ ДАНІ /ОСОБЛИВОСТІ МЕДИКО-БІОЛОГІЧНИХ ДАНИХ /АНСАМБЛЬ МОДЕЛЕЙ /Інтелектуальний АНАЛІЗ ДАНИХ /BIOMEDICAL DATA /FEATURES OF BIOMEDICAL DATA /ENSEMBLE OF MODELS /DATA MINING

    Завантажити оригінал статті:

    Завантажити