Розглянуто проблеми та підходи до оцінки якості технологій обробки даних. Дан огляд існуючих вітчизняних і зарубіжних конкурентних процедур в області технологій аналізу даних і машинного навчання (Конкурсів, турнірів і т. П.). Запропоновано методологію оцінки якості технологій інтелектуальної обробки даних шляхом зіставлення з якістю роботи людини-оператора.

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Гарбук Сергій Володимирович, Бакеев Руслан Надіровіч


Problems and approaches are considered to data processing technologies quality assessment. The review is given of existing domestic and foreign competitive procedures in the field of data analysis technologies and machine learning (Competitions, tournaments, etc.). The methodology is suggested of intelligent data processing technologies quality assessment by comparing it with human operator work quality.


Область наук:

  • Комп'ютер та інформатика

  • Рік видавництва: 2017


    Журнал: проблеми управління


    Наукова стаття на тему 'КОНКУРЕНТНА ОЦІНКА ЯКОСТІ ТЕХНОЛОГІЙ ІНТЕЛЕКТУАЛЬНОЇ ОБРОБКИ ДАНИХ'

    Текст наукової роботи на тему «КОНКУРЕНТНА ОЦІНКА ЯКОСТІ ТЕХНОЛОГІЙ ІНТЕЛЕКТУАЛЬНОЇ ОБРОБКИ ДАНИХ»

    ?І нформаціонние технології в управлінні

    УДК 004.9

    КОНКУРЕНТНА ОЦІНКА ЯКОСТІ ТЕХНОЛОГІЙ ІНТЕЛЕКТУАЛЬНОЇ ОБРОБКИ ДАНИХ

    С.В. Гарбук, Р.Н. Бакеев

    Розглянуто проблеми та підходи до оцінки якості технологій обробки даних. Дан огляд існуючих вітчизняних і зарубіжних конкурентних процедур в області технологій аналізу даних і машинного навчання (конкурсів, турнірів і т. П.). Запропоновано методологію оцінки якості технологій інтелектуальної обробки даних шляхом зіставлення з якістю роботи людини-оператора.

    Ключові слова: машинне навчання, технології аналізу даних, інтелектуальні технології, конкурентна оцінка якості.

    ВСТУП

    Сучасний етап розвитку інформаційно-телекомунікаційної інфраструктури супроводжується різким зростанням обсягу інформації, що надходить від систем аерокосмічного моніторингу, технічних засобів забезпечення безпеки (стаціонарні камери відеоспостереження, автомобільні відеореєстратори і ін.), Що формується контрольно-вимірювальною апаратурою, медичним та іншим діагностичним обладнанням, що накопичується в базах даних операторів зв'язку і фінансових організацій, що циркулює в соціальних мережах і ін.

    За деякими оцінками [1] обсяг знань людства, накопичений до 2015 року, становив 4,4 зет-21

    табайт (4,4 s 10 байт), причому інтенсивність інформаційного потоку, щомісяця формується різного роду сенсорами, в 2017 р, по про-

    18

    гнозам, складе близько 11 ексабайт (11 s 10 байт) при збереженні експоненціального зростання в найближчому майбутньому.

    Сукупність цих даних, звана в науково-популярній літературі «великі дані» (Big Data), відкриває безпрецедентні можливості щодо підвищення якості вирішення завдань в різних галузях економіки, управління, а також в сфері оборони і безпеки. Однак повною мірою ці можливості можуть бути реалізовані лише при наявності відповідних технологій обробки даних (ТОД), що забезпечують реше-

    ня конкретних прикладних задач з певним гарантованою якістю. У разі відсутності таких гарантій наслідки від використання «великих даних» можуть мати швидше негативні, ніж позитивні наслідки. Прикладами можуть служити:

    - ускладнення пошуку потрібної (релевантної) інформації у великих масивах слабоструктурованих і малоінформативних даних;

    - надмірне (не виправдане в сенсі прикладного ефекту) підвищення вимог до інфраструктури передачі і зберігання даних;

    - завищені очікування, пов'язані з підміною функціональних вимог до системи збору і обробки даних вимог до її сенсорної інфраструктурі.

    Характерним прикладом служить впровадження на великому об'єкті охорони системи відеоспостереження, що включає в себе сотні або тисячі відеокамер, інформація від яких обробляється операторами технічних засобів охорони. В цьому випадку подорожчання системи безпеки, викликане збільшенням числа відеокамер, не приводить до адекватного зростанню показників ефективності функціонування цієї системи, хоча це, як правило, мається на увазі замовником.

    На V міжнародному форумі «Розумне місто майбутнього» (29-30 листопада 2016 р, м Москва) було відзначено, що система міського відеоспостереження Москви налічує 130 тис. Відеокамер (під'їзний і дворове відеоспостереження, відеоспостереження в громадських місцях, соціальних і

    інших об'єктах, включаючи торгові, будівельні та ін.). При цьому обсяг перегляду відеоінформації операторами не перевищує 0,25% (3 млн з 1,2 млрд ч / рік). У Лондоні на кожні шість жителів в 2016 р доводилося по одній камері відеоспостереження [1], т. Е. Всього близько 1,5 млн відеокамер. Можна припустити, що при відсутності відповідних (володіють необхідною якістю) засобів обробки одержуваної інформації ефективність функціонування лондонській системи відеоспостереження також буде невисока.

    В якості ще одного прикладу, коли відсутність об'єктивних оцінок якості ТОД стримує їх практичне застосування, можна навести ситуацію з автоматизованою обробкою медичних даних. Сьогодні в лікувальних і науково-дослідних медичних установах накопичені величезні інформаційні массіви1, активно розвиваються технології автоматизованої діагностики різних захворювань (див., Наприклад, [2]). Однак відсутність розуміння, який кваліфікацією повинен володіти фахівець, здатний ефективно оцінити і використовувати рішення, пропоноване технічної системою, істотно знижує цінність такої «підказки» для лікаря, аж до її повної марності.

    1. ПІДХОДИ ДО ОЦІНКИ ЯКОСТІ ТЕХНОЛОГІЙ ОБРОБКИ ДАНИХ

    У даній роботі під якістю технології обробки даних відповідно до загальноприйнятого визначенням [3] будемо розуміти ступінь відповідності виділеного набору характеристик об'єкта (в даному випадку ТОД) вимогам, що пред'являються.

    1.1. Конкурентні процедури в області технологій обробки даних

    Оцінка відповідності може здійснюватися різними способами. До теперішнього часу найбільший практичний досвід накопичений в рамках проведення різних конкурентних процедур в області технологій аналізу даних і машинного навчання (конкурсів, турнірів і т. П.), Учасникам яких пропонується вирішувати формалізовані кваліфікаційні завдання, так чи інакше пов'язані з відповідними прикладними завданнями. Організаторами подібних конкурентних процедур, крім власне оцінки якості технологій, переслідуються цілі з пошуку

    1 За існуючими оцінками обсяг медичних даних досягне до 2020 р 35 зеттабайт (35 х 10 байт) з 44-кратним збільшенням з 2009 р.

    наукових колективів, здатних проводити дослідження інноваційного характеру в області розробки ТОД, підвищенню інтересу наукової спільноти до вирішення різних завдань обробки «великих даних» і т. п.

    Одним з перших конкурсів став KDD-Cup, організований в 1997 р спільнотою фахівців в області машинного навчання і аналізу д ан-них ACM SIGKDD (Special Interest Group on Knowledge Discovery and Data Mining) в рамках конференції «The Third International Conference on Knowledge Discovery and Data Mining »^. Нью-порт-Біч, США, шт. Каліфорнія). Конкурсний завданням стало передбачення факту пожертви на благодійність в цілях сприяння організації «Paralyzed Veterans of America». В якості практичного застосування результатів вирішення такого завдання вказувалася оптимізація адресної розсилки.

    Проведення подібного конкурсу стало відправною точкою до широкого поширення змагань в області технологій аналізу даних і машинного навчання. Розпочата в 1997 р серія конкурсів KDD-Cup триває, коротка характеристика конкурсних кваліфікаційних завдань представлена ​​в табл. 1.

    Починаючи з 2000-х рр., Тематика проведення конкурентних процедур в області ТОД почала активно розвиватися. У Національному інституті стандартів і технологій США (National Institute of Standards and Technology, NIST) на системній основі було розпочато тестування різних технологій в області аналізу д анних і м Ашин навчання. Найбільшу популярність в професійному співтоваристві отримали проводяться регулярно тести технологій біометричної ідентифікації по зображенню особи (Face Recognition Vendor Test, FRVT) і відбитками пальців (Fingerprint Vendor Technology Evaluation, FpVTE).

    Високу популярність придбали конкурентні процедури, приурочені до профільних конференцій або організовані окремими лабораторіями та інститутами. Найчастіше це були разові події без призових фондів, що проводяться переважно з наукового інтересу (табл. 2). Так, наприклад, серія конкурсів в рамках BCI Competition проводилася аж до 2008 р і була присвячена вирішенню завдань, пов'язаних з обробкою даних, одержуваних при реалізації інтерфейсу мозок-комп'ютер.

    В рамках щорічної конференції «European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases», починаючи з 2002 р проводилися конкурси під назвою Discovery Challenge. З 2016 року, наприклад, перед учасниками цього конкурсу ставилося завдання

    ВІН ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ В УПРАВЛІННІ

    ^ 1 Таблиця 7

    Опис кваліфікаційних завдань конкурсу К00-Сір

    Рік Короткий опис

    2016 Ранжування наукових публікацій за значимістю і вимір впливу дослідних інститутів

    2014 Відбір заявок на надання грантів, які заслуговують на найвищу оцінку

    2013 (Track 2) Визначення відповідності анонімних авторів заданої персони

    2013 (Track 1) Визначення приналежності тексту певному автору

    2012 (Track 2) Прогнозування швидкості м аркетінгового відгуку на рекламні оголошення з урахуванням інформації про користувача

    2012 (Track 1) Прогнозування переваг користувачів китайського мікроблога ТепсеП 'ЕДИЬо (об'єктами «лайків» могли бути інші користувачі або джерела інформації)

    2011 Прогнозування музичної збірки і оцінки музичних записів користувачами

    2010 Прогнозування продуктивності студентів при вирішенні задач

    2009 Прогнозування схильності клієнтів до зміни постачальників, покупці нових продуктів або послуг, покупці додаткових послуг

    2008 Виявлення раку грудей на основі рентгенографічних знімків

    2007 Прогнозування оцінки користувачем рейтингу фільму

    2006 Виявлення легенева емболія на основі рентгенографічних знімків

    2005 Категоризація пошукових користувачів в мережі Інтернет

    2004 Моделювання гомології білка

    2003 Аналіз журналів використання мережі

    2002 Розробка алгоритмів автоматичного вилучення інформації з наукових статей

    2001 Моделювання молекулярної активності. Прогнозування локалізації білка

    2000 Аналіз переходів по веб-сайтам онлайн-магазинів

    1999 Виявлення вторгнень в комп'ютерну мережу

    1998 Розробка маркетингових моделей для оптимізації прибутку

    Одна тисяча дев'ятсот дев'яносто сім Прогнозування пожертвувань на благодійність

    Таблиця 2

    Приклади окремих конкурсних заходів, що проводяться з початку 2000-х по 2010 р і спрямованих переважно на рішення некомерційних завдань

    Назва Короткий опис

    Feature selection (NIPS 2003) Завдання конкурсу включали в себе: діагностику захворювань за даними мас-приналежност-рії, розпізнавання рукописних цифр, категорирование тексту і пошук нових ліків

    Performance prediction (WCCI 2006) Учасники конкурсу змагалися у вирішенні п'яти завдань класифікації: маркетинг, пошук нових ліків, текстова класифікація, розпізнавання рукописних цифр і екологія

    Agnostic learning vs. prior knowledge (NIPS 2006 and IJCNN 2007) В рамках конкурсу пропонувалися два набори навчальних вибірок: оброблені дані, які підходять для готових пакетів машинного навчання, і необроблені - «чисті» дані, але містять інформацію про природу і джерело даних. Перед учасниками ставилися завдання поліпшення вихідних даних, а також навчання методом «чорного ящика»

    Learning causal dependencies (WCCI 2008 and NIPS 2008) Учасникам змагань було необхідно на основі аналізу модельних і експериментальних даних відповісти на питання: «Що впливає на ваше здоров'я?», «Що впливає на економіку?», «Що впливає на кліматичні зміни?» , а також спрогнозувати наслідки впливів

    Active Learning Challenge (AISTATS 2010 and WCCI 2010) Розмітка великого обсягу даних є дорогим заходом, але при цьому великі обсяги нерозмічену даних доступні за низькою ціною. Перед учасниками конкурсу ставилося завдання навчання на нерозмічену даних або так зване активне навчання

    52 | CONTROL SCIENCES № 6 • 2017

    передбачення поведінки користувачів на основі аналізу використання ними банківських карт.

    У 2001 р була створена інтернет-майданчик INNOCentive, що стала першим агрегатором конкурсів з різних областей знань - фізики, хімії, машинного навчання, аналізу даних і ін.

    Важливим етапом у розвитку змагань в області технологій обробки даних став конкурс Netflix Cup, ініційований в 2009 р компанією Netflix - американським постачальником фільмів і серіалів. З метою поліпшення свого інтернет-сервісу компанія організувала конкурс, в рамках якого учасникам пропонувалося поліпшити алгоритм Cinematch. Цей алгоритм прогнозував оцінку, яку поставить користувач того чи іншого фільму за п'ятибальною шкалою. Учасникам треба було поліпшити цей показник на 10%. Особливість полягала в тому, що переможцю пропонувався незвично великий на ті часи грошовий приз у розмірі $ 1 млн. Стало очевидно, що рішення задач аналізу даних затребуване не тільки в науковій, але і в комерційній сфері.

    У тому ж 2009 році була створена перша змагальна платформа по методам аналізу даних - TunedlT. Дана платформа забезпечувала ч еткую регламентацію правил, онлайн рейтингування учасників, підтримку форуму для обговорень проведених конкурсів. Створення подібної платформи сприяло подальшій популяризації конкурсів ТОД, спрямованих на вирішення різних прикладних задач.

    Однак по-справжньому широкий розмах подібні конкурси отримали в 2010 р з появою платформи Kaggle, повністю орієнтованої на комерційний сектор. В основу платформи Kaggle був закладений такий принцип роботи: споживач результатів конкурсу формулює прикладну задачу, рішення якої має на увазі аналіз даних, визначає приз для переможця і терміни, а потім окремі дослідники або команди дослідників приступають до вирішення завдання і пропонують свої ідеї і розробки (табл. 3).

    Перше конкурсне захід, підтримане платформою, було присвячено розробці алгоритму, що прогнозує хід голосування на Євробаченні.

    Велику популярність придбав організований на платформі Kaggle конкурс з призом у розмірі $ 3 млн. Медична компанія Heritage Provider Network поставила завдання створення алгоритму, який дозволив би на основі аналізу наявних медичних записів знайти пацієнтів, які перебувають у групі ризику, щоб компанія могла завчасно запропонувати їм профілактичне лікування.

    Іншим успішним додатком платформи став пошук співробітників за результатами проведених конкурсів. Так, наприклад, мережа Facebook кілька разів скористалася платформою Kaggle для вступних випробувань майбутніх штатних аналітиків компанії. В одному з останніх змагань була запропонована наступна задача: по заголовку і формулюванні питання визначити теги або ключові слова для кожного «тікета» в базі даних сервісу Stack Exchange.

    В даний час Kaggle є лідируючою платформою з проведення конкурсів в області технологій аналізу даних. З 2016 року число зареєстрованих користувачів перевищило 536 тис. З майже 200 країн світу.

    Успіх Kaggle стимулював запуск численних проектів зі створення різних платформ проведення конкурсів в області аналізу даних і машинного навчання. Велика частина з них в основному повторює функціональні можливості Kaggle, але орієнтовані, наприклад, на національний сектор.

    Таким чином, до теперішнього часу сформувався стійкий попит на послуги з оцінки якості ТОД, що надаються у формі проведення конкурсів, спрямованих на вирішення різних прикладних задач.

    1.2. Недоліки існуючих підходів

    до оцінки якості технологій обробки даних

    При проведенні будь-якої конкурентної процедури принциповим моментом є спосіб визначення показників і критеріїв якості технологій, що надаються учасниками. У цій статті як приклад розглянуті найбільш популярні конкурси технологій біометричної ідентифікації людей по зображенню особи: The MegaFace Benchmark, Labeled Faces in the Wild, Face Recognition Vendor Test.

    У тестуванні The MegaFace Benchmark, проведеному Вашингтонським університетом, використовуються показники якості: rank-1 і rank-10 (точності попадання цифрового зображення обличчя в перші 1 і 10 кандидатів відповідно) в залежності від числа дістракторов в вибірці, як дістракторов можуть виступати зображення осіб , які не містяться в базі даних, з якою порівнюються фотографії [4]; точність ідентифікації в сенсі критерію rank-N в залежності від числа дістракторов у вибірці; ROC-крива (крива помилок), що відображає співвідношення між часткою зображень, класифікованих вірно (true positive rate, TPR, чутливість алгоритму класифікації) і часткою зображень, класифікованих помилково (false positive rate, FPR, специфічність алгоритму клас-

    класифікацією), при варіюванні порога вирішального правила. У свою чергу, в конкурсі Labeled Faces in the Wild (LFW), проведеному Массачу-сетсткім технологічним інститутом використовуються два показника якості: ROC-крива і показник середньої точності класифікації (відношення числа правильних ідентифікацій до загальної кількості ідентифікацій) з урахуванням стандартної ошиб-

    Приклади інтернет-платформ для

    ки середнього [5]. У свою чергу, NIST в конкурсі Face Recognition Vendor Test (FRVT) використовує метрики FNIR (false negative identification rate) і FPIR (false positive identification rate) відображають показники псевдонегативну і ложнопо-ложітельной ідентифікації при заданому порозі вирішального правила, а також різні похідні від цих характеристик [6].

    Таблиця 3

    1енія комерційних конкурсів ТОД

    Назва Короткий опис

    Зарубіжні конкурси і платформи

    Netflix Prize Netflix - американська компанія, постачальник фільмів і серіалів на основі потокового мультимедіа організував в 2007 р конкурс з неймовірним для того часу бюджетом в $ 1 млн

    Kaggle Одна з найвідоміших платформ з проведення змагань в області інтелектуального аналізу даних. З моменту створення було проведено понад 100 конкурсів, частина з яких закриті, частина конкурсів не мають призового фонду, в деяких випадках він символічний

    INNOCentive Конкурсний майданчик, котрий агрегує змагання з найрізноманітніших галузей, а не тільки інтелектуального аналізу даних. Представлені завдання з області фізики, хімії та біології

    Challenge.gov Платформа з проведення конкурсів в області інтелектуального аналізу даних, організована в інтересах державних організацій США. На платформі публікуються завдання від Міністерства охорони здоров'я і соціальних служб США (Department of HHS), агентства IARPA і ін.

    NIST Національний інститут стандартів і технологій США проводить тестування серед розробників в області інтелектуального аналізу даних, наприклад, в області біометричної ідентифікації

    Challenges in Machine Learning Платформа з проведення змагань в області інтелектуального аналізу даних, серед партнерів виступають такі організації, як Microsoft, Google, NEC і Kaggle

    The MegaFace Benchmark Платформа з проведення змагань в біометричної ідентифікації по зображенню осіб, організована Вашингтонським університетом (University of Washington)

    TunedIT Набагато схожа з попередньою платформа, орієнтована на академічне середовище. Останні конкурси були опубліковані в 2015 р.

    Labeled Faces in the Wild Платформа з проведення змагань в біометричної ідентифікації по зображенню особи, організована Массачусетським технологічним інститутом (Massachusetts Institute of Technology)

    Вітчизняні конкурси і платформи

    Олімпіада Wikimart Один з перших конкурсів, організованих в Росії в 2013 р Конкурс передбачає дослідження користувальницького поведінки, пов'язаного з безпосередньою діяльністю сайту - навчитися передбачати наявність певної дії користувача в сесії

    Sberbank Data Science У 2016 році ПАТ «Сбербанк» провів один з наймасштабніших конкурсів в області аналізу даних: понад 700 чол. відправили свої рішення, більше 3000 зареєстрованих учасників працювали з даними, а також згенерували більше 30 Гб даних. Конкурс передбачав виявлення бізнес-завдання банку на основі аналізу даних, представлених організаторами

    DataRing.ru Щодо молода російська платформа з проведення конкурсів інтелектуальних технологій, що проводить конкурси, в основному, для вирішення завдань Avito

    Фонд перспективних досліджень З 2014 р проводиться серія конкурсів в області інтелектуального аналізу і обробки даних, одна з відмінних рис - укладення договору на виконання роботи на замовлення Фонду замість грошового призу

    Технологічні конкурси АСИ, РВК і Сколково в рамках Національної технологічної ініціативи Конкурс зі створення технологій безпілотного керування автомобілем в складних умовах «Зимова траса»

    54 1 CONTROL SCIENCES № 6 • 2017

    Незважаючи на загальну методологічну схожість оцінки якості технологій ідентифікації, в основі кожного з проведених конкурсів лежать різні контрольні вибірки зображень, які в силу своєї природи роблять непорівнянними результати порівняння алгоритмів.

    Так, наприклад, в конкурсі Labeled Faces in the Wild (LFW) використовуються отримані в умовах так званої «коопераційної» зйомки зображення осіб акторів і знаменитостей, що дає додаткові можливості для навчання алгоритмів. У конкурсі Face Recognition Vendor Test (FRVT) додатково використовуються зображення, отримані за допомогою веб-камер, що істотно відрізняє їх за складністю від зображень конкурсу LFW. Контрольна вибірка конкурсу The MegaFace Benchmark є фотографії людей, знятих в «природних» умовах, т. Е. У випадковій позі, з вільним виразом обличчя, освітленням і експозицією, більш того, вибірка містить різні заважають фактори, що ускладнюють процес розпізнавання [4].

    Подібна різниця в природі тестових даних не дозволяє зіставити результати роботи алгоритмів, отриманих на різних тестових майданчиках. Несумісними виявляються не тільки абсолютні значення ймовірностей помилок розпізнавання (помилки першого і другого роду і інші похідні характеристики), а й порядок ранжирування технологій, який для різних вибірок виявляється різним.

    Таким чином, виконаний аналіз показує, що відомі на сьогодні конкурентні процедури, спрямовані на оцінку технологій аналізу даних і машинного навчання, проводяться на спеціально підготовлених вибірках вихідних даних, що відбивають специфіку розв'язуваних прикладних або наукових завдань. У деяких випадках встановлюється критеріальний поріг для функціональних характеристик ТОД, подолання якого дає право учасникам претендувати на перемогу в конкурсі. В інших випадках такий поріг не встановлюється, і переможцем вважається технологія, яка продемонструвала найкращі функціональні характеристики.

    Так чи інакше, недолік проведених у цей час конкурентних процедур полягає в тому, що результати різних конкурсів, присвячених вирішенню однієї і тієї ж задачі обробки даних, непорівнянні між собою. Крім того, оцінки якості ТОД, отримані в різних конкурсах, не можуть бути відображені на якусь абсолютну шкалу значень, що дозволяють робити обґрунтовані висновки про можливість застосування технологій-переможців для вирішення конкретних прикладних задач.

    Подолання цього недоліку досягається стандартизацією вимог до контрольних вибірках на основі всебічного аналізу умов прикладних задач, на вирішення яких спрямовано проведення конкурсів (чи інших процедур оцінки якості ТОД). Даний підхід був відпрацьований в ході проведення Фондом перспективних досліджень (м.Москва) серії конкурсів в області технологій розпізнавання спонтанної російської мови (2014 р), осіб людей на фотографіях, отриманих в складних умовах (2015 р), і дешифрування аерокосмічних знімків в метою виявлення певних споруд і техніки (2016-2017 рр.). В ході проведення цих конкурсів були підготовлені контрольні вибірки вихідних даних, еквівалентні за своєю складністю практично значущим завданням обробки даних. Подібні набори вихідних даних можуть бути використані в якості стандартних тестових вибірок. Проте, невирішеним до теперішнього часу залишається питання інтерпретується результатів оцінки якості ТОД, т. Е. Їх відображення на абсолютну шкалу значень, які вказують на можливість практичного використання технології.

    2. ТЕХНОЛОГІЇ ОБРОБКИ ДАНИХ, СПРЯМОВАНІ НА РІШЕННЯ ІНТЕЛЕКТУАЛЬНИХ ЗАВДАНЬ

    Необхідно враховувати, що в переважній більшості випадків обробка даних важлива не сама по собі, а як елемент системи управління на основі прийняття рішень в задачах:

    - автоматичного керування транспортним засобом - керування напрямком і швидкістю руху;

    - медичної діагностики - постановки діагнозу і вибору способу лікування;

    - безпеки - реагування на виявлені загрози безпеки та ін.

    На рис. 1 представлена ​​узагальнена схема системи управління, що містить різного роду сенсори, засоби попередньої обробки інформації, тематичної обробки даних, прийняття рішення про управління і власне засоби управління об'єктом. Відзначимо, що попередня обробка інформації здійснюється з метою усунення фактора суб'єктивності, супутнього конкретним процедурам збору первинної інформації, і перетворення цієї інформації в дані, представлені в формальному вигляді, придатному для передачі, інтерпретації або обробки людьми або комп'ютерами [4]. темати-

    чна обробка д анних здійснюється з урахуванням особливостей вирішуваних завдань управління.

    Вимоги до якості ТОД д олжни, строго кажучи, враховувати особливості підсистеми реагування, об'єкта управління, стан навколишнього середовища та інші фактори. Різноманіття цих факторів робить практично неможливим стандартизацію вимог до якості ТОД. Природний вихід із ситуації, що склалася полягає в спробі декомпозиції моделі системи управління з поділом вимог, що пред'являються до підсистем обробки інформації, прийняття рішень і власне управління.

    Серед завдань обробки даних виділимо клас так званих «інтелектуальних» завдань, що характеризуються такими особливостями:

    - інтелектуальні завдання спрямовані на обробку інформації антропоморфної модальності, т. Е. Інформації, модальність якої характерна для органів почуттів людини (зорова, акустична, тактильна і ін.);

    - інтелектуальні завдання з високою якістю можуть бути вирішені людиною завдяки наявності у нього еволюційно сформувалися інтелектуальних здібностей, що дозволяють, наприклад, відрізняти істотні ознаки спостережуваних об'єктів від несуттєвих; задіяти інтуїцію при вирішенні завдань, що відрізняються високою варіабельністю; враховувати навколишній контекст при аналізі об'єктів; сприймати індивідуальне як типове, т. е. здійснювати категоризацію об'єктів; оперувати з неоднозначним і ін. [7];

    - здатності різних людей при вирішенні різних інтелектуальних завдань, як правило, неоднакові, але при цьому, виходячи з раціональних міркувань, можуть бути виділені певні (кваліфіковані) люди, здатності яких при вирішенні конкретних завдань виявляються практично прийнятними (референтними);

    Мал. 1. Підсистема обробки інформації в складі типової системи управління

    штучні сенсори

    антропоморфні сенсори

    Засоби прийняття рішень

    т

    Підсистема обробки інформації

    Засоби попередньої обробки інформації

    Засоби попередньої обробки інформації

    Людина-оператор

    Технічні засоби обробки

    Мал. 2. Підсистема обробки інформації, що надходить від антропоморфних і штучних сенсорів

    - інтелектуальні завдання мають прикладне значення в різних галузях економіки, в області оборони і безпеки, але не охоплюють творчі здібності людини (вміння писати вірші і складати музику, наприклад), його морально-етичні підвалини і деякі інші здібності, також тісно пов'язані з поняттям людського інтелекту.

    Схема системи управління, в якій використовуються як антропоморфні, так і штучні (що не збігаються з модальності з органами почуттів людини) сенсори, представлена ​​на рис. 2.

    2.1. Критерій якості технологій інтелектуальної обробки даних

    Технології обробки даних, спрямовані на рішення інтелектуальних завдань, можуть бути названі технологіями інтелектуальної обробки даних (ТІОД). Тоді для ТІОД критерій якості може бути сформульовано таким чином: істотні функціональні можливості технології при вирішенні певної інтелектуальної завдання на представницької вибірці вихідних даних не повинні поступатися відповідними можливостями кваліфікованого людини-оператора. Показником якості ТІОД служить величина, що характеризує відхилення функціональних можливостей ТІОД від відповідних можливостей кваліфікованого оператора.

    Існування такого кваліфікованого оператора випливає з наведеного вище визна-

    56

    СО ^ О! ЯС1ЕМСЕ8 № 6 • 2017

    лення інтелектуальної завдання, а спосіб його вибору визначається специфікою завдання. Так, наприклад, в задачах автоматичного керування наземним транспортним засобом в якості кваліфікованого оператора може бути обраний професійний водій з певними стажем роботи і рівнем аварійності; т. е. вибір кваліфікованого оператора здійснюється за допомогою валідаційних критеріїв [3, 8].

    Відзначимо, що в деяких випадках досягнення оператором кваліфікаційного рівня супроводжується також відповідними морфологічними змінами головного мозку. Так, наприклад, було показано [9], що гіппокам у професійних таксистів розширюється в міру того, як вони вчаться орієнтуватися на вулицях і в пам'ятках міста. Дослідження нейроморфологических критеріїв відбору кваліфікованих операторів виходить за рамки цієї статті.

    Задовольняють наведеним вище критерієм якості ТІОД забезпечать розв'язання проблеми створення «штучних інтелектуальних операторів», здатних замінити людини при вирішенні інтелектуальних, але рутинних прикладних задач. Про масштаби цієї проблеми дозволяють судити такі аналітичні оцінки: за даними дослідження консалтингової компанії МсЮшеу [10], до функцій, які можна автоматизувати, мають відношення 1,1 млрд робочих місць з повною зайнятістю в м іре, з них понад 100 млн - в США і Європі.

    Деякі практично значущі інтелектуальні завдання наведені в табл. 4.

    2.2. Оцінка якості технологій інтелектуальної обробки даних

    Сформульований критерій якості ТІОД дозволяє реалізувати сценарій створення інтелектуальних технологій, заснований на конкурентному відборі виконавців (рис. 3).

    По осі ординат на діаграмі відкладені значення узагальненого показника, що характеризує функціональні можливості засобу вирішення інтелектуальної задачі - ТІОД або людини-оператора. Значення Fl відповідає поточним можливостям ТІОД, а можливості людини показані діапазоном значень, що відповідають заштрихованої області, в якому виділено деякий референтное значення / 3, що демонструється кваліфікованим оператором. В цьому випадку умовами конкурсу задається певний поріг / 2, який обирається таким чином, щоб подолання цього порога в рамках конкурсу з достатнім ступенем впевненості гарантувало досягнень-

    Функціональні можливості засобу вирішення інтелектуальної задачі

    Людина-оператор

    Необхідну якість ТІОД

    кваліфікований оператор

    Г Складність конкурсній завдання

    ТІОД, існуючий рівень техніки

    етап

    Проведення Створення конкурсу технології

    Мал. 3. Послідовність рішення завдань по створенню інтелектуальних технологій з якістю, не поступається якості роботи людини-оператора

    ються колективом-переможцем значення за умови подальшого фінансування відповідного проекту. Якщо учасників конкурсу, прео дол їли поріг? 2, виявляється кілька, то переможцем вважається колектив з максимальним значенням функціональних можливостей представленої технології. Якщо жодного - конкурс вважається не відбувся.

    Поріг відповідає конкурсній (кваліфікаційної) задачі, яка повинна відповідати двом суперечливим критеріям:

    - бути достатньо простий і універсальною, щоб залучити до конкурсу максимальне число колективів; це вимога передбачає, що від учасників не потрібно володіння яким-небудь спеціалізованим обладнанням, трудомісткість різних допоміжних операцій мінімальна, а науково-технічні напрацювання, отриманий учасником в ході підготовки до конкурсу, може бути використаний навіть в тому випадку, якщо учасник не увійшов до числа призерів; виконання цієї умови дозволяє розраховувати на досить представницький коло учасників, здатних знайти власні ресурси на підготовку до конкурсу;

    - бути достатньо конкретною, щоб рішення кваліфікаційної завдання з високою впевненістю свідчило про здатність колективу-переможця вирішити в подальшому прикладну задачу з урахуванням встановлених споживачем тимчасових і ресурсних обмежень; на нетривіальність цього критерію для інтелектуальних завдань метафорично зазначено в класичній роботі [11]: «... залізання на д ерев не еквівалентне початку польоту на Місяць».

    Таблиця 4

    Інтелектуальні задачі обробки даних

    Прикладна область Інтелектуальні завдання

    Промисловість Автоматичний контроль ручних операцій складального виробництва. Перетворення конструкторсько-технологічної документації на створювані вироби, представленої в різних форматах в уніфікований цифровий формат. Моделювання поведінки персоналу, який бере участь в експлуатації, технічному обслуговуванні та ремонті створюваних виробів. Обробка зображень від апаратури неруйнівного контролю з метою виявлення дефектів і відхилень у внутрішній структурі виробів

    Транспорт безпілотних керування автомобілем в умовах реальної міської транспортної інфраструктури з гарантованим рівнем аварійності, що не перевищує рівень аварійності, відповідний людині-водієві заданої кваліфікації. Виявлення автомобілів, якими керують водії із «агресивним стилем водіння». Завчасне виявлення пішоходів, які мають намір порушити правила д орожного руху, для інформування водія про небезпеку. Оцінка психоемоційного стану водіїв для запобігання аварій, пов'язаних з управлінням автомобілем водієм, що знаходиться в стані афекту, алкогольного або наркотичного сп'яніння тощо. Виявлення автомобілів, які порушують правила паркування

    ЖКГ, соціальна сфера Порівняння кадастрової карти зі знімками місцевості, отриманими з безпілотного літального апарату або космічного апарату дистанційного зондування Землі (ДЗЗ), з метою виявлення невідповідностей в розмітці будівель, споруд, об'єктів транспортної інфраструктури. Виявлення по знімках ДЗЗ районів проведення несанкціонованих земляних робіт, вирубки дерев, стихійних звалищ відходів та ін. Контроль за правильністю використання зовнішньої реклами та вивісок за допомогою відеоінформації, одержуваної з встановлених на автомобілях відеореєстраторів. Підтримка осмисленого діалогу з абонентами центрів обробки викликів (са11-центрів). Визначення психоемоційного стану та виявлення абонентів са11-центрів, які повідомляють завідомо неправдиві відомості

    Медицина Виявлення патологічних змін в тілі людини на основі автоматизованого дешифрування знімків, отриманих за допомогою рентгенологічного, радіоізотопного, оптичного, ультразвукового та іншого діагностичного обладнання, з урахуванням доступних додаткових відомостей про пацієнта, з гарантованою якістю, не поступається фахівця-діагноста заданої кваліфікації. Перетворення медичних документів, представлених в різних форматах, в уніфікований цифровий формат

    Право Аналіз нормативних документів на несуперечливість, повноту і безизбиточность

    Банки Виявлення людей із злочинними намірами (на прикладі недобросовісних позичальників в кредитних організаціях) по відеозображення і акустичним сигналам

    Культура, освіта Розпізнавання рукописних текстів, таблиць, вербальне опис малюнків в історичних документах

    Оборона Розпізнавання складної (спонтанної, плутано) мови в умовах дії перешкод. Переклад текстів з іноземної мови на російську з можливістю автоматичного навчання систем переказу на нові мови. Автоматичне виявлення, класифікація і розпізнавання інженерних споруд, озброєння, військової і спеціальної техніки (ВВСТ) на знімках ДЗЗ. Розпізнавання голосових команд управління ВВСТ. Автоматичне (безпілотне) управління рухом наземної військової техніки в складних умовах. Інформаційна підтримка технічного обслуговування і ремонту ВВСТ на основі технологій доповненої реальності

    Безпека Розпізнавання облич людей в складних умовах за допомогою одиночних знімків з невизначеним ракурсом; по об'ємного зображення голови, пропорціям тіла і особливостей постави; по ході і характерним жестам за допомогою відеозображень. Виявлення за допомогою відеозображень людей з протиправними намірами і вчинками (фізичне насильство; погром і псування майна; розкрадання та ін.). Виявлення небезпечних предметів (вкладень) за допомогою тіньових зображень, що формуються оглядової апаратурою. Анотація зображень, отриманих від різних джерел, для подальшого пошуку зображень, що містять задані об'єкти і їх поєднання. Автоматичне розпізнавання мовних сигналів з виділенням тексту, просодических характеристик і фонових звуків без втрати інформативності та зі збереженням юридичної значимості результатів розпізнавання. Інтелектуальні системи біометричної ідентифікації, що враховують міміку л ица, особливості голосу, поведінкові реакції і когнітивну модель людини

    50 | СОМТЯОЬ БтЕМСЕБ № 6 • 2017

    Принциповий момент полягає в тому, що тестування існуючих ТІОД (визначення значення Т1), оцінка можливостей людини-оператора (13) і порівняння характеристик подаються на конкурс технологій з порогом I'2 повинні здійснюватися на одній і тій же тестової вибірці вихідних д анних. Ця вибірка д олж-на мати достатній обсяг, щоб охоплювати представницьку сукупність комбінацій вихідних даних, що зустрічаються з урахуванням специфіки розв'язуваної прикладної задачі.

    Таким чином, підготовка до проведення конкурсу інтелектуальних технологій передбачає формалізацію кваліфікаційної (конкурсній) завдання, а саме: формування представницької тестової вибірки вихідних даних і визначення критеріальних порогів 12 і 13.

    Подібний підхід має ряд переваг. У п. 1.2 цієї статті були розглянуті різні способи оцінки якості рішення задачі ідентифікації особистості по зображенню особи, що застосовуються в популярних зарубіжних конкурсах. Істотний недолік цих способів полягає в тому, що вони дають лише відносну оцінку якості роботи алгоритмів учасників конкурсів. Наприклад, при такому порівнянні може виявитися, що краще рішення, що перемогло в конкурсі, настільки сильно поступається можливостям людини-оператора, що реалізація подібної функціональної можливості автоматичними алгоритмами стає недоцільною. У той же час, у разі, коли задано референтное значення 13, критеріальний поріг 12, а порівняння характеристик подаються на конкурс технологій з порогом 12 здійснюється на одній і тій же тестової вибірці вихідних даних, пропуск подібної ситуації виключений.

    Відповідно до наведеного вище визначенням, показником якості ТІОД може бути обрана величина 2т, що характеризує відхилення функціональних можливостей технології від можливостей кваліфікованого оператора:

    Qt = Ft - F

    3 '

    (1)

    де 1т - значення, відповідне функціональним можливостям оцінюваної технології.

    Тоді критерієм рішення інтелектуальної задачі є виконання нерівності Qт > 0, а критерієм можливості перемоги ТІОД в конкурсі - Qт > I - ^

    Конкретний зміст показника функціональних можливостей I визначається типом розв'язуваної інтелектуальної завдання. Зокрема,

    для задач розпізнавання функціональні можливості характеризуються частотою помилок першого (помилкове спрацьовування, False Positive) і другого роду (пропуск події, False Negative). Якщо число помилок першого і другого роду на контрольній вибірці позначити як FP і FN відповідно, то для характеристики функціональних можливостей засобу вирішення інтелектуальної задачі можуть застосовуватися показники точності P (precision), повноти R (recall) і вибірковості S (specificity) розпізнавання:

    P =

    TP

    TP + FP '

    R =

    TP

    TP + FN

    S =

    TN

    TN + FP '

    (2)

    де TP - число правильно розпізнаних об'єктів (True Positive), TN - число правильних рішень про невідповідність об'єкта цільовим класу (True Negative).

    Точність розпізнавання характеризує частку об'єктів, правильно віднесених до цільового класу розпізнавання, серед загального числа об'єктів, віднесених до цього класу. Повнота - частку об'єктів, правильно віднесених до класу розпізнавання, серед загального числа об'єктів, що належать цьому класу. Вибірковість - частку правильних рішень про невідповідність об'єкта цільовим класу серед загального числа об'єктів, які не належать цьому класу. Оцінки ймовірностей помилок першого (P1) і другого (P2) роду пов'язані з повнотою і точністю розпізнавання виразами:

    P1 = 1 - P і P2 = 1 - R.

    Відзначимо, що показники P і P1 вступають в протиріччя з показниками R і P2. Це означає, що для певного методу розпізнавання на заданій вибірці вихідних д анних показники точності (помилкових спрацьовувань) не можуть бути поліпшені одночасно з показниками повноти (пропусків події). Таким чином, завдання зіставлення функціональних можливостей ТІОД є в загальному випадку багатокритеріальної з суперечливими критеріями. Для зниження розмірності задачі оцінювання користуються інтегральними показниками функціональних можливостей, які представляють собою згортку приватних показників.

    Подібний інтегральний показник може бути розрахований, наприклад, для ТІОД, в яких кожна операція розпізнавання супроводжується обчисленням деякого неотрицательного показника ранжирування r, що характеризує міру впевненості системи розпізнавання в прийнятому рішенні. В цьому випадку всі результати, отриманий-

    ні при розпізнаванні N елементів контрольної вибірки, можуть бути відсортовані у напрямку зниження показника r. Для перших до, до е [1, N], значень впорядкованої множини рішень можуть бути побудовані значення точності Р (к) і повноти R (k), які відображаються у вигляді так званої кривої точності-повноти. Як показник функціональних можливостей F в цьому випадку може бути обрана площа під кривою точності-повноти (Mean Average Precision, MAP).

    На рис. 4 показана крива точності-повноти, отримана для одного з учасників конкурсу в області технологій дешифрування аерокосмічних зображень, проведеного Фондом перспективних досліджень в 2016-2017 рр. Учасникам конкурсу пропонувалося на наданих знімках відшукати максимальне число об'єктів певного класу (літак, корабель, автомобіль, приховане спорудження). При такій постановці завдання алгоритм приймає рішення тільки про належність об'єкта до класу (ці рішення м огут бути як істинними, так і хибними), а TN = 0 за визначенням.

    Кожна точка на представленої кривої відповідає значенню точності для заданого рівня повноти. Наприклад, значення точності 0,8 на рівні повноти 0,2 означає, що при правильному віднесення до цільового класу 20% від загального числа об'єктів, що належать цьому класу, алгоритм допускає 20% помилкових спрацьовувань. У наведеному прикладі значення інтегрального показника функціональних можливостей F = 0,58309.

    Іншим прикладом інтелектуальної завдання, в якій прийнято інтегральний показник функціональних можливостей ТІОД, служить завдання біометричної ідентифікації по зображенню

    1,0 0,8

    А Про

    я

    0,2

    ]

    0,0

    0,2

    0,4 0,6 Повнота

    0,8

    1,0

    Мал. 4. Типовий вигляд кривої точності-повноти:

    ща під кривою (МАР): 0,58309

    1,0

    0,8

    0,6

    з *

    0,4

    0,2

    ......................

    ---

    0,000

    0,010

    0,020 FNIR

    0,030

    0,040

    Мал. 5. Залежність ймовірності помилок першого роду від ймовірності помилок другого роду в завданню ідентифікації осіб

    особи. При цьому найбільш практично значиму область охоплює сценарій порівняння «одного з багатьма». Алгоритми подібного типу можуть бути застосовані в великому числі практичних застосувань, починаючи від пошуку схожих зображень в базі даних і контролю пропускного режиму і закінчуючи автоматичної маркуванням фотографій в соціальних мережах.

    При роботі алгоритму ідентифікації кожне порівняння супроводжується обчисленням неотрицательного показника впевненості r, причому рішення про збіг зображень приймається в тому випадку, якщо цей показник перевищує заданий поріг r > ro. Змінюючи значення порога ro, можна побудувати залежність ймовірності помилки другого роду Р2 (для біометричних алгоритмів іменованої також FNIR, False Negative Identification Rate) від ймовірності помилки першого роду Р1 (FPIR, False Positive Identification Rate).

    На рис. 5 показано сімейство залежностей ймовірності пропуску події (Р2) від ймовірності помилкового спрацьовування (Р1), отриманих для різних технологій ідентифікації осіб, які брали участь в конкурсі Фонду перспективних досліджень в 2015-2016 рр. У конкурсі в якості інтегрального показника функціональних можливостей алгоритмів F вибиралося значення ймовірності помилки другого роду (Р2, FNIR) при ймовірності помилок першого роду (Р1, FPIR), що дорівнює 0,02. Видно, що значення інтегрального показника F для кращого вирішення становить приблизно 0,46.

    - пло-

    Відзначимо, що як в першому, так і в другому з наведених прикладів для визначення інтегрального показника функціональних можливостей Т застосовувався коефіцієнт ранжирування (впевненості) г, що представляє собою невід'ємне дійсне число. Обчислення цього коефіцієнта в більшості випадків не представляє складності для технічних засобів вирішення інтелектуальних завдань, а для людини-оператора може виявитися проблематичним. Дана обставина ускладнює обчислення порогового значення (див. Рис. 3) і відповідно застосування показника (1) для оцінки якості ТІОД.

    2.3. Порівняння якості роботи

    технологій інтелектуальної обробки даних з якістю роботи людини-оператора

    Без втрати спільності розглянемо можливість визначення коефіцієнта ранжирування г для кваліфікованого людини-оператора на прикладі завдання двухклассовой класифікації. Нехай X - безліч описів об'єктів, У - кінцеве безліч номерів (міток) класів (в даному випадку потужність безлічі | Х | = т, а \ У \ = 2). Нехай задана розмічена контрольна

    вибірка Хт = | (х1, ух), ..., (хт, ут)}, для якої заздалегідь відомі приналежність кожного з об'єктів до класу. Нехай заданий алгоритм а: X ^ У, який реалізується технічної системою обробки даних, а також відібрані до операторів, які здійснюють класифікацію (X ^ У). Необхідно порівняти якість роботи операторів і технічної системи обробки даних при вирішенні задачі класифікації об'єктів х е Хт, при цьому

    вважається, що приналежності х е Хт до класів У відомі тільки організаторам тестування.

    При вирішенні задачі класифікації операторами для кожного з елементів х е Хт буде отримана серія з до відповідей, для якої можуть бути розраховані показники точності Р, повноти Я і вибірковості з урахуванням апостериорно визначаються значень ТР, ТІ, ТР і ТИ (2). Відзначимо, що ІР + ТИ + ТР + ТИ = до.

    Будемо вважати, що при прийнятті рішення кожним оператором по кожному елементу вибірки х е Хт вказується натуральне число т.,, = 1, ..., до, що характеризує значення заходи впевненості оператора в прийнятому рішенні. Нехай для визначеності вірною є нульова гіпотеза. Тоді значення сум заходів впевненості для операторів, які взяли вірні і невірні рішення, візьмуть відповідно значення:

    ТР

    90 = X т, - для всіх операторів, які взяли ну,

    ліву гіпотезу;

    81 = ^ т, - для всіх операторів, які взяли

    ,

    альтернативну гіпотезу.

    В цьому випадку під мірою впевненості кваліфікованого людини-оператора в ухваленні рішення для елемента контрольної вибірки х е Хт будемо розуміти величину:

    г] =

    ) 0 + 01

    у = 1, ..., т.

    (3)

    Отримана таким чином міра впевненості може бути використана для ранжирування відповідей експертів і обчислення значення інтегрального показника функціональних можливостей Т3 для кваліфікованого людини-оператора.

    У разі участі у вирішенні завдання декількох операторів розбіжності в їх відповідях неминучі. Так, наприклад, про неідеальність людини-оператора при вирішенні подібного роду завдань свідчить наступний факт: у США щорічно відбувається д про 75 тис. Поліцейських опознаний, і в 20-25% випадків свідки вказують на людей, про невинність яких поліції відомо [12] . При цьому ключову роль відіграє величина розбіжності у відповідях. Відповідь групи операторів може вважатися досить надійним тільки за умови узгодженості відповідей окремих операторів. В умовах незалежності операторів один від одного вирішальне значення в отриманні узгодженої оцінки має число операторів до.

    Для отримання критерію достатності числа операторів до скористаємося коефіцієнтом кон-кордаціі Кендалла [13]. Відповідно до прийнятої раніше постановці завдання, кожному елементу вибірки

    х е Хт оператором ставиться у відповідність мітка класу у е У, тоді відповідь, -го кваліфікованого людини-оператора для у'-го об'єкта контрольної вибірки позначимо у ..,, = 1, ..., к, '= 1,. .., т. Сума відповідей по кожному об'єкту

    У-= X у .., = 1

    В цьому випадку середнє значення відповідей

    1 т

    У = т X У,

    т-= 1 у

    а сума квадратичних відхилень

    5 = X (У - У) 2.

    у = 1

    Тоді коефіцієнт конкордації може бути обчислений за формулою:

    W =

    12S

    2 3 k (m - m)

    (4)

    Для визначення достатнього числа операторів до скористаємося критерієм згоди Пірсона. Так як статистика до (т - 1) W (для т > 7) має наближено ^ -розподіл з т - 1 ступенями свободи, то в разі до (т - 1) Ж > % Т _ 1 можна

    зробити висновок про те, що відповіді операторів узгоджені при заданому рівні значущості а [14].

    Необхідно відзначити, що формула (4) вірна лише в разі відсутності ідентичних відповідей, що дуже рідко зустрічається на практиці, так для великих т наявність повторень у відповідях операторів неминуче. У подібній ситуації застосовується так званий поправочний коефіцієнт, який для у'-го об'єкта

    t = z (t3 - про,

    (5)

    Y = 1

    де I - число «випадків» нерозрізненості відповідей, а ^ - число нерозпізнаних відповідей одного «випадку». Необхідно відзначити, що поправочний коефіцієнт Т характеризує диференціюються здатності тестової вибірки, т. Е. Здатність вибірки оцінювати ступінь узгодженості експертів. При відсутності ідентичних відповідей коефіцієнт Т стає дорівнює нулю.

    З урахуванням поправки (5) коефіцієнт Конкорд-ції обчислюється за формулою [15]:

    W =

    12 S

    k (m - m) - m Z T j = 1

    ВИСНОВОК

    Виконано аналіз і виявлені недоліки проведених у цей час конкурсів в області обробки даних. Показана можливість оцінки якості технологій інтелектуальної обробки даних на основі зіставлення функціональних можливостей технології і кваліфікованого людини-оператора при вирішенні прикладної завдання, формалізовані на конкретній тестової вибірці. Запропоновано підходи до обґрунтування чисельності експертного співтовариства, необхідного для оцінки функціональних можливостей кваліфікованого оператора, а також до перетворення результатів експертних оцінок до мет-

    річеская поданням, прийнятому для методів обробки даних.

    ЛІТЕРАТУРА

    1. Emerging Science and Technology Trends: 2016-2045 A Synthesis of Leading Forecasts April 2016 / Office of the Deputy Assistant Secretary of the Army (Research & Technology). - URL: http://www.defenseinnovationmarketplace.mil/resourc-es/2016_SciTechReport_16June2016.pdf (дата звернення: 28.06.2017).

    2. IEEE Transactions on Medical Imaging. - 2015. - Vol. 34, iss. 5. - P. 1005-1177.

    3. ДСТУ ISO 9001-2015. Системи менеджменту якості. Вимоги. - М .: Стандартинформ, 2015. - 32 с.

    4. The MegaFace Benchmark: 1 Million Faces for Recognition at Scale / I. Kemelmacher-Shlizerman, et al. / University of Washington. - URL: http://megaface.cs.washington.edu/ KemelmacherMegaFaceCVPR16.pdf (дата звернення: 10.08.2017).

    5. Labeled Faces in the Wild: A Survey / E. Learned-Miller, et al. - URL: https://people.cs.umass.edu/~elm/papers/ LFW_survey.pdf (дата звернення: 10.08.2017).

    6. Face Recognition Vendor Test (FRVT) Performance of Face Identification Algorithms / P. Grother, M. Ngan / National Institute of Standards and Technology. - URL: http: // ws680 .nist.gov / publication / get_pdf. cfm? pub_id = 915761 (дата звернення: 10.08.2017).

    7. Гарбук С.В. Інтелектуальні автоматизовані засоби тематичної обробки інформації в системах безпеки // Штучний інтелект і прийняття рішень. - 2017. - № 1. - С. 95-104.

    8. ГОСТ 33707-2016 (ISO / IEC 2382 до: 2015). Інформаційні технології. Словник. - М .: Стандартинформ, 2016 - 206 с.

    9. Spiers H.J., Maguire E.A. Thoughts, behaviour, and brain dynamics during navigation in the real world // NeuroImage. - 2006. - Vol. 31. - P. 1826-1840.

    10. А future that works: automation, employment, and productivity January 2017 / J. Manyika, et al. / McKinsey Global Institute. - URL: http://www.mckinsey.com/~/media/McKinsey/Glo-bal%20Themes/Digital%20Disruption/Harnessing%20automa-tion%20for%20a%20future%20that%20works/MGI-A-future -that-works_Full-report.ashx (дата звернення: 10.07.2017).

    11. Дрейфус X. Чого не можуть обчислювальні машини: Критика штучного розуму: пров. з англ. / Общ. ред. Б.В. Бірюков. - М .: Кн. будинок «Ліброком», 2010. - 336 с.

    12. Млодінов Л. (Нео) зізнався. Як несвідомий розум керує нашою поведінкою. - Livebook / Гаятри, 2014. - 360 с.

    13. Kendall M.G .; Babington S.B. The Problem of m Rankings // The Annals of Mathematical Statistics. - 1939. - Vol. 10, N 3. - P. 275-287.

    14. Кремер Н.Ш. Теорія ймовірностей і математична статистика: навч. для вузів, 2-е изд., перераб. і доп. - М .: ЮНИТИ-ДАНА, 2004. - 573 с.

    15. Siegel S., Castellan N, John Jr. Nonparametric Statistics for the Behavioral Sciences: 2nd ed. - N.-Y .: McGraw-Hill, 1988. - 266 p.

    Стаття представлена ​​до публікації членом редколегії

    М.М. Бахтадзе.

    Гарбук Сергій Володимирович - канд. техн. наук,

    зам. ген. директора, Н Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.,

    Бакеев Руслан Надіровіч - керівник проекту,

    Н Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.,

    Фонд перспективних досліджень, м.Москва.


    Ключові слова: машинного навчання /MACHINE LEARNING /ТЕХНОЛОГІЇ АНАЛІЗУ ДАНИХ /DATA ANALYSIS TECHNOLOGY /ІНТЕЛЕКТУАЛЬНІ ТЕХНОЛОГІЇ /INTELLECTUAL TECHNOLOGIES /КОНКУРЕНТНА ОЦІНКА ЯКОСТІ /COMPETITIVE QUALITY ASSESSMENT

    Завантажити оригінал статті:

    Завантажити