Стаття присвячена дослідженню агрегації даних в багатовимірному OLAP-кубі в простому і ієрархічному разі побудови вимірювань. Отримано формули для розрахунку кількості агрегатів і кількості поєднань агрегатів в простому і ієрархічному разі побудови вимірювань.

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Кулагін Володимир Петрович, Матчін Василь Тимофійович


The article is devoted to investigation of data aggregation in multidimensional OLAP-cube in simple and hierarchical cases of constructing measurements. The formulas for calculating the amount of aggregates and aggregate combinations in simple and hierarchical cases of measurement construction are obtained.


Область наук:
  • Комп'ютер та інформатика
  • Рік видавництва: 2010
    Журнал: Известия Томського політехнічного університету. Інжиніринг ГЕОРЕСУРСИ

    Текст наукової роботи на тему «Математичне моделювання OLAP-куба в контексті агрегування простих і ієрархічних вимірів»

    ?рівнянь в приватних похідних в довільних геометричних областях, складеної з непрограмований осередків з фіксованими зв'язками, можливо без додавання до складу кожного осередку функціонального блоку граничних умов. Налаштування на область рішення досягається

    шляхом завдання спеціальних коефіцієнтів в регістри осередки, які розраховуються з виду граничних умов. За рахунок цього апаратні витрати на реалізацію кожного осередку знижуються і з'являється можливість збільшення їх кількості в одній мікросхемі.

    СПИСОК ЛІТЕРАТУРИ

    1. Еврєїнов Е.В. Однорідні обчислювальні системи, структури і середовища. - М .: Радио и связь, 1981. - 208 с.

    2. Каляєв І.А., Левін І.І., Семерніков Е.А., Шмойлов В.І. Реконфігуровані мультіконвейерние обчислювальні структури. - Ростов на Дону: ЮНЦ РАН, 2008. - 393 с. URL: http://parallel.ru/FPGA/papers/rmvs.pdf (дата звернення: 31.03.2010).

    3. Giefers H., Platzner M. A Many-Core Implementation Based on the Reconfigurable Mesh Model // IEEE Xplore DIGITAL LIBRARY. 2010. URL: http://ieeexplore.ieee.org/Xplore/defdeny.jsp?url= http://ieeexplore.ieee.org/stamp/stamp.jsp%3Ftp%3D%26arnum-ber%3D4380623&denyReason = -134&arnumber = 4380623&pro-ductsMatched = null (дата звернення: 31.03.2010).

    4. Осередок однорідної структури для вирішення диференціальних рівнянь в приватних похідних: а.с. 783811 СРСР. № 2727694 / 18-24; заявл. 21.02.1979; опубл. 30.11.1980, Бюл. № 44. - 2 з.

    5. Осередок однорідної структури для вирішення диференціальних рівнянь в приватних похідних: пат. 2359322 Рос. Федерація. № 2007141832/09; заявл. 12.11.07; опубл. 20.06.09, Бюл. № 17. - 6 з.

    6. Каляєв А.В. Теорія цифрових інтегруючих машин і структур. - М .: Радянське радіо, 1970. - 472 с.

    7. Лісейкін В.Д. Передові технології побудови різницевих сіток // РФФД. 2010. URL: http://www.rfbr.ru/de-fault.asp?doc_id=17662 (дата звернення: 31.03.2010).

    8. Цифрові базові матричні кристали. ВАТ «Ангстрем» // 2010. URL: http://www.angstrem.ru/catalogue/ele-ment.php?IBLOCK_ID=2&SECTION_ID = 5&ELE-MENT_ID = 120 (дата звернення: 31.03.2010).

    Надійшла 31.03.2010 р.

    УДК 004.032.6; 004.357

    МАТЕМАТИЧНЕ МОДЕЛЮВАННЯ OLAP-КУБА В КОНТЕКСТІ агрегування ПРОСТИХ І ІЄРАРХІЧНИХ ИЗМЕРЕНИЙ

    В.П. Кулагін, В.Т. Матчін *

    Державний науково-дослідний інститут інформаційних технологій і телекомунікацій, м.Москва

    E-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    * Московський державний інститут радіотехніки, електроніки та автоматики (технічний університет)

    E-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    Стаття присвячена дослідженню агрегації даних в багатовимірному OLAP-кубі в простому і ієрархічному разі побудови вимірювань. Отримано формули для розрахунку кількості агрегатів і кількості поєднань агрегатів в простому і ієрархічному разі побудови вимірювань.

    Ключові слова:

    Сховище даних, база знань, агрегування даних, онтологія, багатовимірний куб, ієрархічне вимір. Key words:

    Databank, knowledge base, data aggregation, ontology, multidimensional cube, hierarchical measurement

    Відомо, що основна мета управління знаннями - зробити знання доступними і повторно використовуваними.

    Чим більше накопичується інформації, тим складніше стає зберігати її на паперових носіях або запам'ятовувати. І доступ до паперових документів вельми обмежений. А якщо з організації йде висококваліфікований фахівець, втрата цінних знань і досвіду часто виявляється непоправною. Тому доцільним є здійснювати перехід до використання збе-

    ніліщ даних, щоб використовувати накопичені знання.

    Як правило, одним з перших інструменту-ріїв управління знаннями на початковому етапі впровадження корпоративних систем є сховища даних, які працюють за принципом центрального складу. Сховища даних відрізняються від традиційних баз даних тим, що вони проектуються для підтримки процесів прийняття рішень, а не просто для ефективного збору і обробки даних. Як правило, сховище містить

    багаторічні версії звичайної бази даних, фізично розміщуються в тій же самій базі. Дані в сховище не оновлюються на підставі окремих запитів користувачів. Замість цього вся база даних періодично оновлюється цілком.

    Якщо сховища даних містять в основному кількісні дані, то сховища знань орієнтовані на якісні дані. Сховища знань генерують знання з широкого діапазону баз даних, сховищ даних, робочих процесів, статей, новин, зовнішніх баз, Web-сторінок. Таким чином, сховища знань подібні віртуальним складах, де знання розподілені по великій кількості серверів.

    Бази знань оптимальних рішень наповнюються в процесі використання різних тестів при пошуку ефективних шляхів вирішення завдань. Після того, як отримано оптимальне рішення, доступ до них може бути відкритий для співробітників організації.

    Розвідка знань - швидко розвивається напрямок, що використовує методи штучного інтелекту, математики та статистики для вилучення знань зі сховищ даних. Г. Пятецкий-Ша-піро і В. Фролов визначають термін «розвідка знань» як «нетривіальне витяг точної, раніше невідомої і потенційно корисної інформації з даних». Метод включає інструментарій та різні підходи до аналізу як тексту, так і цифрових даних.

    Метод в його сучасному прочитанні спирається на використання в моделюванні ОЬЛР-куба таких понять, як онтологія, показник, вимір, кількість сполучень агрегатів і деяких інших термінів.

    Онтологія - це точний опис концептуалізації. У системах управління знаннями використовуються онтологічні специфікації, що посилаються на таксономію завдань, які визначають знання для системи (Таксономія - теорія класифікації і систематизації складноорганізованих областей діяльності, зазвичай мають ієрархічну будову. Прим. Авт.). Онтологія визначає словник, яким користуються в системі для спрощення комунікації, спілкування, запам'ятовування та подання. Онтологія необхідна для того, щоб користувач міг працювати з базами даних оптимальних рішень, що відносяться до широкого кола проблем, і легко розпізнавати, яке рішення може йому підійти в конкретній ситуації. Так як підприємства часто залучені в різні види діяльності, то для однієї системи управління знаннями може знадобитися кілька онтологій. Найзручніше розробляти свою власну онтологію.

    Важливим аспектом є пошук знань, оскільки бази мають величезні розміри. Більшість сучасних методів пошуку включають інструментальні засоби, засоби інтелектуального пошуку і візуальні моделі.

    Показник - числова величина, яка є предметом аналізу і зберігається в осередках таблиць.

    Вимірювання - безліч об'єктів одного або декількох типів, організованих у вигляді ієрархічної структури і забезпечують інформаційний контекст числового показника.

    Член вимірювання - окремий рядок або стовпець таблиці, яка містить показники.

    Кількість сполучень агрегатів

    Розглянемо окрему таблицю, яка містить два виміри А і В. Таблиця має розмір ТХП осередків. Розрахуємо кількість можливих агрегатних станів для такої таблиці.

    Загальна кількість поєднань агрегатів для т вимірювань розраховується наступним чином:

    А = Пп > (*)

    х-1 у = 1

    де х = 1,2, ..., т-1 - порядковий номер вимірювання, за винятком одного, за яким розраховується сума; пх - вказує кількість членів в х-м вимірі; у - кількість елементів в поєднанні.

    У разі, якщо необхідно обчислити кількість поєднань агрегатів в разі зникнення членів вимірювань або появи нових членів вимірювань в кількості I у вимірювання пк, в формулу (*) необхідно внести наступні зміни:

    А = (пк ± /) П «х,

    X = 1 у = 1

    де I - кількість з'являються або зникають членів вимірювань.

    Якщо подібні зміни мають хаотичний характер, то краще замінити знак твори членів вимірювань на розкриту формулу твори всіх членів:

    А = (п ± / 1) (п2 ± /2)...(п ± /)] ГСпут.

    у = 1

    Формула (*) і її похідні формули вірні при будь-яких позитивних цілих п.

    кількість агрегатів

    У разі трьох вимірів п1, п2, П3 кількість агрегатів можна змалювати таку картину:

    п1 = п010 п2 п001 П3 = П100.

    Ці точки задають осі, а також в разі присутності одиниць в двійковій формі запису означають наявність даного виміру, нуля - відсутність. При перемножуванні вимірювань виходять похідні від них точки

    А * = п1 * п2 + п2 * П3 + п1 * П3,

    п1 * п2 = п0Ц п2 * пз = п101 п1 * пз = nllo,

    або те ж саме можна записати у формі довічних індексів:

    А = П011 + «101+« 110-

    Загальна кількість вимірювань - т. Для приведення до загального вигляду необхідно врахувати, що агрегація здійснюється максимум за т-1 вимірюванню. У загальному випадку можна проводити агрегацію по т-п вимірам. Щоб розрахувати кількість множин агрегації потрібно порахувати кількість поєднань г нулів по т позиціях, що дає відповідну кількість доданків.

    Формула для підрахунку загальної кількості агрегатів може бути представлена ​​в наступному вигляді:

    т-т »2

    Хст

    г-1

    А = X «ггг х х,? = 1

    де х1х2х3 ... х! ... хт - двійковий вектор, що складається з т двійкових розрядів.

    Обмеження т-г>2 вказує на необхідність двох і більше вимірів для агрегації. Верхня межа суми для чотирьох вимірів буде виглядати наступним чином:

    С41 + С42, ​​для п'яти: С51 + С52 + С53.

    Випадок ієрархічних вимірів

    Ієрархію можна уявити як об'єднання членів вимірювань в одне безліч.

    В цьому випадку для кожного к-го вимірювання існує 4 рівнів ієрархії. Загальна кількість членів к-го вимірювання складається з суми всіх членів цього виміру

    особистих членів ієрархічних вимірів можуть проводитися в різних рівнях ієрархії

    А = Х П «х? Су

    = Х>

    кількість агрегатів

    Для кожного вимірювання Ак необхідно вибрати елемент з максимальним індексом т. Для кожного Ак може існувати своя кількість т. Твори всіх індексів дадуть максимально можливу кількість агрегатів

    до

    е = П т1-

    1 = 1

    Загальна кількість всіх агрегатів виходить підсумовуванням числа агрегатів матриці узагальнених членів вимірювань, що визначає всілякі стану агрегації

    А '= ( «11 +« 12 +... + "1т) * (« 21 + «22 + • • • +« 2т) * • • •

    • • ^ ( «к1 +« к2 + • • • + «кт) •

    Кількість сполучень агрегатів (ієрархічні вимірювання)

    У разі ієрархічних вимірів може бути застосована формула для підрахунку кількості сполучень агрегатів. Необхідно враховувати, що поєднання раз-

    = 1 у = 1

    і = Ш + Ш + ... - безліч всіх ієрархічних рівнів по всіх вимірах

    Формула є похідною по відношенню до формули (*).

    кількість інформації

    Кожен член вимірювання багатовимірного куба 1! вносить в модель, що описує ОЬЛР-куб, додаткову інформацію про стан системи. Сума всіх членів вимірювань Ь представлятиме стан системи

    Ь = Х 1 |-

    I

    Тоді кількість інформації системи (по формулі Хартлі):

    I = 1СЕ2 Ьр,

    де р - коефіцієнт емерджентності Хартлі.

    З огляду на, що можливі змішані стану, є одночасної реалізацією станів системи «з Ь по т», всього можливо СЬт станів системи, що є поєднаннями вихідних станів. Тоді формулу для кількості інформації системи можна представити у вигляді:

    м

    I = 1се2 X ст, при м < Ь.

    т = 1

    При М = 1 формула набуває вигляду класичної формули Хартлі. Решта складові при М>1 дають додаткову кількість інформації за рахунок наявності внутрішніх взаємозв'язків системи.

    Формулу можна уявити також в розкритому вигляді:

    I = 10м2 (сь + сь + ••• + ст) •

    Додаткова інформація є інформацією про внутрішні взаємозв'язки системи, що складається з ряду підсистем різних рівнів складності. При М = Ь:

    м

    X сьт = 2Ь -1.

    т = 1

    Цей вислів дає оцінку максимальної кількості інформації, яке може міститися в системі з урахуванням взаємозв'язків різних підсистем. Підставивши в якості подлогаріфміческого вираження значення 2Ь-1 і з огляду на, що Т- ^ да, отримаємо, що кількість інформації прагне до Ь:

    м

    I = Хст = Ь ^ 10Е2 (2Ь -1) ^ Ь.

    т = 1

    Прирівняємо два вирази формули Хартлі:

    т = 1

    м

    I = log2 Lр = log2? cm.

    m = 1

    Звідси знайдемо коефіцієнт емерджентності Хартлі р:

    м

    iog2? cm р = -m = -,

    iog2 l

    який являє собою відносне перевищення кількості інформації про систему при обліку системних ефектів над кількістю інформації без урахування системності. Тим самим коефіцієнт відображає рівень системності об'єкта.

    Застосувавши отримане значення для коефіцієнта емерджентність, отримаємо:

    м

    iog2? cm

    m = 1

    I = log2L log2L .

    З огляду на, що отримаємо:

    L

    I = log2 Llog2 L = L.

    Отже, кількість інформації в OLAP-кубі дорівнює кількості членів вимірювання.

    Коефіцієнт емерджентність Хартлі відображає рівень системності об'єкта і змінюється від

    L

    1 (системність мінімальна) до --- (систем, log2L ність максимальна).

    висновки

    Розглянуто та запропоновано досить універсальний оновлений підхід до моделювання OLAP-кубів, що спирається на сучасні онтологічні і системні уявлення в цій області наукових знань.

    СПИСОК ЛІТЕРАТУРИ

    1. Корн Г., Корн Т. Довідник з математики для науковців та інженерів. Визначення, теореми, формули / за загальною ред. І.Г. Арамановіча. - М .: Наука, 1974. - 832 с.

    2. Вигодський М.Я. Довідник з елементарної математики. -М .: Физматгиз, 1962. - 420 с.

    Надійшла 25.01.2010 р.

    УДК 004.657

    Семантика-ентропійний РЕГУЛЮВАННЯ ІНФОРМАЦІЙНОГО морфізма реалізації xOLAP

    А.А. Миронов, А.С. Сігов

    Московський державний інститут радіотехніки, електроніки та автоматики (технічний університет)

    E-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    Аналіз досвіду створення та супроводження сховищ даних говорить про те, що саме в цій області IT індустрії найбільш різко відчуваються труднощі, породжені відсутністю усталеної семантичної теорії інформаційних процесів і систем. Стаття націлена на вивчення моделей xOLAP, цільовим чином орієнтованих на семантичні методи управління, зачіпає поняття семантичних розривів стосовно xOLAP, їх семантико-ентропійних оцінок і регулювання.

    Ключові слова:

    Оперативна аналітична обробка даних, семантичний розрив, ентропійне регулювання, інформаційний мор-

    Фізмен.

    Key words:

    On-line analyticalprocessing, semantic break, entropy control, information morphism.

    Різноманітність версій OLAP досить велике і розширюється. Моделі OLAP знаходять нові класифікаційні ознаки, властивості, які змінюють їх особливості, переваги та недоліки, втім, оцінювані в залежності від специфіки вирішуваних завдань. Так, поряд з такими відомими модифікаціями як ROLAP, MOLAP і HOLAP [1], в останні роки з'явилися і знаходять широке застосування SOLAP (Spatial On-Line Analytical Processing) - просторова аналитич-

    ська обробка, призначена для вивчення просторових даних, що об'єднує поняття з істотно відрізняються одна від одної сфер знань, а саме географічних інформаційних систем і OLAP, розроблена для інтерактивного і швидкого аналізу великих обсягів даних; R-ROLAP (Real-time ROLAP) - OLAP реального часу, на відміну від ROLAP в R-ROLAP для зберігання агрегатів не створюються додаткові реляційні таблиці, а агрегати розраховуються-


    Ключові слова: сховище даних / база знань / агрегування даних / онтологія / багатовимірний куб / ієрархічне вимір / databank / knowledge base / data aggregation / ontology / multidimensional cube / hierarchical measurement

    Завантажити оригінал статті:

    Завантажити