Розглянуто критерії якості педагогічного вимірювання. Показу / але, що необхідними умовами для визнання практичної цінно / сти результатів педагогічного вимірювання є справедливість покладеного в основу математичної моделі припущення про нор / мальном законі розподілу помилок і значущості коефіцієнта детермінації між модельними і реально отриманими результа / тами. Запропонована технологія аналізу результатів педагогічно / го виміру реалізована у вигляді комп'ютерної програми.

Анотація наукової статті з комп'ютерних та інформаційних наук, автор наукової роботи - Олег Деменчёнок


Область наук:
  • Комп'ютер та інформатика
  • Рік видавництва: 2010
    Журнал
    педагогічні вимірювання
    Наукова стаття на тему 'АНАЛІЗ ЯКОСТІ ПЕДАГОГІЧНОГО ВИМІРЮВАННЯ'

    Текст наукової роботи на тему «АНАЛІЗ ЯКОСТІ ПЕДАГОГІЧНОГО ВИМІРЮВАННЯ»

    ?Про

    теорія

    АНАЛІЗ ЯКОСТІ ПЕДАГОГІЧНОГО ВИМІРЮВАННЯ

    -е-

    Олег Деменчёнок

    Східно-Сибірський інститут МВС Росії Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    Розглянуто критерії якості педагогічного вимірювання. Показано, що необхідними умовами для визнання практичної цінності результатів педагогічного вимірювання є справедливість покладеного в основу математичної моделі припущення про нормальний закон розподілу помилок і значущості коефіцієнта детермінації між модельними і реально отриманими результатами. Запропонована технологія аналізу результатів педагогічного вимірювання реалізована у вигляді комп'ютерної програми.

    Ключові слова: тест, Item Response Theory (IRT) 1, адекватність моделі, похибка вимірювання, коефіцієнт детермінації, перевірка нормальності розподілу.

    -Q-

    -1-

    На російську мову IRT В.С.Аванесов переводить як математичну теорію вимірювань (МТІ). Див .: Педагогічні вимірювання. № 3. 2007. С. 3.

    виміру

    -Q-

    Самарський A.A., Михайлов А.П. Математичне моделювання. Ідеї. Методи. Приклади. 2-е изд., Испр. М .: Физматлит, 2001. 320 c.

    Математична модель педагогічного вимірювання

    Сучасний етап розвитку педагогічних вимірювань неможливо уявити без математичної моделі процесу взаємодії випробовуваних різного рівня підготовленості з завданнями, які відрізняються рівнями складності.

    Математична модель - це «еквівалент об'єкта, що відображає в математичній формі найважливіші його властивості - закони, яким він підпорядковується, зв'язку, властиві складовим його частинам, і т.д.» 2. Математичне моделювання - процес побудови і вивчення математичних моделей реальних процесів і явищ. Будь-які науки, що використовують математичний апарат, по суті займаються математичним моделюванням: замінюють реальний об'єкт його моделлю і потім вивчають останню. Педагогічні вимірювання не є винятком: створюється математична модель, що описує рівень підготовленості випробовуваних, а потім проводиться обробка результатів тестування з використанням математичного рівняння моделі.

    Математична модель - це одна з форм ідеалізації досліджуваного явища, заснована на деяких припущень-

    пах. Результати математичного моделювання практично завжди відрізняються від експериментальних даних, що призводить до необхідності аналізу якості отриманих результатів і їх придатності для практичного застосування.

    проблема якості

    педагогічного

    виміру

    Ступінь невідповідності фактичних і розрахункових даних може бути різною. В одних випадках різниця між ними не дуже помітна і може виявитися чисто випадковою. В інших розбіжності значні. Звідси виникає завдання оцінки якості педагогічного вимірювання, встановлення того, в яких випадках і з яким ступенем ймовірності можна вважати різницю між фактичними даними і теоретично очікуваними достовірної і, навпаки, коли її слід вважати несуттєвою, що знаходиться в межах випадковості.

    Адекватність моделі (від лат. Adaequatus - прирівняний, цілком відповідний, вірний, точний) - це здатність моделі відображати задані властивості досліджуваного процесу з прийнятною точністю. Якщо фактично отримані дані збігаються з теоретично очікуваними, по моделі,

    -Q-

    даними, то це може бути достатньою підставою для прийняття пропонованої моделі і визнання інструментальної валідності результатів педагогічного вимірювання. Але якщо фактичні дані не узгоджуються з теоретичними, то виникає великий сумнів у практичній цінності отриманих результатів.

    Разом з тим адекватність моделі визначається не тільки ступенем її відповідності реальному об'єкту, але також цілям дослідження і призначенням моделі3. Критерії адекватності служать мірилом того, наскільки ефективно модель справляється з покладеними на неї завданнями. Якщо, наприклад, модель використовується для прогнозування, то головним критерієм адекватності буде якість прогнозу.

    Для моделей педагогічних вимірювань основним критерієм якості є точ-ность4 і надійність вимірювання рівня підготовленості випробуваних і параметрів тестових завдань.

    Стандартний підхід до оцінки адекватності моделі заснований на зіставленні результатів моделювання з експериментальними даними (наприклад, адекватність моделювання міцності будь-яких об'єктів можна перевірити, порівнявши розрахункові значення показників міцності з результатами

    натурних випробувань). Цей стандартний підхід непридатний для педагогічних вимірювань. Знання (навчальні досягнення, вміння, навички, професійна компетентність і т.п.) в загальному випадку не піддаються безпосередньому виміру. Тому процес вимірювання принципово різниться від вимірювання спостережуваних (наприклад, фізичних) величин. Якщо спостережувані величини (наприклад, довжину об'єкта) знаходять шляхом прямого зіставлення з еталонними заходами, то рівень знань визначається за результатами непрямих вимірювань.

    Результатом моделювання не є істинні значення рівнів підготовленості випробовуваних і параметри тестових завдань, а їх наближені оцінки. На жаль, цілий ряд факторів істотно ускладнює аналіз якості результатів педагогічного вимірювання:

    • похибка вимірювання може бути оцінена лише непрямими методами, тому що для виявлення помилок апроксимації розрахункові значення немає з чим порівняти;

    • оцінка стандартних помилок вимірювання проводиться з використанням математичної моделі. Ця оцінка позбавлена ​​сенсу в тому випадку, коли покладені в основу моделі припущення не виконуються;

    Айвазян С.А., Мхитарян В.С. Прикладна статистика і основи економетрики. М .: ЮНИТИ, 1998. 1022 з.

    Точність вимірювання - характеристика виміру, яка відображає ступінь близькості його результатів до істинного значення вимірюваної величини. Чим менше результат вимірювання відхиляється від істинного значення величини, тобто чим менше його похибка, тим вище точність (Велика радянська енциклопедія, електронна версія. М .: Велика Російська енциклопедія, 2002).

    виміру

    -е-

    Baker F.B. The Basics of Item Response Theory. 2 ed., ERIC Clearinghouse on Assessment and Evaluation, Madison, Wisconsin, 2001. 172 p.

    Деменчёнок О.Г. Комп'ютерна програма для підбору параметрів основних моделей ШТ // Педагогічні вимірювання. № 2. 2008.

    Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / In: F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley Publishing, 1968. pp. 397-472.

    • повторний огляд результатів педагогічного вимірювання шляхом розрахунку за іншими математичними моделями неможлива, так як отримується при цьому новий набір наближених оцінок також буде відрізнятися від дійсних значень, а величина відмінності невідома;

    • зміна вихідних даних (наприклад, виключення з розгляду відповідей по окремим тестових завдань) призводить до варіації результатів (оцінок рівнів підготовленості).

    Етапи перевірки придатності математичної моделі педагогічних вимірювань

    З урахуванням викладеного, для педагогічного вимірювання автор вважає за доцільне проведення повного аналізу придатності математичної моделі педагогічного вимірювання, який повинен дати відповідь на наступні питання:

    • чи досяжна необхідна точність педагогічного вимірювання?

    • придатна обрана математична модель для обробки результатів тестування?

    • чи придатні для практичного використання результати педагогічного вимірювання?

    Перший етап аналізу - оцінка точності вимірювання

    Для моделей педагогічних вимірювань головним критерієм є точність вимірювання рівня підготовленості випробуваних і точність оцінки параметрів тестових завдань.

    Незнання істинних значень вимірюваних параметрів не дає можливість розрахувати похибка вимірювання. Однак можна оцінити стандартну помилку, яка характеризує похибка вимірювання, викликану дією випадкових факторів. Випадкові фактори (фрагментарність знань випробуваного, випадковий вибір відповідей, помилки введення даних; помилки, викликані неправильним тлумаченням умови завдання і т.п.) в кожному з окремих вимірювань діють непередбачуваним чином те в сторону зменшення, то в бік збільшення результатів. Чим сильніше дію випадкових факторів, тим більше відхилення розрахункового значення щодо очікуваного, а точність вимірювання - нижче.

    Для трьох базових моделей ШТ5>6 граничні, тобто максимально можливі значення стандартних помилок знаходження рівнів підготовленості учнів і труднощі тестових заданій7 розраховуються за формулами:

    1

    Ов. = |

    § '

    (1 - р., Л (р, - с. Л2

    Л "

    1 - з..

    (1)

    про в =-

    §

    (1 - Р, Л (Р, - с, Л2

    I -Рр1Л Р-. I

    Ав =? Ов ,

    де? - аргумент функції Лапласа, при якому вона дорівнює половині заданого значення ймовірності а (наприклад а = 0,68 відповідає? = 1,0 а = 0,90 відповідає? = 1,65 а = 0,997 відповідає? = 3,0 і т. д.).

    Отримані за допомогою моделі рівні підготовленості випробовуваних (рівні складності завдань) є наближеними оцінками цих величин. Справжні значення невідомі, але з імовірністю а зна-

    (2)

    де про в; - стандартна помилка рівня підготовленості.-Го випробуваного; Ор ^ - стандартна помилка рівня складності, -го завдання; Р., - ймовірність правильної відповіді.-Го тестованого на, -е завдання; т - кількість тестових завдань; п - число досліджуваних; с, - параметр корекції на вгадування правильної відповіді в, -м завданні.

    Помилку вимірювання Ав з потрібною вірогідністю можна знайти з уравненія8:

    (3)

    дяться в межах довірчого інтервалу в ± Ав.

    Наприклад, рівень підготовленості випробуваного в = 1 при Ов = 0,5 означає:

    • з ймовірністю 68% рівень підготовленості знаходиться в інтервалі ц = 1 ± 1-ів (або 0,5 ... 1,5);

    • з імовірністю 90% ц = 1 ± 1,65-ств (або 0,175 ... 1,825);

    • з ймовірністю 99,7% ц = 1 ± 3-ств (або -0,5 ... 2,5);

    • з ймовірністю 99,99% ц = 1 ± 4-ств (або -1. 3).

    Тому першим етапом перевірки адекватності моделі повинна бути оцінка довірчих інтервалів для результатів педагогічного вимірювання. Якщо похибки виявляться занадто великі, то мета педагогічного вимірювання не може бути досягнута, а результати вимірювання непридатні для практичного використання.

    Таким чином, мета цього етапу - встановити можливість досягнення потрібної точності вимірювання. Якщо відповідь позитивна, то далі треба перевірити придатність і якість моделі. Якщо потрібна точність недосяжна, то продовжувати аналіз не має сенсу.

    Другий етап аналізу - перевірка придатності моделі

    Результати педагогічного вимірювання і їх стандартні

    -про-

    Айвазян С.А., Мхитарян В.С. Прикладна статистика і основи економетрики. М .: ЮНИТИ, 1998. 1022 з.

    2

    1

    2

    .= 1

    виміру

    -е-

    Karabatsos G. Comparing the Aberrant Response Detection Performance of Thirty-Six Person-Fit Statistics // Applied measurement in education, 2003 №16 (4), 277-298 p.

    помилки розраховуються по обраної моделі ШТ і не можуть бути перевірені іншими способами. Очевидно, що помилкова модель призводить до помилкових результатів. Тому потрібно перевіряти правомірність моделі в кожному конкретному випадку її застосування.

    Моделі ШТ засновані на припущеннях (допущених):

    • ймовірність правильної відповіді визначається різницею між рівнем підготовленості випробуваного і рівнем складності завдання;

    • дію неврахованих в моделі факторів дуже малий або взаємно компенсується;

    • помилки є випадковими величинами.

    Якщо модель адекватно описує експериментальні дані, то помилки повинні не суперечити цим припущенням.

    Наслідком виконання стандартних припущень є:

    • незалежність помилок моделі;

    • сталість дисперсії помилок моделі для всіх інтервалів спостережуваних даних;

    • нормальний закон розподілу помилок.

    В роботі G. Karabatsos, по-свящённой аналізу придатності моделі, перерахований ряд факторів, що призводять до порушення стандартних допущені-

    ній9:

    • несанкціонований доступ випробовуваних до правильних відповідей на всі або окремі тестові завдання (списування, використання заборонених довідкових матеріалів, підкуп посадових осіб і т.д.);

    • спроби вгадування відповіді;

    • помилки при введенні відповіді (психологічна напруга, утома, втрата концентрації уваги можуть привести до технічних помилок при введенні правильної відповіді);

    • випадковий вибір відповідей без спроб вгадування;

    • творче осмислення завдання (наприклад, в задачі з фізики студент може врахувати, що Земля має форми не кулі, а еліпсоїда).

    Складений G. Karabatsos список важко назвати вичерпним. Автор цієї статті вважає, що причинами порушення стандартних припущень також можуть стати:

    • некоректність тестових завдань (технічні помилки при введенні тексту завдання, фактичні помилки, двозначність формулювання, неправильне значення еталона правильної відповіді і т.д.);

    • фрагментарність знань випробуваного (навіть в рамках однієї теми окремі навчальні питання студент може знати краще за інших, що не враховується моделлю вимірювання і призводить до зростання похибки моделі).

    -Q-

    Дія зазначених чинників призводить до порушення теоретичних припущень. Ефективним засобом виявлення відхилень від стандартних припущень є аналіз похибок, що дозволяє виявити основні види порушень стандартних припущень:

    1) відхилення розподілу помилок моделі від нормального закону розподілу. Виявлення такого відхилення означає невипадковість помилок моделі, що ставить під сумнів її адекватність;

    2) викиди - експериментальні дані, що різко відрізняються від розрахункових, ймовірність яких є вкрай низькою. В цьому випадку зазвичай проводять повторний експеримент. Якщо результат повторюється, то слід досліджувати природу його існування і уточнити модель, в іншому випадку викид не приймають до уваги.

    Критерії оцінки закону розподілу помилок є мірою справедливості припущень, покладених в основу математичної моделі.

    Для перевірки гіпотези про закон розподілу похибок зазвичай використовують критерій згоди Пірсона, також званий критерієм X2 - хі-квадрат (х - грецька буква «хі»), критерій Колмогорова-Смирнова або значення коефіцієнтів асиметрії та

    ексцесу розподілу даних.

    Відомі теоретики IRT Wright B.D. і Stone M.H вважають, що повний аналіз моделі педагогічного вимірювання повинен включати оцінку ступеня відповідності даних теоретичним предположеніям10. Вони вважають, що аналіз на основі критерію х2 повинен бути проведений для кожного випробуваного і кожного завдання.

    Ідея критерію х2 полягає в оцінці відхилень розподілу експериментальних даних від нормального розподілу.

    Щоб знайти значення критерію х2, потрібно згрупувати теоретичні дані в інтервальний ряд (бажано не менше 7 інтервалів), причому в кожному інтервалі має виявитися не менш 5 значень. Потім підрахувати емпіричні і теоретичні частоти і обчислити статистику х2 по фор-

    мулі

    11.

    хХ = 1

    (A - E) 2

    (4)

    де с - число інтервалів; А? - емпірична частота (відношення числа результатів тестування, які потрапили в інтервал I, до загальної кількості результатів тестування); Е - теоретична частота (відносна кількість розрахункових значень, що потрапили в той же інтервал).

    Для нормального розподілу обчислене значення х2

    ^ О ^ ріяя

    -Q-

    Wright B.D., Stone M.H. Best Test Design. Chicago: Mesa Press. 1979.

    -11-

    Львівський Б.Н. Статистичні методи побудови емпіричних формул. М .: Вища школа, 1988.

    i = 1

    виміру

    -Q-

    Гмурман В.Є. Керівництво вирішення по теорії ймовірностей і математичній статистиці. Навчальний посібник. М .: Вища освіта, 2009. 404 с.

    Рівень значущості - ступінь ризику, яка полягає в тому, що дослідник може зробити неправильний висновок про помилковість статистичної гіпотези на основі експериментальних даних (помилка першого роду або хибно-позитивного рішення).

    Baker F.B. The Basics of Item Response Theory. 2 ed., ERIC Clearinghouse on Assessment and Evaluation, Madison, Wisconsin, 2001. 172 p.

    не перевищує критичного значення х2кріт, яке вибирається з відповідної таб-ліци12.

    При перевірці гіпотез методами математичної статистики необхідно мати на увазі рівень значімості13, який зазвичай вибирається з ряду 0,05; 0,025; 0,01 і 0,001. Різні значення рівня значущості мають свої переваги і недоліки. Менші значення дають більшу впевненість в тому, що нормальний розподіл помилок не дотримується, але при цьому є більший ризик необгрунтовано визнати розподіл помилок нормальним (помилка другого роду або помилково негативні рішення).

    Наприклад, висновок про невідповідність розподілу помилок нормальному закону при рівні значущості 0,05 означає:

    • з ймовірністю не менше 95% відміну розподілу помилок від нормального розподілу достовірно;

    • з ймовірністю, що не перевищує 5%, розподіл все-таки може бути нормальним.

    Якщо покладене в основу математичної моделі припущення про нормальний закон розподілу помилок не виконується, то немає підстав визнавати адекватність моделі. Таку модель слід забракувати, а отримані з її допомогою результати педагогічного вимірювання - визнати

    не мають практичної цінності.

    Перевірку за критерієм х2 слід провести для кожного рівня підготовленості випробуваного і рівня складності завдання. Якщо придатність моделі не буде підтверджена, то слід визнати, що оцінювання даного студента (тестового завдання) в рамках обраної моделі неможливо.

    У разі непридатності моделі для тестового завдання можна рекомендувати:

    1) проаналізувати формулювання завдання. Виявлені помилки виправити, після чого завдання знову може бути включено в тест для апробаціі14;

    2) виключити з розгляду відповіді випробовуваних на це завдання і повторити обробку результатів тестування.

    У разі непридатності моделі для випробуваного можна рекомендувати:

    1) якщо дозволяють вимоги до результатів педагогічного вимірювання, прийняти менше значення рівня значущості. Можливо, на меншому рівні значимості модель може бути визнана придатною;

    2) оцінити рівень підготовленості цього випробуваного в індивідуальному порядку (наприклад, шляхом усного або письмового опитування);

    3) при комп'ютерному тестуванні - видати додаткового-

    -Q-

    тільні тестові завдання (зі збільшенням числа виконаних завдань зростає статистична значимість результатів, і повторна перевірка за критерієм х2 може показати придатність моделі).

    Отже, мета цього етапу - встановити придатність моделі вимірювання. Якщо модель придатна, то далі перевіряємо її якість. В іншому випадку - визнаємо, що оцінювання даного студента (тестового завдання) в рамках обраної моделі ШТ неможливо.

    Третій етап аналізу - перевірка якості моделі вимірювання

    У математичному моделюванні саме близькість експериментальних і розрахункових даних є основним критерієм якості моделі. Як правило, адекватність практично обґрунтовується достатнім ступенем збігу значень параметрів моделі і об'єкта.

    У IRT такі критерії, хоча і згадуються в окремих роботах, широкого поширення не отримали. Так, Wright B.D. і Masters G.N. використовують коефіцієнт надійності моделі і на 113 сторінці своєї кнігі15 призводять формулу цього коефіцієнта, яка повністю збігається з фор-

    мулою відомого в статистиці коефіцієнта детермінації.

    Коефіцієнт детермінації Я2 (квадрат множинного коефіцієнта кореляції Я) є універсальним і загальновизнаним показником близькості розрахункових і експериментальних данних16: _ 2

    Я2 = 1 - (5) а

    де-д - середня квадратічес-кая помилка (тобто стандартне відхилення між розрахунком по моделі і спостерігаються даними); - - середнє квадратич-ське відхилення експериментальних даних.

    Коефіцієнт детермінації Я2 - це статистичний показник, що відображає пояснює здатність моделі і представляє собою ту частку дисперсії (варіації) результатів спостережень, яка пояснюється рівнянням математичної моделі. Він може приймати тільки позитивні значення від 0 до 1.

    Якщо Я2 = 0, то зв'язок між експериментальними даними та результатами моделювання відсутній, і замість моделі можна з таким же успіхом використовувати середнє арифметичне спостережуваних значень. Я2 = 1 відповідає ідеальному збігу експериментальних (спостережуваних) і теоретичних (розрахункових) даних. Чим ближче значення коеф-

    -Q-

    -15-

    Wright B.D., Masters G.N. Rating scale analysis. Chicago: Mesa Press, 1982.

    -16-

    Айвазян С.А., Мхитарян В.С. Прикладна статистика і основи економетрики. М .: ЮНИТИ, 1998. 1022 з.

    виміру

    -Q-

    -і-

    Теорія ймовірностей і математична статистика: Навчальний посібник для вузів / Під ред. Мхітаряна В.С. М .: Маркет ДС, 2007. 240 с.

    Там же: Айвазян С.А., Мхитарян В.С. Прикладна статистика і основи економетрики. М .: ЮНИТИ, 1998..

    1022 з.

    фициента детермінації до одиниці, тим ближче модель до емпіричних спостережень. Наприклад, Я2 = 0,8 означає, що модель пояснює зміну експериментальних даних на 80%, а решта 20% припадають на випадкові помилки або невраховані в моделі фактори.

    Коефіцієнт детермінації Я2 можна розглядати і як показник надійності результатів педагогічного вимірювання. Надійність характеризується часткою стійкої частини дисперсії. Чим вище значення Я2, тим ця частка більше. Отже, зі збільшенням Я2 знижується вплив випадкових факторів, а надійність педагогічного вимірювання зростає.

    У двовимірної кореляційної моделі коефіцієнт детермінації дорівнює квадрату коефіцієнта кореляції г:

    R2 = г2 ,

    де г = M

    F - M (F) Y - M (Y)

    а

    f

    а,.

    Для практичних розрахунків коефіцієнта кореляції використовується формула17:

    п _

    § (уг - у) • (/. - /)

    г =

    I (Уi - У) \ I (f - f)

    _ - (8)

    де у і / - середні значення експериментальних і розрахункових даних.

    Формула коефіцієнта кореляції для випадку, коли результат виконання тестового завдання х оцінюється дихотомически - 1 ( «правильно») або 0 ( «неправильно»), набуває вигляду: г =

    п т

    НС X, - X) • (Р - Р)

    . = 1, = 1

    (6)

    (7)

    М - позначення математичного очікування; а ^ і Оу - середні квадратичні відхилення моделі і експериментальних даних; У - безліч експериментальних даних; F - відповідне безліч значень моделі.

    ,§§ (х, - х) 2 ЧЕ§ (Р- р) 2

    V 1 = 1 1 = 1 V. = 1 1 = 1

    1 '(9)

    де х., - результат, -го завдання виконання завдання пана м тестованим; Р - середня ймовірність правильної відповіді.

    У рівнянні (9) розрахункове значення замінено ймовірністю правильної відповіді. Обґрунтуємо цю заміну. Як відомо, для дискретної випадкової величини, заданої значеннями Х1, Х2, ..., хп і відповідними цим значенням можливостями Р1, Р2, ..., Рп, середнє значення (математичне очікування) визначається формулой18:

    М (х) = хр + х2Р2 + • • • + хпРп. (10)

    -Q-

    i = 1

    -е-

    При дихотомічному оцінюванні ймовірність того, що х = 1 дорівнює Р, а ймовірність х = 0 дорівнює 1 - Р. Тоді за формулою (10):

    М (х) = 1-Р + 0 • (1 - Р) = Р.

    Значить, для моделей педагогічного вимірювання, заснованих на дихотомічному оцінюванні, розрахункове значення дорівнює ймовірності правильної відповіді.

    Коефіцієнт кореляції або його квадрат - коефіцієнт детермінації Я2 можуть бути розраховані для кожного випробуваного

    ГВГ =

    т

    I (X, - X) • (Р - Р)

    1 = 1

    (ХГ - ХГ) 2 (Р - Р) 2

    1 + 1 (11)

    і для кожного тестового завдання

    гв, =

    I (ХГ, - Х1) • Р - Р})

    II (X, - X) 2 (Р, Р) 2

    _ 'Г 1 (12)

    де х1 - середнє значення результату виконання тестових завдань пана м випробуваним; х1 - середнє значення результату виконання 1-го завдання всіма випробуваними; Pi і Р, - відповідні середні значення ймовірності правильної відповіді.

    Отримані значення покажуть, наскільки повно модель вимірювання пояснює варіацію результатів тестування окремо для кожного випробуваного і для кожного тестового завдання.

    Формули (9) і (11-12) досить універсальні і можуть бути використані для випадку, коли результат виконання завдання оцінюється декількома балами. При цьому слід замінити Р, значеннями, знайденими за формулою (10).

    Важливий етап аналізу - перевірка суттєвості відмінності від нуля коефіцієнта детермінації. Цим перевіряється значимість побудованої моделі. Якщо виявиться, що коефіцієнт детермінації істотно не відрізняється від нуля, то можна зробити висновок про нульову «пояснює» здатності моделі (тобто модель пояснює спостережувані дані не кращі за них середнього арифметичного), надійність вимірювання недостатня (варіація відповідей повністю залежить від випадкових факторів ).

    Статистично незначне відхилення від нуля коефіцієнта є порушенням припущення про модель вимірювання, згідно з яким ймовірність правильної відповіді визначається різницею між рівнем підготовленості випробуваного і рівнем складності завдання. У цьому випадку ймовірність

    ^ О ^ ііяя

    -про-

    г = 1

    виміру

    -Q-

    Львівський Б.Н. Статистичні методи побудови емпіричних формул. М .: Вища школа, 1988.

    Електронний підручник за статистикою. М .: StatSoft; http://www.statsoft.ru/ home / portal / glossary / GlossaryTwo / M / MultipleR.htm

    правильної відповіді визначається дією неврахованих в моделі факторів. Автор вважає, що за відсутності значущості коефіцієнта детермінації Я2 використання отриманих за допомогою моделі результатів неправомірно.

    Значимість коефіцієнта детермінації перевіряється за допомогою F-критерію Фішера:

    F =

    R2 l - k -1

    1 - R2

    k

    (13)

    де I = т-п - кількість результатів виконання тестових завдань, & - число входять до модель змінних (змінними величинами вважаються рівні підготовленості випробовуваних, рівні складності завдань, а також рівні розрізняє здатності завдань).

    F-критерій Фішера показує, у скільки разів математична модель описує фактичні дані краще, ніж середнє арифметичне. Якщо отримане значення F виявиться більше критичного Fкріт, то на прийнятому рівні значущості можна зробити висновок статистичної значущості відмінності Я2 від нуля і, отже, значущості отриманої моделі. Тому умовою адекватності моделі і надійності отриманих з її допомогою результатів є підтвердження значущості коефіцієнта

    детермінації

    19

    При статистично незначному відхиленні Я2 від нуля ^< Fкріт) не підтверджується одне з базових припущень моделі ШТ про те, що ймовірність правильної відповіді визначається різницею між рівнем підготовленості випробуваного і рівнем складності завдання. Я2 = 0 означає, що різниця між рівнем підготовленості випробуваного і рівнем складності завдання не впливає на ймовірність правильної відповіді. Результати педагогічного вимірювання в цьому випадку можна обгрунтувати тільки впливом випадкових і неврахованих в моделі факторів, що позбавляє їх будь-якої практичної цінності. Слід визнати якість отриманої моделі і надійність результатів вимірювання незадовільними.

    Якісну інтерпретацію коефіцієнта детермінації і коефіцієнта кореляції можна орієнтовно дати за шкалою Чеддока20 (табл. 1).

    Вельми висока Мета третього етапу аналізу - перевірка адекватності моделі вимірювання. Якщо виявиться, що відмінність коефіцієнта детермінації від нуля статистично значимо, то слід визнати адекватність отриманої моделі і надійність результатів вимірювання незадовільними.

    Про

    Таблиця 1

    -е-

    Kолічественная міра тісноти зв'язку ^ чес ^ енная інтерпретація адекватності моделі

    r R2

    0,1-0,3 0,01-0,09 Слабка

    0,3-0,5 0,09-0,25 Помірна

    0,5-0,7 0,25-0,49 Помітна

    0,7-0,9 0,49-0,81 Висока

    0,9-0,99 0,81-0,99 Вельми висока

    Можливості розрахунку в Microsoft Excel

    На складність обчислення описаних показників якості моделі можна не звертати особливої ​​уваги - функції для їх розрахунку є в готовому вигляді в багатьох математичних і статистичних пакетах комп'ютерних програм.

    Так, в додатку Excel з середовища Microsoft Office для перевірки закону розподілу похибок за критерієм згоди Пірсона (критерію х2) використовується вбудована функція ХІ2ТЕСТ. Ця функція обчислює ймовірність збігу спостережуваних (фактичних) значень і теоретичних (гіпотетичних) значень. Якщо обчислена ймовірність нижче рівня значущості (наприклад, 0,05), то нульова гіпотеза відкидається і затверджується, що відхилення (похибки моделі) не відповідають нормальному закону распреде-ленія21. Якщо обчислена ймовірність близька до одиниці, то можна говорити про високу сте-

    пені відповідності похибки моделі нормальному закону розподілу.

    Функція має такі параметри:

    ХІ2ТЕСТ (Фактіческій_ін-інтервал; Ожідаемий_інтервал)

    де Фактіческій_інтервал - інтервал даних, який містить результати спостережень (в нашому випадку - результати виконання тестових завдань); Ожідаемий_інтервал - інтервал даних, який містить теоретичні (розрахункові) значення для відповідних спостережуваних.

    Значення коефіцієнта кореляції легко обчислюється за допомогою функції КОРРЕЛ. Синтаксис цієї функції:

    КОРРЕЛ (массів1; массів2),

    де массів1 - інтервал осередків зі значеннями результатів виконання тестових завдань, массів2 - інтервал осередків з розрахунковими значеннями.

    теорія

    ^ О ^ ріяя

    -Q-

    -21-

    Гельман В.Я. Рішення математичних задач засобами Excel. СПб .: Пітер, 2003. 240 с.

    виміру

    Критичне значення ^ критерію Фішера можна знайти без спеціальних таблиць, скориставшись функцією FРАСПОБР:

    FРАСПОБР (ймовірність; сте-пені_свободи1; степені_сво-боди2)

    де ймовірність - рівень значущості (наприклад, 0,05 або 0,01); степені_свободи1 - кількість вхідних в модель змінних; степені_свободи2 - кількість експериментальних даних, зменшене на число змінних і одиницю.

    приклад аналізу

    адекватності

    моделі

    педагогічного вимірювання

    Вихідні дані для аналізу (рис. 1) надані В.С. Ава-несов. Таблиця (або матриця) організована так, що стовпці - це результати виконання завдань (всього 10 завдань), а рядки - результати тестованих (13 студентів). Відразу уточнимо, що такий малий обсяг даних не характерний для реального тестування. Зате такий обсяг зручний для розгляду технології аналізу адекватності моделі.

    Для проведення аналізу моделі педагогічного изме-

    ренію використовувалася безкоштовна комп'ютерна програма Estimate3PL автора (сайт www.asksystem.narod.ru). Програма реалізована в середовищі Microsoft Excel, тому доступні всі функції і можливості цієї електронної таблиці. Додатково включена можливість обробки результатів тестування відповідно до базових моделями IRT і аналіз адекватності моделі. Після введення вихідних даних натискаємо кнопку Пошук рішення (рис. 1), вибираємо режим роботи (рис. 2) і отримуємо результати (рис. 3).

    Рівні підготовленості випробовуваних в і відповідні стандартні помилки про записуються в шпальтах праворуч від вихідних даних (стовпчики M і N на рис. 3). Рівні складності завдань?, Їх стандартні помилки про, дифференцирующая здатність завдань а записуються в рядках нижче вихідних даних (рядки 15-17 на рис. 3). Найбільшою виявилася стандартна помилка про = 1,19 для рівня складності першого завдання (осередок В16 на рис. 3). Це означає, що з імовірністю 68%? 1 = -3,52 ± 1,19 (тобто знаходиться в інтервалі від -4,71 до -2,33). Точність педагогічного вимірювання невисока. Це можна пояснити малою кількістю виконаних тестових завдань. Однак будемо вважати точність проведеного

    -Q-

    Мал. 1. Вихідні дані на аркуші Microsoft Excel

    Вибір режиму роботи

    0

    - МодельIRT-

    модель Раша * двопараметричного З тоёхпараметоіческая

    - оцінювання параметрів-

    З метод найменших квадратів

    (• метод максимальної правдоподібності

    W [Аналіз адекватності результатів j

    OK

    Відміна

    Estimate3PL • freeware програма для оцінки параметрів моделей IRT. Дозволено копіювання і повторне поширення. Перегляд, зміна і копіювання вихідного коду заборонені, wv.w.asksystem.narod.rt ® Деменченок О.Г., 2008-2010. e-mail: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

    Мал. 2. Вибір режиму роботи

    вимірювання задовільною і продовжимо розгляд результатів аналізу моделі.

    Програма Estimate3PL виводить результати аналізу адекватності моделі педагогічного вимірювання в цілому (тобто для всієї групи випробовуваних):

    • перевірка закону розподілу похибок за критерієм згоди Пірсона (критерію хі-квадрат): ймовірність випадковості помилок дорівнює 0,999996. Обчислена ймовірність багаторазово вище рівня значущості 0,05, що

    -Q-

    е

    пш

    виміру

    е

    Мал. 3. Результати розрахунку параметрів моделі

    підтверджує придатність моделі вимірювання. Помилки з високою ймовірністю обумовлені випадковими чинниками;

    • коефіцієнт детермінації дорівнює 0,4887745 (модель на 48,9% пояснює варіацію відповідей), що за шкалою Чеддока відповідає помітною адекватності моделі. Надійність результатів не висока;

    • ^ критерій Фішера дорівнює 4,4063, що більше критичного значення при рівні значущості 0,05 (^ Крит = 1,631635). Адекватність моделі підтверджена.

    Розглядаючи всю матрицю відповідей, можна сказати, що досягнуто задовільний

    якість моделі (недолік в тому, що модель не пояснює 51,1% дисперсії вихідних балів). Однак кінцевими результатами моделювання є оцінки значень параметрів досліджуваних та тестових завдань. Тому і для них слід перевірити адекватність моделі вимірювання.

    Програма Estimate3PL розраховує коефіцієнти детермінації Я2 для кожного випробуваного (стовпець О) і для кожного тестового завдання (рядок 18). Також перевіряється закон розподілу похибок за критерієм хі-квадрат і виводяться значення Р (хі-квадрат) - ймовірності того, що

    е

    -е-

    розбіжність між вихідними даними і моделлю викликано випадковими факторами (стовпець Р і рядок 19). Так, для 11-го студента Я2 = 0,84 (модель на 84% пояснює варіацію відповідей цього студента). За шкалою Чеддока адекватності моделі можна вважати досить високою; перевірка по ^-критерієм Фішера при рівні значущості 0,05 підтверджує значущість (придатність) моделі. Р (хі-квад-рат) = 0,997 (тобто ймовірність нормального розподілу помилок дорівнює 99,7%), що підтверджує придатність моделі педагогічного вимірювання для цього студента.

    Для більшої наочності проведемо графічний аналіз якості моделі. На графіку для одинадцятого студента

    (Рис. 4) видно, що результат тестування і модель дійсно добре узгоджені. У повній відповідності з теорією, студент дає правильні відповіді на легкі завдання (тобто завдання 1-3, рівень труднощі яких менше рівня підготовленості цього студента в = -0,54), а при вирішенні складних завдань зазнає невдачі. Адекватність моделі вельми висока.

    Відповіді четвертого студента (рис. 5) менше узгоджуються з теоретичними припущеннями: він помиляється на двох легких завданнях і правильно вирішує більш складне. Однак ці завдання близькі за рівнем труднощі (Р5 = вб = 0,27, в7 = 0,72) до рівня підготовленості цього студента

    ^ О ^ ріяя

    -про-

    виміру

    Мал. 5. Графічний аналіз моделі для четвертого студента

    $ 4 = 0,45. Тому відхилення відповідей від прогнозованих з ймовірністю 96% можна вважати випадковими ^ (хі-квад-рат) = 0,96). Я2 = 0,45 (модель пояснює 45% дисперсії відповідей), адекватність моделі достатня.

    Для зручності аналізу програма Estimate3PL виділяє кольором значення Я2 і P (хі-ква-битися), які не підтверджують значимість і придатність моделі (на рис. 3 такі значення виділені жирним шрифтом). Найменш придатною для практичних цілей виявилася модель вимірювань десятого студента: Я2 = 0,01 (модель пояснює всього 1% отриманих відповідей), P (хі-квадрат) = 0,002 (ймовірність випадковості помилок моделі 0,2%). І критерій Фішера, і критерій хі-квадрат

    при рівні значущості 0,05 спростовують придатність моделі. Дійсно, на рис. 6 видно, що відповіді хаотично розташовані щодо графіка моделі вимірювання, причому відхилення досягають 0,95. Припущення про випадковий характер помилок, покладене в основу математичної моделі, в даному конкретному випадку неправомірно: P (хі-квадрат) = 0,002, що значно менше стандартного рівня значущості 0,05.

    Перевірка за критерієм Фішера не підтвердила адекватність моделей для студентів 1, 2, 3, 7 і 9 і завдань 1 і 3. Модель вимірювання в цих випадках не може пояснити відповіді випробовуваних, що позбавляє результати педагогічного вимірювання практичної цінності.

    -е-

    Мал. 6. Графічний аналіз моделі для десятого студента

    Очевидно, основна причина цього - малий обсяг даних (при великій кількості спостережень навіть вельми малі відхилення Я2 від нуля виявляються достатніми для визнання значущості цього коефіцієнта і адекватності моделі).

    Далі проведено ряд пробних розрахунків за тими ж вихідними даними з використанням інших поширених моделей і методів розрахунку параметрів моделі, результати зведені в табл. 2 (прийнятий рівень значущості 0,05).

    Аналіз даних табл. 2 свідчить, що в даному педагогічному вимірі: • модель Раша в поєднанні з методом максимальної правдоподібності забезпечує відносно невеликі стандартні помилки. Перевірка за критерієм х2 підтверджує придатність моделі, критерій Фіше-

    ра - значимість моделі для всього набору вихідних даних. Однак не вдалося підтвердити можливість практичного використання оцінок рівнів підготовленості 6 студентів і рівнів складності 4 завдань з огляду на статистичної незначущості (низької якості) моделі вимірювання (див. Табл. 2);

    • двопараметричного модель в поєднанні з методом максимальної правдоподібності дала великий розкид значень стандартних помилок, які для трьох студентів і одного завдання перевищують 1,8 (максимальна помилка досягає 2,82). В цілому модель вимірювання адекватна вихідним даним, але не вдалося підтвердити адекватність моделі і результатів вимірювання для 4 студентів і 4 завдань;

    • метод найменших квадратів привів до побудови непридатної-

    ^ О ^ ріяя

    -про-

    виміру

    Таблиця 2

    Модель, метод розрахунку Середня стандартна помилка, ° ср Максимальна стандартна помилка, АмАХ Імовірність випадковості помилок, Р (Х2) Коефіцієнт детермінації, К2 Номери досліджуваних та завдань, для яких X >Х крит Номери досліджуваних та завдань, для яких Р<Р

    Модель Раша, Метод максимальної правдоподібності 0,84 1,24 0,999996 0,489 студент 10 студент 1 студент 2 студент 3 студент 7 студент 9 завдання 1 завдання 3 завдання 4 завдання 10

    Модель Раша, Метод найменших квадратів 1,17 3,79 0,000000 0,544 студент 10 завдання 8 завдання 10 студент 1 студент 2 студент 7 студент 9 студент 10

    Двухпарамет- річеская модель, Метод максимальної правдоподібності 0,94 2,82 0,9999999 0,562 студент 1 студент 7 студент 9 студент 10 завдання 1 завдання 3 завдання 4 завдання 5

    Двухпарамет- річеская модель, Метод найменших квадратів 0,52 2,47 0,000000 0,624 студент 9 студент 10 завдання 6 завдання 8 завдання 10 студент 1 студент 9 студент 10 завдання 1

    -про-

    них для педагогічного вимірювання моделей (ймовірність випадковості помилок Р (х2) багато менше будь-якого стандартного значення рівня значущості). Це можна пояснити чутливістю методу найменших квадратів до викидів (великих відхилень між моделлю і експериментом) і малим об'ємом даних.

    Жодна з розглянутих моделей не змогла забезпечити

    прийнятну якість вимірювання. Очевидна причина цього - малий обсяг вихідних даних, який здавався недостатнім для надійного відділення випадкового і закономірного.

    Проте, приклад дозволив досить докладно проілюструвати всі основні етапи аналізу адекватності моделі вимірювання.

    -е-

    висновки

    1. Аналіз адекватності моделі є необхідною умовою коректності педагогічного вимірювання.

    2. Перевірку моделі вимірювання доцільно проводити в наступній послідовності:

    а) оцінка довірчих інтервалів для результатів педагогічного вимірювання. Якщо похибки виявляться занадто великі, то результати вимірювання непридатні для практичного використання;

    б) перевірка закону розподілу похибок для всієї матриці відповідей і для кожного випробуваного і для кожного тестового завдання окремо.

    Якщо нормальний закон розподілу НЕ буде підтверджений, то слід визнати модель непридатною, а оцінювання даного студента (тестового завдання) в рамках обраної моделі неможливим;

    в) оцінка значимості коефіцієнта детермінації моделі як показника адекватності моделі і надійності результатів педагогічного вимірювання. 3. При комп'ютерному тестуванні в разі непідтвердження адекватності моделі доцільно передбачити автоматизацію видачі додаткових тестових завдань. Критерієм завершення тестування може стати досягнення адекватності моделі педагогічного вимірювання.

    че ° рріяя


    Ключові слова: Item Response Theory (IRT) 1 / адекватність моделі / по? грешность вимірювання / коефіцієнт детермінації / перевірка нормальності розподілу

    Завантажити оригінал статті:

    Завантажити