Использование методов математической статистики в исследовательской деятельности школьников

Семь лет занимаясь исследовательскойдеятельностью со школьниками, как руководительработ присутствовала на многих конференциях.Должна отметить, что основные методы,применяемые в большинстве исследований это:интервью, анализ опубликованных в сети Интернет,в СМИ, в зарубежной и отечественной литературематериалов, социологическое исследование. Вомногих работах исследуется зависимость междуслучайными величинами и редко, когда проверяетсягипотеза о значимости связи. Этим “грешат” нетолько школьные работы, но и некоторые вузовские,вот какое утверждение я встретила в реферате“Индекс человеческого развития”, студенткиГУ-ВШЭ: “Дольше всего живут там (в тех странах),где хорошо развито здравоохранение. Между этимихарактеристиками обнаруживается прямаязависимость, или корреляция”. (http://www.macro2004.narod.ru/) Для того,чтобы это утверждать, необходимо выполнить рядматематических вычислений.

Цель данной статьи познакомить с двумяуниверсальными методами математическойстатистики Спирмена и Кендалла, и разобрать ихприменение на конкретных примерах. Изучение этихметодов может оказаться полезным юнымисследователям, занимающимся вопросамисуществования зависимости между случайнымивеличинами. Основанием для выбора методовранговой корреляции служат: их универсальность,простота, широкие возможности в решении задачсравнения индивидуальных или групповыхпризнаков. Отметим, что существует рядограничений коэффициента ранговой корреляции:по каждой переменной должно быть представлено неменее 5 наблюдений, верхняя граница выборкиопределяется имеющимися таблицами критическихзначений, а именно 40.[1]

Для того, чтобы было понятно применение данныхметодов широкому кругу читателей, введемосновные понятия. Значение термина»корреляции» — взаимная связь.[2]Корреляционная связь — это согласованныеизменения двух или большего количествапризнаков. Коэффициент ранговой корреляциирекомендуется применять в тех случаях, когданеобходимо проверить, согласованно лиизменяются признаки у одного и того же объекта.Выборочный коэффициент ранговой корреляцииСпирмена[3] находится по формуле: , где d =xi-yi, n–объем выборки, причем |в|1. Объекты располагаются впорядке ухудшения качества по признаку А и В.Ранг хi, равен порядковому номеру объектапо признаку А: xi=i. Объектам признака В,припишем ранг yi, причем индекс i при y равенпорядковому номеру объекта А.

Выборочный коэффициент ранговой корреляцииКендалла[4] находится по формуле:

, R=R1+R2+……+Rn-1, причем |в|1.

Припишем объектам, обладающих признаками А и Вранги. Допустим, что справа от y1имеется R1 рангов, больших y1; справа отyn-1 имеется Rn-1 рангов, больших y1n-1.Для обоснования суждения о наличии связи междукачественными признаками следует проверить,значим ли выборочный коэффициент ранговойкорреляции Спирмена (Кендалла).

Для того, чтобы при уровне значимости rпроверить нулевую гипотезу о равенстве нулюкоэффициента rСпирмена при конкурирующей гипотезе Н1: r0, надовычислить критическую точку , где n-объем выборки; в– коэффициент Спирмена; tкр(a,k) –критическая точка двусторонней критическойобласти, которую находят по таблицераспределения Стьюдента, по уровню значимости aи числу степеней свободы k=n-2. Если |в|< Ткр– нет оснований отвергнуть нулевую гипотезу.Ранговая корреляционная связь междукачественными признаками незначима. Если |в|>Ткр – нулевую гипотезу отвергают. Междупризнаками существует значимая ранговаякорреляция.

Для того, чтобы при уровне значимости aпроверить нулевую гипотезу о равенстве нулюкоэффициента Кендалла при конкурирующейгипотезе Н1: r 0, надовычислить критическую точку , где n-объем выборки; zкр– критическая точка двусторонней критическойобласти, которую находят по таблице функцииЛапласа по равенству Ф(zкр)=(1-a)/2. Если |в|< Ткр– нет оснований отвергнуть нулевую гипотезу.Ранговая корреляционная связь междукачественными признаками незначима. Если | в|> Ткр– нулевую гипотезу отвергают. Между признакамисуществует значимая ранговая корреляционнаясвязь.

Задача 1. Исследование зависимости междуожидаемой продолжительностью жизни и ВВП на душунаселения (ППС (паритет покупательнойспособности) в долл. США).

Вычислитькоэффициент ранговой корреляции Спирмена. Приуровне значимости a=0,01 пр
оверить нулевуюгипотезу о равенстве нулю выборочногокоэффициента ранговой корреляции Спирмена.Материалы: http://www.un.org/russian/esa/hdr/2006/

Доклад ПРООН о развитии человека 2006 (таблица№1). Выдвигаем гипотезы:

Н0: корреляция между ожидаемой продолжительностьюжизни и ВВП не отличается от нуля.

Н1: корреляция между ожидаемой продолжительностьюжизни и ВВП отличается от нуля.

Данные оформлены в виде таблицы:


№п/п Страны Ожидаемая продолжит.жизни в годах Ранг А ВВП на душу населения (ППС в долл. США). Ранг В d =a-b
1 Норвегия 79,6 11,5 38454 4 7,5
2 Исландия 80,9 3 33051 5 -2
3 Австралия 80,5 5 30331 14 -9
4 Ирландия 77,9 23 38827 3 20
5 Швеция 80,3 6 29541 16 -10
6 Канада 80,2 7,5 31263 10 -2,5
7 Япония 82,2 1 29251 18 -17
8 США 77,5 24,5 39676 2 22,5
9 Швейцария 80,7 4 33040 6 -2
10 Нидерланды 78,5 20,5 31789 9 11,5
11 Финляндия 78,7 18 29951 15 3
12 Люксембург 78,6 19 69961 1 18
13 Бельгия 79,1 15 31096 11 4
14 Австрия 79,2 14 32276 7 7
15 Дания 77,3 26,5 31914 8 18,5
16 Франция 79,6 11,5 29300 17 -5,5
17 Италия 80,2 7,5 28180 20 -12,5
18 Великобритания 78,5 20,5 30821 13 7,5
19 Испания 79,7 10 25047 22 -12
20 Новая Зеландия 79,3 13 23413 24 -11
21 Германия 78,9 16,5 28303 19 -2,5
22 Гонконг, Китай 81,8 2 30822 12 -10
23 Израиль 80 9 24382 23 -14
24 Греция 78,3 22 22205 25 -3
25 Сингапур 78,9 16,5 28077 21 -4,5
26 Республика Корея 77,3 26,5 20499 27 -0,5
27 Словения 76,6 28 20939 26 2
28 Португалия 77,5 24,5 19629 28 -3,5

Вычислим в по формуле:

= 1- 6* 3175/(28*783) = 1-19050/21924 =0,131

Найдем критическую точку двустороннейкритической области распределения Стьюдента поуровню значимости a=0,01 и числу степенейсвободы k=n-2=26

Итак, Ткр=0,54054 в=0,131, так как |в|< Ткр – коэффициент ранговой корреляцииСпирмена не отличается от нуля.

Вывод: ранговая корреляционная связь междуожидаемой продолжительностью жизни и ВВПнезначимая.

Задача 2. Исследование зависимости междуожидаемой продолжительностью жизни и расходамина здравоохранение на душу населения (ППС в долл.США).

Вычислить коэффициент ранговойкорреляции Кендалла. При уровне значимости a=0,05проверить нулевую гипотезу о равенстве нулювыборочного коэффициента ранговой корреляцииКендалла. Материалы: http://www.un.org/russian/esa/hdr/2006/Доклад ПРООН о развитии человека 2006 (таблица №6).Данные оформлены в виде таблицы:


№п/п Страны Расходы на здравоохранениена душу населения Ранг А Ожидаемая продолжит.жизнив годах Ранг В Ri
1 США 5711 1 77,5 24,5 3
2 Норвегия 3809 2 79,6 10,5 16
3 Швейцария 3776 3 80,7 3 23
4 Люксембург 3680 4 78,6 19 8
5 Исландия 3110 5 80,9 2 22
6 Германия 3001 6 78,9 15,5 11
7 Канада 2989 7 80,2 6,5 17
8 Нидерланды 2987 8 78,5 20 7
9 Франция 2902 9 79,6 10,5 13
10 Австралия 2874 10 80,5 4 17
11 Бельгия 2828 11 79,1 14 10
12 Дания 2762 12 77,3 26,5 1
13 Швеция 2704 13 80,3 5 14
14 Ирландия 2496 14 77,9 23 3
15 Великобритания 2389 15 78,5 21 4
16 Австрия 2306 16 79,2 13 7
17 Италия 2266 17 80,2 6,
5
10
18 Япония 2244 18 82,2 1 10
19 Финляндия 2108 19 78,7 17,5 4
20 Греция 1997 20 78,3 22 3
21 Израиль 1911 21 80 8 7
22 Новая Зеландия 1893 22 79,3 12 5
23 Испания 1853 23 79,7 9 5
24 Португалия 1791 24 77,5 24,5 2
25 Словения 1669 25 76,6 28 0
26 Сингапур 1156 26 78,9 15,5 2
27 Кипр 1143 27 78,7 17,5 1
28 Республика Корея 1074 28 77,3 26,5 0

Сумма рангов R= 225 . Найдем коэффициент ранговойкорреляции Кендалла, учитывая, что R= 225 , n=28Вычислим в по формуле:

=-1=1,1904-1=0,1904

Найдем критическую точку zкр : Ф(zкр)=(1-?)/2=(1-0,05)/2=0,475

По таблице Лапласа находим zкр=1,96. Найдемкритическую точку:

0,2624

Итак, Ткр=0,2624 ?в =0,1904 , | ?в |< Ткр

Вывод: ранговая корреляционная связь междуожидаемой продолжительностью жизни и расходамина здравоохранение на душу населения (ППС в долл.США) незначимая.

Хотя, казалось бы, что чембольше правительства стран тратят наздравоохранение, тем дольше живет их народ. Как истуденткой ГУ-ВШЭ, использован материал: ДокладПРООН о развитии человека 2006. Наш примерпоказывает, что субъективной оценки явнонедостаточно, чтобы делать выводы о наличиипрямой зависимости. Возможно, ознакомление сданными методами, а затем и их применение в своихработах, убережет юных исследователей и ихруководителей от скоропалительных выводов.

Возникает вопрос: в каком же случае следуетприменять метод ранговой корреляции Спирмена, ав каком Кендалла? Для данных, измеряемых впорядковой шкале, следует использоватькоэффициент ранговой корреляции Спирмена,который определяется сравнением рангов –номеров значений сравниваемых переменных в ихупорядочении. Особенность метода Кендалла в том,что он годен только для составляющих, содержащихименно монотонный тренд (тренд, или тенденцияпредставляет собой устойчивую закономерность,наблюдаемую в течении длительного периодавремени). [4]

Безусловно, существуют программы, например SPSS,вычисляющие коэффициенты ранговой корреляции,но как учитель информатики могу сказать, что япротив бездумного внесения данных в программу.Ученику необходимо осознавать, как вычисляетсятот или иной коэффициент. Возможно, кому-товычисления покажутся сложными, но из опытаработы с учащимися, могу отметить, что ребята с 7класса с успехом применяют данные методы.

Беда в другом: многие члены конкурснойкомиссии, особенно в провинции, с недовериемотносятся к формулам. На городской конференции,на секции психологии была свидетелем следующейсцены: член жюри интересовался у учащегося: “Длячего производить вычисления, ведь существуюткомпьютерные программы?”.

“Это был профессиональный интерес, коллега” -был ответ.

А разве не для того, чтобы у учащегося появилсяэтот интерес мы и работаем?

Библиография:

  1. Сидоренко Е.В. Методы математической обработкив психологии. Санкт-Петербург. Речь, 2002, стр.211
  2. Oxford Advanced Learner’s Dictionary of Current English, 1982
  3. Гмурман В.Е., Руководство к решению задач потеории вероятностей и математическойстатистике, М.: Высшая школа, 2005, стр.201
  4. Орлова И.В. Экономико-математическоемоделирование. М.: Вузовский учебн

Следующий: