Практикум по корреляционному анализу с использованием Excel и Statistica

В качестве исходных данных для корреляционного анализа используются статистические показатели связи макро-экономических показателей экономики России с динамикой туристических потоков из России за границу

1. Общие положения

Практикум позволяет приобретения навыков по инструментальному анализу тесноты связи статистических данных с использованием Excel и статистического пакета STATISTICA.

Целью анализа является выявление связи макроэкономических показателей с количеством туристов, выехавших за пределы России, экономическому обоснованию установленных статистических связей между состоянием экономики и уровнем развития туристской отрасли, достоверности полученных результатов.

2. Содержание задания

Для анализа используются официальная статистика за один из предшествующих годов по следующим показателям:

  1. уровень безработицы, %
  2. уровень инфляции, %
  3. реальный ВВП, трлн. руб.
  4. объем промышленного производства, трлн. руб.
  5. объем капитального строительства, трлн. Руб.
  6. средняя начисленная заработная плата, трлн руб
  7. располагаемый доход, млрд. руб.
  8. потребительские расходы, млрд. руб.
  9. количество туристов, выехавших за рубеж, тыс. чел.

Каждый вариант заданий определяет вариационные ряды данных за 8 месяцев, по которым вычисляются следующие статистические показатели:

  1. среднее арифметическое каждой величины;
  2. размах вариации;
  3. среднее линейное отклонение;
  4. дисперсию;
  5. среднее квадратичное отклонение;
  6. коэффициент вариации;
  7. линейные коэффициенты парной корреляции;
  8. множественный коэффициент корреляции между числом выехавших туристов и двумя наиболее значимыми признаками;
  9. нормированные исходные макроэкономические показатели.

3. Основные теоретические сведения

1. Средние величины. Наиболее распространенной формой статистических показателей, используемых в социально-экономических исследованиях, является средняя величина.

Средней величиной в статистике называется обобщающая характеристика совокупности однородных явлений по какому- либо варьирующему признаку, которая показывает уровень признака, отнесенный к единице совокупности.

Средняя арифметическая:                                                                                                                                 где хi, — значение признака; n — объем совокупности.

 

2. Размах вариации. Размах вариации является наиболее простым измерителем вариации признака:

где хmax— максимальное значение признака; хmin — минимальное значение признака.

3. Среднее линейное отклонение. Среднее линейное отклонение представляет собой среднюю величину из отклонений признака от их среднего значения:

4. Дисперсия признака. Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины:

5. Среднее квадратичное отклонение. Среднее квадратичное отклонение представляет собой корень второй степени из среднего квадрата отклонений отдельных значений признака от их средней. Среднее квадратичное отклонение равно корню квадратному из дисперсии и имеет размерность осредненного признака:

6. Коэффициент вариации. Для целей сравнения вариации различных признаков в одной и той же совокупности или же при сравнении изменчивости одного и того же признака в нескольких совокупностях вычисляются относительные показатели вариации. Чаще всего они выражаются в процентах и характеризуют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%. Различают относительные показатели вариации в виде коэффициентов осцилляции, линейного коэффициента вариации, коэффициента вариации. Коэффициент вариации равен:

7. Линейный коэффициент корреляции. Измерение тесноты и направления связи признаков друг с другом является важнейшей задачей статистического исследования социально-экономических явлений. Тесноту и направление связи между признаками можно измерить с помощью линейного коэффициента парной корреляции, который рассчитывается по следующей формуле:

8. Множественный коэффициент корреляции. Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативным и несколькими факторными признаками. Для оценки тесноты связи между результативным и двумя факторными признаками множественный коэффициент корреляции рассчитывается по формуле:

По величине коэффициента корреляции оцениваем связь между результативными и факторными признаками. Если коэффициент корреляции равен нулю, то линейная связь отсутствует, если коэффициент корреляции положителен, то связь между признаками прямая, если отрицателен, то связь между признаками обратная, если коэффициент корреляции равен единице, то связь между признаками будет функциональной. Теснота связи оценивается по величине коэффициента корреляции:

  • если | r | ? 0.3 , то связь практически отсутствует,
  • если 0.3 ? | r | ? 0.5, то связь слабая,
  • если 0.5 ? | r | ? 0.7, то связь умеренная,
  • если 0.7 ? | r | ?, то связь между признаками сильная.

Значение множественного коэффициента корреляции лежит в диапазоне от 0 до 1 и тоже оценивается с помощью приведенных выше диапазонов положительных значений коэффициента корреляции.

9. Нормирование данных

Нормирование позволяет привести показатели с разной физической сущностью и разными единицами измерения к единому формату в диапазоне от 0 до 1. Нормирование осуществляется путем деления модуля (абсолютной величины) всех членов выборки на максимальную величину данной выборки:.

Варианты исходных данных

№ вар. Исходные данные
1 2 3 4 5 6 7 8 9
1 10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
12,18 1,36 244,5 1,56 0,151 7,402 964 786 225
12,07 1,19 238,8 1,624 0,146 7,884 991 796 123
12,09 1,44 238 1,648 0,154 7,65 978 789 154
11,51 0,48 204.96 1,152 0,191 10,067 1172,12 906,05 351
11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
2 12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
12,39 2,77 248 1,465 0,173 7,033 935,6 748,8 350
11,22 0,64 226 1,407 0,222 10,069 1390,53 1019,26 237
11,21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
10,74 0,94 206,19 1,374 0,171 9,401 1 1422,97 922,08 316
12,091 1,44 238 1,648 0.154 7,65 Г 978 789 154
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
3 10,07 2,27 182,99 1,351 0,149 8,813 1283,61 933,18 201
10,3 1,55 183 1,321 0,165 8,773 1288,41 874,83 172
10,53 1,43 200,13 1,406 0,189 9,509 1324,84 903,54 265
10,74 0,94 206.19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
11,22 0,64 226 1,407 0,222 10,069 1390,53 1019,26 237
11,21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
4 10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
13,32 10,9 260,2 1,645 0,183 8,037 1232,1 873,56 146
10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
5 10,89 0,92 221,16 1,312 0,233 10,119 1411,81 916,26 517
10,91 0,09 239,01 1,31 0,223 9,558 1374,58 942,96 552
11,02 0,35 249,5 1,318 0,239 10,439 1351,9 985,53 453
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
12,4 2,22 214,7 1,404 1,18 6,534 894,47 721,57 295
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
13,32 10,9 260,2 1,645 0,183 8,037 1232,1 873,56 146
6 11,12 0,16 240,45 1,421 0,225 10,217 1431,93 1018,1 332
11,22 0,64 226 1,407 0.222 10,069 1390,53 1019,26 237
11.21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
11,41 1,49 184,24 1,289 0,132 9,734 1146,8 935,79 162
11,64 0,88 179,59 1,269 0,151 9,766 1198,24 877,11 139
11,72 0,64 195,06 1,404 0,183 10,276 1219,68 918,42 214
12,4 2,22 214,7 1,404 1,18 6,534 894,47 721,57 295
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
7 11,41 1,49 184,24 1,289 0,132 9,734 1146,8 935,79 162
11,64 0,88 179,59 1,269 0,151 9,766 1198,24 877,11 139
11,72 0,64 195,06 1,404 0,183 10,276 1219,68 918,42 214
11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
12,39 2,77 235,2 1,226 0,218 6,855 918,1 732,64 350
12,37 1,17 246,1 1,32 0,296 6,734 945,57 776,31 374
12,37 1,46 248 1,465 0,18 7,033 935,2 781,83 307
8 11,74 0,43 202,31 1,283 0,174 10,048 1284,06 915,53 255
11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
10,3 1,55 183 1,321 0,165 8,773 1288,41 874,83 179
11,64 0,88 179,59 1,269 0,151 9,766 1 198,24 877,11 139
14,14 4,02 181,3 ,35 0,117 5,762 859,22 695,55 117
11,93 2,49 242,91 1,31 0,221 7,433 960,56 887,56 365
12,39 2,77 235,2 1,226 0,218 6,855 918,1 732,64 350
9 11,34 0,16 214,74 1,149 0,243 10,65 1239,57 949,51 417
11,55 3,65 229,54 1,219 0,224 9,732 1186,86 1005,27 445
11,93 2,49 242,91 1,31 0,221 7,433 960,56 887,56 365
12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
13,32 10,9 260,2 1,645 0,183 8,037 1232,1 873,56 146
12,37 1,17 246,1 1,32 0,296 6,734 945,57 776,31 374
12,37 1,46 248 1,465 0,18 7,033 935,2 781,83 307
10 12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
13,32 10,9 260,2 1,645 0,183 8,037 1232,1 873,56 146
12,18 1,36 244,5 1,56 0,151 7,402 964 786 225
12,07 1,19 238,8 1,624 0,146 7,884 991 796 123
12,09 1,44 238 1,648 0,154 7,65 978 789 154
11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
11 13,79 8,07 186,7 1,391 ^,105 5,838 799,44 718,7 136
14,14 4,02 181,3 1,35 0,117 5,762 859,22 698,55 117
13,64 2,75 196,1 1,376 0,119 6,475 891,52 746,2 180
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
12,39 2,77 248 1,465 0,173 7,033 935,6 748,8 350′
11,22 0,64 226 1,407 0,222 10,069 1390,53 1019,26 237
11,21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
12 13,01 2,97 212,3 1,392 0,192 6,458 958,44 729,37 214
12,4 2,22 214,7 1,404 0,201 6,534 897,47 721,57 295
12,4 2,16 220,3 1,312 0,221 7,083 938,68 733,11 334
10,89 0,92 221,16 1,312 0,239 10,119 1411,81 916,26 517
11,34 0,16 214,74 1,149 0,243 10,65 1239,57 949,51 417
12,39 2,77 235,2 1,226 0,19 6,855 918,1 732,64 350
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
13 12,39 2,77 235,2 1,226 0,218 6,855 918,1 732,64 350
12,37 1,17 246,1 1,32 0,296 6,734 945,57 776,31 374
12,37 1,46 248 1,465 0,18 7,033 935,2 781.83 307
10,91 0,09 239,01 1,31 0,223 9,958 1374,58 942,96 552
11,55 2,44 229,54 1,219 0,224 9,732 1186,86 1005,27 445
12,37 1,17 246,1 1,32 0,119 6,734 945,57 776,31 374
10,89 0,92 221,16 1,312 0,239 10,119 1411,81 916,26 517
11,34 0,16 214,74 1,149 0,243 10,65 1239,57 949,51 417
14 12,18 1,36 244,5 1,56 0,151 7,402 964 786 225
12,07 1,19 238,8 1,624 0,146 7,884 991 796 123
12,09 1,44 238 1,648 0,154 7,65 978 789 154
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
12,39 2,77 248 1,465 0,173 7,033 935,6 748,8 350
11,22 0,64 226 1,407 0,222 10,069 1390,53 1019,26 237
11,21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
15 10,3 1,55 183 1,321 0,165 8,773 1288,41 874,83 179
11,64 0,88 179,59 1,269 0,151 9,766 1198,24 877,11 139
14,14 4,02 181,3 1,35 0,117 5,762 859,22 695,55 117
12,39 2,77 235,2 1,226 0,19 6,855 918,1 732,64 350
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
12,39 2,77 235,2 1,226 0,218 6,855 918,1 732,64 350
12,37 1,17 246,1 1,32 0,296 6,734 945,57 776,31 374
16 10,53 1,43 200,13 1,406 0,189 9,509 1324,84 903,54 265
11,72 0,64 195,06 1,404 0,183 10,276 1219,68 918,42 214
13,64 2,75 196,1 1,376 0,117 6,475 891,52 746,2 180
11,21 0,9 258,7 1,515 0,224 12,148 1868 1148,82 181
10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
17 10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
12,4 2,22 214,7 1,404 1,18 6,534 894,47 721,57 295
12,09 1,44 238 1,648 0,154 7,65 978 789 154
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
12,39 2,77 248 1,465 0,173 7,033 935,6 748,8 350
11,22 0,64 226 1,407 0,222 10,069 390,53 1019,26 237
18 10,91 1,11 212,98 1,25 0,225 10,151 1445,25 910,51 492
11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
12,4 1,88 220,3 1,312 0,12 7,083 938,68 733,11 334
11,34 0,16 214,74 1,149 0,243 0,65 1239,57 949,51 417
12,39 2,77 235,2 1,226 0,19 6,855 918,1 732,64 350
10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
19 10,89 0,92 221,16 1,312 0,239 10,119 1411,81 916,26 517
11,34 0,16 214,74 1,149 0,243 10,65 1239,57 949,51 ЧГ7
12,39 2,77 235,2 1,226 0,19 6,855 918,1 732,64 350
11,55 2,44 229,54 1,219 0,224 9,732 1186,86 1005,27 445
12,37 1,17 246,1 1,32 0,119 6,734 945,57 776,31 374
12,09 1,44 238 1,648 0,154 7,65 978 789 154
12,39 2,77 235,2 1,226 0,194 6,885 935,2 781,83 307
12,37 1,93 246,1 1,32 0,24 6,734 945,57 776,31 374
20 10,91 0,09 239,01 1,31 0,223 9,958 1374,58 942,96 552
11,55 2,44 229,54 1,219 0,224 9,732 1186,86 1005,27 445
12,37 1,17 246,1 1,32 0,119 6,734 945,57 776,31 374
12,3 4,45 244 1,417 0,189 7,18 1035,81 831,75 268
12,92 5,53 242,4 1,425 0,173 7,042 996,98 823,5 183
13,32 10,9 260,2 1,645 0,183 8,037 1232,1 873,56 146
10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435

Выполнение работы с использованием Excel

    1. Ввод исходных данных в таблицу Excel. При наличии электронной версии данного методического пособия для этого используется операция копирования из среды Word. Вводятся исходные данные (см. ниже п. 6): «№ периода» (столбец 1); «Уровень безработицы, %» (столбец 2), «Уровень инфляции» (столбец 3), «Реальный ВВП, трлн. руб.» (столбец 4), «Объем промышленного производства, трлн. руб.» (столбец 5), «Объем капитального строительства, трлн. руб.» (столбец 6), «Средняя заработная плата, трлн. руб.» (столбец 7), «Располагаемый доход, млрд руб.» (столбец 8), «Потребительские расходы, млрд. руб.» (столбец 9), «Количество туристов за рубежом России, тыс. чел.» (столбец 10).
    2. Расчет средних значений показателей.
  • В конце столбца 1 вводится наименование показателя — «Среднее».
  • В ячейку справа вводится формула расчета, для этого в меню опции «Вставка функции» (fx), на верхней панели, в диалоговом окне выбирается категория Статистические и функция СРЗНАЧ. Указателем мыши вводится диапазон исходных данных для определения среднего значения, например, =СРЗНАЧ(B5:B12). (Совет: диалоговое окно СРЗНАЧ можно двигать мышью, если оно загораживает данные).
  • Полученная формула копируется для всех других макроэкономических показателей (других столбцов).
    1. Расчет показателя вариации.
  • Вводится название показателя (ниже названия «Среднее») – «Размах».
  • В ячейку справа вводится формула расчета, используя функции МАКС и МИН, например, «=МАКС(B5:B12)-МИН(B5:B12)».
  • Полученная формула копируется для всех других столбцов.
    1. Расчет среднего линейного отклонения.
  • Вводится название показателя (ниже названия «Размах») – «Среднее линейное».
  • В ячейку справа вводится формула расчета, для этого в меню опции «Вставка функции» (fx), в категории Статистические выбирается функция СРОТКЛ и в диалоговом режиме вводится диапазон.
  • Полученная формула копируется для всех других столбцов.
    1. Расчет дисперсии.
  • Вводится название показателя (ниже названия «Среднее линейное») – «Дисперсия».
  • В ячейку справа аналогично вводится fx ? Статистические ? функция ДИСП.
  • Полученная формула копируется для всех других столбцов.
    1. Расчет среднего квадратичного отклонения.
  • Вводится название показателя «Среднее квадратичное отклонение».
  • В ячейку справа fx ? Математические ? функция КОРЕНЬ от значения дисперсии, например, «=КОРЕНЬ(B16)».
  • Полученная формула копируется для других столбцов.
    1. Расчет коэффициента вариации.
  • Вводится название показателя «Коэффициент вариации».
  • В ячейку справа вводим формулу как отношения «Среднее квадратичное отклонение» к «Среднее» в %, например, «=B17*100/B13».
  • Полученная формула копируется для всех других столбцов.
    1. Расчет значений линейных коэффициентов парной корреляции.
  • В строке следующей за строкой «Коэффициент вариации» вводится название таблицы коэффициентов «Коэффициентов парной корреляции» (см. ниже п.6).
  • В первом столбец таблицы вводятся обозначение коэффициентов Cov(j,i), например, Cov(2,i) Cov(3,i) Cov(4,i) и т.д., где 2, 3, 4 — номера столбцов данных (номера данных).
  • В первую строку таблицы, также вводятся обозначение коэффициентов (см. п. 6).
  • В ячейку Cov(2,2) вводится формула в последовательности: fx ? Статистические ? функция КОРРЕЛ в которую в диалоговом режиме вводится диапазоны, например, «=КОРРЕЛ($B5:$B12;B5:B12)». В примере координаты первого диапазона даны по буквенной координате в абсолютном виде (знак $), для возможности копирования формулы по всем другим показателям (столбцам).
  • Формула ячейки Cov(2,2) копируется по всем столбцам («=КОРРЕЛ($B5:$B12;C5:C12)», «=КОРРЕЛ($B5:$B12;D5:D12)», «=КОРРЕЛ($B5:$B12;E5:E12)», «=КОРРЕЛ($B5:$B12;F5:F12)» и т.д.
  • В ячейку Cov(3,2) вводится формула «=КОРРЕЛ($C5:$C12;B5:B12)», а затем копируется по всем столбцам («=КОРРЕЛ($C5:$C12;C5:C12)», «=КОРРЕЛ($C5:$C12;D5:D12)» т.д.
  • В ячейку Cov(4,2) вводится формула «=КОРРЕЛ $D5:$D12;B5:B12)», а затем копируется по всем столбцам («=КОРРЕЛ $D5:$D12;C5:C12)», «=КОРРЕЛ($D5:$D12;D5:D12)» т.д.

Аналогичным образом рассчитываются все остальные коэффициенты.

  • На основании полученных коэффициентов определяются показатели наиболее связанные с показателем «Количество туристов за рубежом России» (столбец 10).
    1. Расчет множественного коэффициента корреляции.

Множественный коэффициент корреляции между «Количество туристов за рубежом России» (столбец 10) и двумя факторными признаками, имеющими максимальное значение модуля коэффициента парной линейной корреляции. Расчет производится по формуле, приведенной в разделе «Основные теоретические сведения». В формате Excel она записывается (для примера в п.6):

«=КОРЕНЬ((СТЕПЕНЬ(E30;2)+СТЕПЕНЬ(F30;2)-2*F30*E30*E26)/(1-СТЕПЕНЬ(E26;2))), где E30 и F30 координаты коэффициентов с наибольшими значениями по модулю, а E26 коэффициент парной корреляции между этими коэффициентами.

Для расчета множественного коэффициента корреляции предварительно рассчитываем коэффициент корреляции между полученной парой факторных признаков. Рассчитанное значение коэффициента помещаем в отдельную ячейку таблицы.

Выполнение работы с использованием программы STATISTICA

В рамках выполнении работы используется модуль «Basic Statistics/Tables» (для русскоязычной версии «Основная статистика/Таблицы»), а в нем две процедуры:

  • Descriptive statistics (Описательная статистика);
  • Correlation matrices (Корреляционные матрицы).
  1. Ввод исходных данных в программу STATISTICA. При наличии электронной версии данного методического пособия для этого используется операция «перетягивания» данных из среды Word в STATISTICA. Для этого откройте и расположите рядом два окна Word и STATISTICA (данные, см. рис. 1). Отметьте блок нужных данных в Word и «перетащите» его курсором в поле STATISTICA (можно ввести и названия показателей, которые вводятся в ручную в диалоговое окно появляющееся при двойном «кликировании» соответствующего столбца см. рис.1).

http://www.exponenta.ru/educat/systemat/kabanov/images/02.gif

Рис. 1. Окно файла данных

  1. Выбора процедуры Descriptive statistics на экране появится диалоговое окно (рис. 2).

http://www.exponenta.ru/educat/systemat/kabanov/images/03.gif

Рис. 3. Диалоговое окно «Descriptive statistics»

В этом окне при помощи кнопки Variables следует выбрать переменные для анализа (рис.4);

http://www.exponenta.ru/educat/systemat/kabanov/images/04.gif

Рис. 4. Окно выбора переменных

  1. Чтобы выбрать статистики, подлежащие вычислению, удобнее всего воспользоваться кнопкой More statistics (рис. 5)

http://www.exponenta.ru/educat/systemat/kabanov/images/07.gif

Рис. 5. Окно выбора статистик

Valid N — объем выборки;

Mean — средняя арифметическая; Среднее значение случайной величины представляет собой наиболее типичное, наиболее вероятное ее значение, своеобразный центр, вокруг которого разбросаны все значения признака.

Sum — сумма;

Median — медиана; Медианой является такое значение случайной величины, которое разделяет все случаи выборки на две равные по численности части.

Standard Deviation — стандартное отклонение;

Стандартное отклонение (или среднее квадратическое отклонение) является мерой изменчивости (вариации) признака. Оно показывает на какую величину в среднем отклоняются случаи от среднего значения признака. Особенно большое значение имеет при исследовании нормальных распределений. В нормальном распределении 68% всех случаев лежит в интервале ± одного отклонения от среднего, 95% — ± двух стандартных отклонений от среднего и 99,7% всех случаев — в интервале ± трех стандартных отклонений от среднего.

Variance — дисперсия; Дисперсия является мерой изменчивости, вариации признака и представляет собой средний квадрат отклонений случаев от среднего значения признака. В отличии от других показателей вариации дисперсия может быть разложена на составные части, что позволяет тем самым оценить влияние различных факторов на вариацию признака. Дисперсия — один из существеннейших показателей, характеризующих явление или процесс, один из основных критериев возможности создания достаточно точных моделей.

Standard error of mean — стандартная ошибка среднего; Стандартная ошибка среднего это величина, на которую отличается среднее значение выборки от среднего значения генеральной совокупности при условии, что распределение близко к нормальному. С вероятностью 0,68 можно утверждать, что среднее значение генеральной совокупности лежит в интервале + одной стандартной ошибки от среднего, с вероятностью 0,95 — в интервале + двух стандартных ошибок от среднего и с вероятностью 0,99 — среднее значение генеральной совокупности лежит в интервале + трех стандартных ошибок от среднего.

95% confidence limits of mean — 95%-ый доверительный интервал для среднего;

Интервал, в который с вероятностью 0,95 попадает среднее значение признака генеральной совокупности.

Minimum, maximum — минимальное и максимальное значения;

Lower, upper quartiles — нижний и верхний квартили; Верхний квартиль это такое значение случайной величины, больше которого по величине 25% случаев выборки. Верхний квартиль это такое значение случайной величины, меньше которого по величине 25% случаев выборки.

Range — размах; Расстояние между наибольшим (maximum) и наименьшим (minimum) значениями признака.

Quartile range — интерквартильная широта; Расстояние между нижним и верхним квартилями.

Skewness — асимметрия; Асимметрия характеризует степень смещения вариационного ряда относительно среднего значения по величине и направлению. В симметричной кривой коэффициент асимметрии равен нулю. Если правая ветвь кривой, начиная от вершины) больше левой (правосторонняя асимметрия), то коэффициент асимметрии больше нуля. Если левая ветвь кривой больше правой (левосторонняя асимметрия), то коэффициент асимметрии меньше нуля. Асимметрия менее 0,5 считается малой.

Standard error of Skewness — стандартная ошибка асимметрии;

Kurtosis — эксцесс; Эксцесс характеризует степень концентрации случаев вокруг среднего значения и является своеобразной мерой крутости кривой. В кривой нормального распределения эксцесс равен нулю. Если эксцесс больше нуля, то кривая распределения характеризуется островершинностью, т.е. является более крутой по сравнению с нормальной, а случаи более густо группируются вокруг среднего. При отрицательном эксцессе кривая является более плосковершинной, т.е. более пологой по сравнению с нормальным распределением. Отрицательным пределом величины эксцесса является число -2, положительного предела — нет.

Standard error of Kurtosis — стандартная ошибка эксцесса. Напротив статистик, подлежащих вычислению (рис. 8) следует поставить флажок.

После нажатия на кнопку OK окна Descriptive statistics на экране появится таблица с результатами расчетов описательных статистик (рис. 9).

http://www.exponenta.ru/educat/systemat/kabanov/images/08.gif

Рис. 9. Окно с результатами расчета описательных статистик

В таблице 2 эти данные представлены после копирования в текстовый редактор Word. К сожалению, пакет Statistica не рассчитывает такие часто применяемые статистики, как коэффициент вариации и относительная ошибка среднего значения (точность опыта). Но их определение не представляет большого труда. Коэффициент вариации (%) есть отношение стандартного отклонения к среднему значению, умноженное на 100%:

http://www.exponenta.ru/educat/systemat/kabanov/images/09.gif

Коэффициент вариации, как дисперсия и стандартное отклонение, является показателем изменчивости признака. Коэффициент вариации не зависит от единиц измерения, поэтому удобен для сравнительной оценки различных статистических совокупностей. При величине коэффициента вариации до 10% изменчивость оценивается как слабая, 11-25% — средняя, более 25% — сильная (Лакин, 1990).
Относительная ошибка среднего значения (%) — отношение стандартной ошибки среднего к среднему значению, умноженное на 100% (для вероятности 0,68):

http://www.exponenta.ru/educat/systemat/kabanov/images/10.gif

Это процент расхождения между генеральной и выборочной средней, показывает на сколько процентов можно ошибиться, если утверждать, что генеральная средняя равна выборочной средней. Если относительная ошибка не превышает 5%, то точность исследований (точность опыта) оценивается как хорошая, до 10% — удовлетворительная.
Точность 3-5% при вероятности 0,95, а в некоторых случаях и при вероятности 0,68, является вполне достаточной для большинства задач лесного хозяйства.

Таблица 2

Основные описательные статистики выборки 1-летних сеянцев сосны обыкновенной

Переменная Valid N Mean Confid.-95% Confid.+95% Median Minimum Maximum Lower Quartile Upper Quartile
VAR1 50 3,64 3,33 3,95 3,50 2,1 6,70 2,90 4,00
VAR2 50 1,15 1,06 1,24 1,15 0,5 1,76 0,96 1,37
VAR3 50 16,97 15,67 18,27 17,70 4,7 26,50 15,70 19,70
VAR4 50 2,55 2,42 2,67 2,50 1,6 3,60 2,20 2,80
Переменная Range Quartile Range Variance Std.Dev. Standard Error Skewness Std.Err. Skewness Kurtosis Std.Err. Kurtosis
VAR1 4,60 1,10 1,169 0,081 0,153 0,921 0,337 0,403 0,662
VAR2 1,26 0,41 0,098 0,313 0,044 -0,080 0,337 -0,451 0,662
VAR3 21,80 4,00 20,865 4,568 0,646 -0,834 0,337 0,772 0,662
VAR4 2,00 0,60 0,200 0,447 0,063 0,386 0,337 0,036 0,662

При необходимости обработки сгруппированных данных нужно воспользоваться кнопкой Weight окна Descriptive statistics (рис.4). В появляющемся диалоговом окне (рис. 10) следует указать переменную, являющуюся весами для других переменных (Weight variables), а переключатель Status установить в положение ON. Необходимо иметь в виду, что весы действуют сразу для всех переменных. Поэтому обрабатывать сгруппированные и не сгруппированные данные нужно отдельно.

http://www.exponenta.ru/educat/systemat/kabanov/images/11.gif

Рис.10. Окно задания переменной — весов

При помощи опции Alpha error (рис. 4) выбирается уровень доверительной вероятности статистического анализа. В биологических исследованиях наиболее часто используется вероятность 0,95 (95%). Вероятности 0,95 соответствует уровень значимости 0,05 (5%). Кнопка Select cases позволяет установить условия включения (include if) или исключения (exclude if) случаев (строк файла данных) из статистической обработки (рис. 11). Операторы, которые могут использоваться при написании выражений, а также примеры самих выражений имеются непосредственно на самом диалоговом окне Case Selection Conditions (рис. 11) в нижней его части.

http://www.exponenta.ru/educat/systemat/kabanov/images/12.gif

Рис. 11. Окно задания условий выбора случаев

Для визуализации описательных статистик можно построить статистические графики типа «коробок» (или «ящиков с усами»). Это легко можно сделать при помощи кнопки Box & Whisker plot for all variable окна Descriptive statistics. На графике можно отобразить 3 статистики, установив переключатель в одно из 4-х положений (рис. 12):

http://www.exponenta.ru/educat/systemat/kabanov/images/13.gif

Рис. 12. Окно выбора статистик для графика коробок

  1. Median/Quart./Range — Медиана / Квартили / Размах;
  2. Mean/SE/SD — Среднее / Ошибка среднего / Стандартное отклонение;
  3. Mean/SD/1.96SD — Среднее / Стандартное отклонение / Интервал 1,96* стандартного отклонения;
  4. Mean/SE/1.96*SE — Среднее / Ошибка среднего / Интервал 1,96 * ошибки среднего.

Визуализация описательных статистик переменных VAR1, VAR3 и VAR4 рассматриваемого примера при помощи графика коробок представлена на рис. 13.

http://www.exponenta.ru/educat/systemat/kabanov/images/14.gif

Рис. 13. Описательные статистики в графическом виде

Процедура Correlation matrices (Корреляционные матрицы)

Эта процедура предназначена для проведения корреляционного анализа, установления тесноты линейной связи между переменными.

Установим тесноту взаимосвязей между таксационными показателям дубовых древостоев. Фрагмент окна файла данных представлен на рис. 14. Данные представляют собой таксационные показатели древостоев 93 пробных площадей, заложенных в низкоствольных дубравах 4 класса бонитета. По названию переменных понятно какие таксационные показатели они содержат.

http://www.exponenta.ru/educat/systemat/kabanov/images/15.gif

Рис.14. Окно файла данных

В стартовом окне этой процедуры «Pearson Product-Moment Correla-tion» (Корреляция Пирсона) (рис. 15) для расчета квадратной матрицы используется кнопка One variable list (square matrix).

http://www.exponenta.ru/educat/systemat/kabanov/images/16.gif

Рис. 15. Окно Pearson Product-Moment Correlation

В списке переменных выбирают переменные, между которыми будут рассчитаны парные коэффициенты корреляции Пирсона. После нажатия на кнопку OK или Correlationes на экране появится корреляционная матрица (рис. 16).

http://www.exponenta.ru/educat/systemat/kabanov/images/17.gif

Рис. 16. Корреляционная матрица

Коэффициент корреляции — это показатель, оценивающий тесноту линейной связи между признаками. Он может принимать значения от -1 до +1. Знак «-» означает, что связь обратная, «+» — прямая. Чем ближе коэффициент к 1 тем теснее линейная связь. При величине коэффициента корреляции (по Дворецкому) менее 0,3 связь оценивается как слабая, от 0,31 до 0,5 — умеренная, от 0,51 до 0,7 — значительная, от 0,71 до 0,9 — тесная, 0,91 и выше — очень тесная. Для практических целей Дворецкий рекомендует использовать значительные, тесные и очень тесные связи.

Процедура Correlation matrices сразу же дает возможность проверить достоверность рассчитанных коэффициентов корреляции. Значение коэффициента корреляции может быть высоким, но не достоверным, случайным. Чтобы увидеть вероятность нулевой гипотезы (p), гласящей о том что коэффициент корреляции равен 0, нужно в опции Display окна Pearson Product-Moment Correlation (рис. 15) установить переключатель на вторую строку Corr. matrix (display p & N). Но даже если этого не делать и оставить переключатель в первом положении Corr. matrix (highlight p), статистически значимые на 5-% уровне коэффициенты корреляции будут выделены в корреляционной матрице на экране монитора цветом, а при распечатке помечены звездочкой. Третье положение переключателя опции Display — Detail table of results позволяет просмотреть результаты корреляционного анализа в деталях (рис. 17). Флажок опции Casewise deletion of MD устанавливается для исключения из обработки всей строки файла данных, в которой есть хотя бы одно пропущенное значение.

http://www.exponenta.ru/educat/systemat/kabanov/images/18.gif

Рис. 17. Вариант детального просмотра результатов корреляционного анализа

Численный пример решения

Исходные данные (вариант №20)

№ периода Уровень безработицы, % Уровень инфляции, % Реальный ВВП, трлн.руб Объм произв, трлн.руб Объм капстроительства, трлн.руб Средняя З/П, трлд.руб Распологаемый доход, млрд.руб Потребительский расзод, млрд.руб Количество туристов за рубежом
1 2 3 4 5 6 7 8 9 10
1 10,74 0,94 206,19 1,374 0,171 9,401 1422,97 922,08 316
2 10,92 0,94 207,25 1,267 0,192 9,505 1315,67 905,18 435
3 10,91 1,11 212,98 1,25 0,225 10,151 1445,67 910,51 492
4 12,18 1,36 244,5 1,56 0,151 7,402 964 786 225
5 12,07 1,19 238,8 1,624 0,146 7,884 991 796 123
6 12,09 1,44 238 1,648 0,154 7,65 978 789 154
7 11,51 0,48 204,96 1,152 0,191 10,067 1172,12 906,05 351
8 11,27 0,06 206,37 1,317 0,23 10,782 1207 917,32 397
Средние 11,46 0,94 219,88 1,40 0,18 9,11 1187,05 866,52 311,63
Размах 1,44 1,38 39,54 0,50 0,08 3,38 481,67 136,08 369,00
Среднее линейное 0,50 0,34 15,41 0,16 0,03 1,09 160,77 57,14 108,22
Дисперсия 0,35 0,21 298,87 0,04 0,00 1,66 38799,4 4017,97 17791,
Средеквад. откл-ие 0,59 0,46 17,29 0,19 0,03 1,29 196,98 63,39 133,39
Коэф. вариации 5,15 49,31 7,86 13,41 17,93 14,13 16,59 7,32 42,80

Коэффициенты парной корреляции

Cov(j,i) Cov(j,2) Cov(j,3) Cov(j,4) Cov(j,5) Cov(j,6) Cov(j,7) Cov(j,8) Cov(j,9) Cov(j,10)
Cov(2,i) 1,00 0,43 0,88 0,75 -0,68 -0,78 -0,98 -0,93 -0,83
Cov(3,i) 0,43 1,00 0,74 0,67 -0,71 -0,84 -0,33 -0,71 -0,52
Cov(4,i) 0,88 0,74 1,00 0,91 -0,76 -0,93 -0,83 -0,98 -0,82
Cov(5,i) 0,75 0,67 0,91 1,00 -0,78 -0,89 -0,74 -0,90 -0,89
Cov(6,i) -0,68 -0,71 -0,76 -0,78 1,00 0,92 0,68 0,80 0,89
Cov(7,i) -0,78 -0,84 -0,93 -0,89 0,92 1,00 0,75 0,94 0,86
Cov(8,i) -0,98 -0,33 -0,83 -0,74 0,68 0,75 1,00 0,89 0,84
Cov(9,i) -0,93 -0,71 -0,98 -0,90 0,80 0,94 0,89 1,00 0,87
Cov(10,i) -0,83 -0,52 -0,82 -0,89 0,89 0,86 0,84 0,87 1,00
Множественный коэффициент корреляции: 0,94 — связь сильная

Рассчитанный множественный коэффициент корреляции (0,94) говорит о сильной прямой связи между результативным фактором «Количеством туристов за рубежом» и факторными признаками «Объем производства» и «Объем капстроительства». Таким образом, эти факторы могут использоваться для прогнозирования объема спроса на путевки.

Нормированные данные

№ периода Уровень безработицы, % Уровень инфляции, % Реальный ВВП, трлн.руб Объм произв, трлн.руб Объм капстроительства, трлн.руб Средняя З/П, трлд.руб Распологаемый доход, млрд.руб Потребительский расзод, млрд.руб Количество туристов за рубежом
1 0,88 0,65 0,84 0,83 0,74 0,87 0,98 1,00 0,64
2 0,90 0,65 0,85 0,77 0,83 0,88 0,91 0,98 0,88
3 0,90 0,77 0,87 0,76 0,98 0,94 1,00 0,99 1,00
4 1,00 0,94 1,00 0,95 0,66 0,69 0,67 0,85 0,46
5 0,99 0,83 0,98 0,99 0,63 0,73 0,69 0,86 0,25
6 0,99 1,00 0,97 1,00 0,67 0,71 0,68 0,86 0,31
7 0,94 0,33 0,84 0,70 0,83 0,93 0,81 0,98 0,71
8 0,93 0,04 0,84 0,80 1,00 1,00 0,83 0,99 0,81

 Визуализация путем нормирования данных подтверждает наличие сильной связи между результативным фактором «Количеством туристов за рубежом» и факторными признаками «Объем производства» и «Объем капстроительства» см. рисунок.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *