16.9 Взвешенное оценивание (оценка с весами)

В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.

Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.

В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:

Возраст

Количество названных городов

3

2, 1, 0, 4

4

4, 2, 6

5

3, 8, 4, 7

6

3, 8, 9, 5

7

6, 10

8

7, 14, 10

9

9, 16, 10

10

9, 16, 15, 9

11

18, 12

12

22, 11, 14, 16

13

14, 21

14

20, 15, 23, 14, 26

Эти данные для сорока детей в общей сложности хранятся в переменных alter (возраст) и staedte (города), которые содержатся в файле snamen.sav.

  •  Откройте файл snamen.sav.

  •  Выберите в меню Graphs (Графики) Scatterplot... (Диаграмма рассеяния)

Рис. 16.26: Диаграмма рассеяния

  •  Отметьте и постройте простую диаграмму рассеяния с переменной alter по оси абсцисс и переменной staedte пo оси ординат.

Вы увидите, что с ростом возраста растёт не только количество названных городов, но и рассеяние, то есть дисперсия, становится больше.

  •  В соответствии с описанием из главы 16.1 проведите линейный регрессионный анализ, причём переменной staedte присвойте статус зависимой переменной, а переменной alter — независимой переменной.

  •  Вы получите следующие результаты:

Model Summary (Сводная таблица по модели)

Model (Модель)

R

R Square (R-квадрат)

Adjusted R Square (Смещенный R-квадрат)

Std. Error of the Estimate (Стандартная ошибка оценки)

1

 

,879а 

,772 

,766

3,1623 

a. Predictors: (Conslant), Alter (Bлияющие переменные: (Константа), возраст)

Coefficients (Коэффициенты) а

Model (Модель)

Unstandardized Coefficients (He стандарти-зированные коэф-фициенты)

Standardized Coefficients (Стандарти-зированные коэф-фициенты)

Т 

Sig. (Значи-мость)

В

Std. Error (Станда-ртная ошибка)

/3 (Beta)

1

a. Dep

(Constant) (Koнстанта)

-2,722

1,273

-2,138

,039

Alter (Возраст) endent Variable

1,569 (Зависим

,138 ая перемен-ная)

,879

11,357

,000

Коэффициент корреляции равен 0,879, а мера определённости 0,772.

В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.

Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.

Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как

1/хp

  •  Выберите в меню Analyze (Анализ) Regression.. .(Регрессия) Weight Estimation... (Взвешенное оценивание)

Откроется диалоговое окно Weight Estimation (Взвешенное оценивание).

Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)

  •  Перенесите переменную staedte в поле зависимых переменных, а переменную alter в поля для независимых и для весовых переменных. Согласно с установками по умолчанию оптимальная степень вычисляется в пределе от —2 до 2 с шагом 0,5; измените шаг на 0,2.

  •  Щёлкните на кнопке опций и в появившемся диалоговом окне активируйте опцию Save best weight as new variable (Сохранить лучший вес, как новую переменную).

Результаты расчёта, вывод которых производится в старой табличной форме, выглядят следующим образом:

Source variable

. . ALTER

Dependent variable. . STAEDTE

Log- likelihood

Function =-116,950816

POWERvalue= -2,000

log- likelihood

Function =-115,170919

POWERvalue=-1,800

Log- likelihood

Function =-113,434617

POWERvalue=-1,600

Log- likelihood

Function =-111,746484

POWERvalue=-1,400

Log- likelihood

Function =-110,111706

POWERvalue=-1,200

Log- likelihood

Function =-108,536154

POWERvalue=-1,000

Log- likelihood

Function =-107,026465

POWERvalue=-,800

Log- likelihood

Function =-105,590111

POWERvalue=-,600

Log- likelihood

Function =-104,235463

POWERvalue=-,400

Log- likelihood

Function =-102,971835

POWERvalue=-,200

Log- likelihood

Function =-101,809499

POWERvalue=,000

Log- likelihood

Function =-100,759655

POWERvalue=,200

Log- likelihood

Function =-99,834344

POWERvalue=,400

Log- likelihood

Function =-99,046284

POWERvalue=,600

Log- likelihood

Function =-98,408623

POWERvalue=,800

Log- likelihood

Function =-97,934594

POWERvalue=1,000

Log- likelihood

Function =-97,637078

POWERvalue=1,200

Log- likelihood

Function =-97,528092

POWERvalue=1,400

Log- likelihood

Function =-97,618231

POWERvalue=1,600

Log- likelihood

Function =-97,916114

POWERvalue=1,800

Log- likelihood

Function =-98,427890

POWERvalue=2,000

The Value ofPOWER MaximizingLog-likelihood Function =1,400

Source variable 

ALTER

POWERvalue=:1,400

Dependent variable. . STAEDTE

Multiple R, 90081

R Square,81146

Adjusted R Square ,80650

Standard Error ,68669

Analysis of Variance :

DF Sum of Squares

Mean Square

Regression Residuals

1 77,121477 38 17,918483

77,121477 ,471539

P = 163,55269

Signif F = ,0000

-------

- — — Variables in the Equation —

- - - - -

- - -

Variable

В SE В Beta

Т

Sig Т

ALTER (Constant)

1,569996 ,122764 ,900813 -2,728584 ,840793

12,789 -3,245

,0000 ,0025

Log-likelihood

Function = -97,528092

The following

new variables are being created:

Name

Label

WGT_1

Weight for STAEDTE from WLS, MOD_

1 ALTER**

-1,400

Оптимальная степень оценивается при помощи логарифма функции правдоподобия; в данном случае максимальное значение получается при значении степени равном 1,4. Это значение используется для определения веса для каждого случая. К примеру, для трёхлетнего ребёнка вес равен

1/(31,4)=0,2148 

Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.


Новости

Информация

Ispss
Улица Новомосковская 36
500003 Екатеринбург

E-mail: inform@