Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.
Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .
Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.
Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:
Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.
Решение
. Присвоим ранги признаку Y и фактору X.
Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:
X | Y | ранг X, d x | ранг Y, d y | P | Q |
18.4 | 5.57 | 1 | 3 | 7 | 2 |
20.6 | 2.88 | 2 | 1 | 8 | 0 |
21.5 | 4.12 | 3 | 2 | 7 | 0 |
35.7 | 7.24 | 4 | 4 | 6 | 0 |
37.1 | 9.67 | 5 | 6 | 4 | 1 |
39.8 | 10.48 | 6 | 9 | 1 | 3 |
51.1 | 8.58 | 7 | 5 | 3 | 0 |
54.4 | 14.79 | 8 | 10 | 0 | 2 |
64.6 | 10.22 | 9 | 7 | 1 | 0 |
90.6 | 10.45 | 10 | 8 | 0 | 0 |
37 | 8 |
По упрощенным формулам:
где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475
Найдем критическую точку:
Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.
Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.
Решение
находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла
.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.
или
Решение
.
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:
X | Y | ранг X, d x | ранг Y, d y | P | Q |
38 | 292 | 1 | 2 | 8 | 1 |
50 | 302 | 2 | 4 | 6 | 2 |
52 | 366 | 3 | 7 | 3 | 4 |
54 | 312 | 4 | 5 | 4 | 2 |
59 | 359 | 5 | 6 | 3 | 2 |
61 | 398 | 6 | 8 | 2 | 2 |
66 | 401 | 7 | 9 | 1 | 2 |
70 | 298 | 8 | 3 | 1 | 1 |
71 | 283 | 9 | 1 | 1 | 0 |
73 | 413 | 10 | 10 | 0 | 0 |
29 | 16 |
По упрощенным формулам:
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:
где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:
Так как τ
Для вычисления коэффициента ранговой корреляции Кендалла r k необходимо ранжировать данные по одному из признаков в порядке возрастания и определить соответствующие ранги по второму признаку. Затем для каждого ранга второго признака определяется число последующих рангов, больших по величине, чем взятый ранг, и находится сумма этих чисел.
Коэффициент ранговой корреляции Кендалла определяется формулой
где R i – количество рангов второй переменной, начиная с i +1, величина которых больше чем величина i -ого ранга этой переменной.
Существуют таблицы процентных точек распределения коэффициента r k , позволяющие проверить гипотезу о значимости коэффициента корреляции.
При больших объемах выборки критические значения r k не табулируются, и их приходится вычислять по приближенным формулам, которые основаны на том, что при нулевой гипотезе H 0: r k =0 и больших n случайная величина
распределена приближенно по стандартному нормальному закону.
40. Зависимость между признаками, измеренными в номинальной или порядковой шкалах
Часто возникает задача проверки независимости двух признаков, измеренных в номинальной или порядковой шкалах.
Пусть у каких-то объектов измеряются два признака X и Y с числом уровней r и s соответственно. Результаты таких наблюдений удобно представлять в виде таблицы, называемой таблицей сопряженности признаков.
В таблице u i (i = 1, ..., r ) и v j (j = 1, ..., s ) – значения, принимаемые признаками, величина n ij – число объектов из общего числа объектов, у которых признак X принял значение u i , а признак Y – значение v j
Введем следующие случайные величины:
u i
– количество объектов, у которых встретилось значение v j
Кроме того, имеют место очевидные равенства
Дискретные случайные величины X и Y независимы тогда и только тогда, когда
для всех пар i , j
Поэтому гипотезу о независимости дискретных случайных величин X и Y можно записать так:
В качестве альтернативной, как правило, используют гипотезу
Судить о справедливости гипотезы H 0 следует на основании выборочных частот n ij таблицы сопряженности. В соответствии с законом больших чисел при n →∞ относительные частоты близки к соответствующим вероятностям:
Для проверки гипотезы H 0 используется статистика
которая при справедливости гипотезы имеет распределение χ 2 с rs − (r + s − 1) степенями свободы.
Критерий независимости χ 2 отклоняет гипотезу H 0 с уровнем значимости α, если:
41. Регрессионный анализ. Основные понятия регрессионного анализа
Для математического описания статистических связей между изучаемыми переменными величинами следует решить следующие задачи:
ü подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию интересующей зависимости;
ü найти оценки неизвестных значений параметров, входящих в уравнения искомой зависимости;
ü установить адекватность полученного уравнения искомой зависимости;
ü выявить наиболее информативные входные переменные.
Совокупность перечисленных задач и составляет предмет исследований регрессионного анализа.
Функцией регрессии (или регрессией) называется зависимость математического ожидания одной случайной величины от значения, принимаемого другой случайной величиной, образующей с первой двумерную систему случайных величин.
Пусть имеется система случайных величин (X ,Y ), то функция регрессии Y на X
А функция регрессии X на Y
Функции регрессии f (x ) и φ (y ), не являются взаимно обратимыми, если только зависимость между X и Y не является функциональной.
В случае n -мерного вектора с координатами X 1 , X 2 ,…, X n можно рассматривать условное математическое ожидание для любой компоненты. Например, для X 1
называется регрессией X 1 на X 2 ,…, X n .
Для полного определения функции регрессии необходимо знать условное распределение выходной переменной при фиксированных значениях входной переменной.
Поскольку в реальной ситуации такой информацией не располагают, то обычно ограничиваются поиском подходящей аппроксимирующей функции f a (x ) для f (x ), основываясь на статистических данных вида (x i , y i ), i = 1,…, n . Эти данные являются результатом n независимых наблюдений y 1 ,…, y n случайной величины Y при значениях входной переменной x 1 ,…, x n , при этом в регрессионном анализе предполагается, что значения входной переменной задаются точно.
Проблема выбора наилучшей аппроксимирующей функции f a (x ), являясь основной в регрессионном анализе, и не имеет формализованных процедур для своего решения. Иногда выбор определяется на основе анализа экспериментальных данных, чаще из теоретических соображений.
Если предполагается, что функция регрессии является достаточно гладкой, то аппроксимирующая ее функция f a (x ) может быть представлена в виде линейной комбинации некоторого набора линейно независимых базисных функций ψ k (x ), k = 0, 1,…, m −1, т. е. в виде
где m – число неизвестных параметров θ k (в общем случае величина неизвестная, уточняемая в ходе построения модели).
Такая функция является линейной по параметрам, поэтому в рассматриваемом случае говорят о модели функции регрессии, линейной по параметрам.
Тогда задача отыскания наилучшей аппроксимации для линии регрессии f (x ) сводится к нахождению таких значений параметров, при которых f a (x ;θ) наиболее адекватна имеющимся данным. Одним из методов позволяющем решить эту задачу является метод наименьших квадратов.
42. Метод наименьших квадратов
Пусть множество точек (x i , y i ), i = 1,…, n расположено на плоскости вдоль некоторой прямой
Тогда в качестве функции f a (x ), аппроксимирующей функцию регрессии f (x ) = M [Y |x ] естественно взять линейную функцию аргумента x :
Т. е. в качестве базисных функций здесь выбраны ψ 0 (x )≡1 и ψ 1 (x )≡x . Такую регрессию называют простой линейной регрессией.
Если множество точек (x i , y i ), i = 1,…, n расположено вдоль некоторой кривой, то в качестве f a (x ) естественно попробовать выбрать семейство парабол
Эта функция является нелинейной по параметрам θ 0 и θ 1 , однако путем функционального преобразования (в данном случае логарифмирования) ее можно привести к новой функции f’ a (x ) , линейной по параметрам:
43. Простая линейная регрессия
Простейшей моделью регрессии является простая (одномерная, однофакторная, парная) линейная модель, имеющая следующий вид:
где ε i – некоррелированные между собой случайные величины (ошибки), имеющие нулевые математические ожидания и одинаковые дисперсии σ 2 , a и b – постоянные коэффициенты (параметры), которые необходимо оценить по измеренным значениям отклика y i .
Для нахождения оценок параметров a и b линейной регрессии, определяющих наиболее удовлетворяющую экспериментальным данным прямую линию:
применяется метод наименьших квадратов.
Согласно методу наименьших квадратов оценки параметров a и b находят из условия минимизации суммы квадратов отклонений значений y i по вертикали от “истинной” линии регрессии:
Пусть было произведено десять наблюдений случайной величины Y при фиксированных значениях переменной X
Для минимизации D приравняем к нулю частные производные по a и b :
В результате получим следующую систему уравнений для нахождения оценок a и b :
Решение этих двух уравнений дает:
Выражения для оценок параметров a и b можно представить также в виде:
Тогда эмпирическое уравнение регрессионной прямой Y на X можно записать в виде:
Несмещенная оценка дисперсии σ 2 отклонений значений y i oт подобранной прямой линии регрессии дается выражением
Рассчитаем параметры уравнения регрессии
Таким образом, прямая регрессии имеет вид:
А оценка дисперсии отклонений значений y i oт подобранной прямой линии регрессии
44. Проверка значимости линии регрессии
Найденная оценка b ≠ 0 может быть реализацией случайной величины, математическое ожидание которой равно нулю, т. е. может оказаться, что никакой регрессионной зависимости на самом деле нет.
Чтобы разобраться с этой ситуацией, следует проверить гипотезу Н 0: b = 0 при конкурирующей гипотезе Н 1: b ≠ 0.
Проверку значимости линии регрессии можно провести с помощью дисперсионного анализа.
Рассмотрим следующее тождество:
Величина y i − ŷ i = ε i называется остатком и представляет собой разность между двумя величинами:
ü отклонением наблюдаемого значения (отклика) от общего среднего откликов;
ü отклонением предсказанного значения отклика ŷ i от того же среднего
Записанное тождество можно записать в виде
Возведя обе его части в квадрат и просуммировав по i , получим:
Где величины получили название:
полной (общей) суммой квадратов СК п, которая равна сумме квадратов отклонений наблюдений относительно среднего значения наблюдений
сумма квадратов, обусловленной регрессией СК р, которая равна сумме квадратов отклонений значений линии регрессии относительно среднего наблюдений.
остаточная сумма квадратов СК 0 . которая равна сумме квадратов отклонений наблюдений относительно значений линии регрессии
Таким образом, разброс Y -ков относительно их среднего значения можно приписать в некоторой степени тому факту, что не все наблюдения лежат на линии регрессии. Если бы это было так, то сумма квадратов относительно регрессии была бы равна нулю. Отсюда следует, что регрессия будет значимой, если сумма квадратов СК р будет больше суммы квадратов СК 0 .
Вычисления по проверки значимости регрессии проводят в следующей таблице дисперсионного анализа
Если ошибки ε i распределены по нормальному закону, то при справедливости гипотезы Н 0: b = 0 статистика:
распределена по закону Фишера с числом степеней свободы 1 и n −2.
Нулевая гипотеза будет отклонена на уровне значимости α, если вычисленное значение статистики F будет больше α-процентной точки f 1;n −2;α распределения Фишера.
45. Проверка адекватности модели регрессии. Метод остатков
Под адекватностью построенной регрессионной модели понимается то, что никакая другая модель не дает значимого улучшения в предсказании отклика.
Если все значения откликов получены при разных значениях x , т. е. нет нескольких значений отклика, полученных при одинаковых x i , то можно провести лишь ограниченную проверку адекватности линейной модели. Основой для такой проверки являются остатки:
Отклонения от установленной закономерности:
Поскольку X – одномерная переменная, точки (x i , d i ) можно изобразить на плоскости в виде так называемого графика остатков. Такое представление позволяет иногда обнаружить в поведении остатков какую-то закономерность. Кроме того, анализ остатков позволяет проанализировать предположение относительно закона распределения ошибок.
В случае когда ошибки распределены по нормальному закону и имеется априорная оценка их дисперсии σ 2 (оценка, полученная на основе ранее выполненных измерений), то возможна более точная оценка адекватности модели.
С помощью F -критерия Фишера можно проверить, значимо ли остаточная дисперсия s 0 2 отличается от априорной оценки. Если она значимо больше, то имеет место неадекватность и следует пересмотреть модель.
Если априорной оценки σ 2 нет, но измерения отклика Y повторялись два или более раз при одинаковых значениях X , то эти повторные наблюдения можно использовать для получения еще одной оценки σ 2 (первой является остаточная дисперсия). Про такую оценку говорят, что она представляет “чистую” ошибку, поскольку, если сделать x одинаковыми для двух и более наблюдений, то только случайные изменения могут повлиять на результаты и создавать разброс между ними.
Получаемая оценка оказывается более надежной оценкой дисперсии, чем оценка, получаемая другими способами. По этой причине при планировании экспериментов имеет смысл ставить опыты с повторениями.
Предположим, что имеется m различных значений X : x 1 , x 2 , ..., x m . Пусть для каждого из этих значений x i имеется n i наблюдений отклика Y . Всего наблюдений получается:
Тогда модель простой линейной регрессии может быть записана в виде:
Найдем дисперсию “чистых” ошибок. Эта дисперсия представляет собой объединенную оценку дисперсии σ 2 , если представить значения откликов y ij при x = x i как выборки объема n i . В результате дисперсия “чистых” ошибок равна:
Эта дисперсия служит оценкой σ 2 безотносительно к тому, корректна ли подобранная модель.
Покажем, что сумма квадратов “чистых ошибок” является частью остаточной суммы квадратов (суммы квадратов, входящей в выражение для остаточной дисперсии). Остаток для j -ого наблюдения при x i можно записать в виде:
Если возвести обе части этого равенства в квадрат, а затем просуммировать их по j и по i , то получим:
Слева в этом равенстве стоит остаточная сумма квадратов. Первый член в правой части – это сумма квадратов “чистых” ошибок, второй член можно назвать суммой квадратов неадекватности. Последняя сумма имеет m −2 степеней свободы, следовательно, дисперсия неадекватности
Статистикой критерия для проверки гипотезы H 0: простая линейная модель адекватна, против гипотезы H 1: простая линейная модель неадекватна, является случайная величина
При справедливости нулевой гипотезы величина F имеет распределение Фишера со степенями свободы m −2 и n −m . Гипотеза линейности линии регрессии должна быть отвергнута с уровнем значимости α, если полученное значение статистики больше α-процентной точки распределения Фишера с числом степеней свободы m −2 и n −m .
46. Проверка адекватности модели регрессии(см 45). Дисперсионный анализ
47. Проверка адекватности модели регрессии (см 45). Коэффициент детерминации
Иногда для характеристики качества линии регрессии используют выборочный коэффициент детерминации R 2 , показывающий, какую часть (долю) сумма квадратов, обусловленная регрессией, СК р составляет в полной сумме квадратов СК п:
Чем ближе R 2 к единице, тем лучше регрессия аппроксимирует экспериментальные данные, тем теснее наблюдения примыкают к линии регрессии. Если R 2 = 0, то изменения отклика полностью обусловлены воздействием неучтенных факторов, и линия регрессии параллельна оси x -ов. В случае простой линейной регрессии коэффициент детерминации R 2 равен квадрату коэффициента корреляции r 2 .
Максимальное значение R 2 =1 может быть достигнуто только в случае, когда наблюдения проводились при различных значениях x-ов. Если же в данных имеются повторяющиеся опыты, то величина R 2 не может достичь единицы, как бы ни была хороша модель.
48. Доверительные интервалы для параметров простой линейной регрессии
Подобно тому как выборочное среднее - это оценка истинного среднего (среднего по совокупности), так и выборочные параметры уравнения регрессии a и b - не более чем оценки истинных коэффициентов регрессии. Разные выборки дают разные оценки среднего - точно так же разные выборки будут давать разные оценки коэффициентов регрессии.
В предположении, что закон распределения ошибок ε i описываются нормальным законом, оценка параметра b будет иметь нормальное распределение с параметрами:
Поскольку оценка параметра a представляет собой линейную комбинацию независимых нормально распределенных величин, она также будет иметь нормальное распределение с математическим ожиданием и дисперсией:
При этом (1 − α) доверительный интервал для оценки дисперсии σ 2 с учетом того, что отношение (n −2)s 0 2 /σ 2 распределено по закону χ 2 с числом степеней свободы n −2 будет определяться выражением
49. Доверительные интервалы для линии регрессии. Доверительный интервал для значений зависимой переменной
Обычно мы не знаем истинных величин коэффициентов регрессии а и b . Нам известны только их оценки. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную область и для самой линии регрессии.
Пусть для простой линейной регрессии нужно построить (1−α ) доверительный интервал для математического ожидания отклика Y при значении х = х 0 . Это математическое ожидание равно a +bх 0 , а его оценка
Поскольку, то.
Полученная оценка математического ожидания представляет собой линейную комбинацию некоррелированных нормально распределенных величин и поэтому тоже имеет нормальное распределение с центром в точке истинного значения условного математического ожидания и дисперсией
Поэтому доверительный интервал для линии регрессии при каждом значении x 0 можно представить в виде
Как видно минимальный доверительный интервал получается при x 0 равному среднему значению и возрастает по мере того, как x 0 “удаляется” от среднего в любом направлении.
Для получения множества совместных доверительных интервалов, пригодных для всей функции регрессии, на всем ее протяжении, в приведенное выше выражении вместо t n −2,α /2 необходимо подставить
КЕНДАЛЛА КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ
Одна из выборочных мер зависимости двух случайных величин (признаков) Xи Y, основанная на ранжировании элементов выборки (X 1 , Y x ), .. ., ( Х п, Y n ). К. к. р. к. относится, таким образом, к ранговым статистикам и определяется формулой
где r i - У, принадлежащего той паре (X, Y ), для к-рой Xравен i, S = 2N -(п-1)/2, N-число элементов выборки, для к-рых одновременно j>i и r j >r i . Всегда В качестве выборочной меры зависимости К. к. р. к. широко использовался М. Кендаллом (М. Kendall, см. ).
К. к. р. к. применяется для проверки гипотезы независимости случайных величин. Если гипотеза независимости верна, то E t =0 и D t =2(2n+5)/9n(n-1). При небольшом объеме выборки проверка статистич. гипотезы независимости производится с помощью специальных таблиц (см. ). При n>10 пользуются нормальным приближением для распределения т: если
то гипотеза о независимости отвергается, в противном случае принимается. Здесь a. - уровень значимости, u a /2 есть процентная точка нормального распределения. К. к. р. к., как и любая , может использоваться для обнаружения зависимости двух качественных признаков, если только элементы выборки можно упорядочить относительно этих признаков. Если X, Y имеют совместное нормальное с коэффициентом корреляции р, то связь между К. к. р. к. и имеет вид:
См. также Спирмена ранговой корреляции, Ранговый критерий.
Лит. : Кендэл М., Ранговые корреляции, пер. с англ., М., 1975; Ван дер Варден Б. Л., Математичеcкая , пер. с нем., М., 1960; Большев Л. Н., Смирнов Н. В., Таблицы математической статистики, М., 1965.
А. В. Прохоров.
Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .
Смотреть что такое "КЕНДАЛЛА КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ" в других словарях:
Англ. со efficient, rank correlation Kendall; нем. Kendalls Rangkorrelationskoeffizient. Коэффициент корреляции, определяющий степень соответствия упорядочения всех пар объектов по двум переменным. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии
КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ КЕНДАЛЛА - англ. соefficient, rank correlation Kendall; нем. Kendalls Rangkorrelationskoeffizient. Коэффициент корреляции, определяющий степень соответствия упорядочения всех пар объектов по двум переменным … Толковый словарь по социологии
Мера зависимости двух случайных величин (признаков) Xи Y, основанная на ранжировании независимых результатов наблюдений (X1, Y1), . . ., (Xn,Yn). Если ранги значений Xрасположены в естественном порядке i=1, . . ., п,a Ri ранг Y, соответствующий… … Математическая энциклопедия
Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора
Зависимость между случайными величинами, не имеющая, вообще говоря, строго функционального характера. В отличие от функциональной зависимости К., как правило, рассматривается тогда, когда одна из величин зависит не только от данной другой, но и… … Математическая энциклопедия
Корреляция (корреляционная зависимость) статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или… … Википедия
Корреляция - (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора
Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п», было положено в первом десятилетии XX века публикацией работы У. Госсета, в к рой он поместил t распределение, постулированное получившим чуть позже мировую… … Психологическая энциклопедия
Морис Кендалл Sir Maurice George Kendall Дата рождения: 6 сентября 1907(1907 09 06) Место рождения: Кеттеринг, Великобритания Дата смерти … Википедия
Прогноз - (Forecast) Определение прогноза, задачи и принципы прогнозирования Определение прогноза, задачи и принципы прогнозирования, методы прогнозирования Содержание Содержание Определение Основные понятия прогностики Задачи и принципы прогнозирования… … Энциклопедия инвестора
Для вычисления коэффициента Кендалла значения факторного признака предварительно ранжируют, то есть ранги по Х записывают строго в порядке возрастания количественных значений.
1) Для каждого ранга по Y находят общее количество следующих за ним рангов, больших по значению, чем данный ранг. Общее количество таких случаев учитывают со знаком “+” и обозначают P.
2) Для каждого ранга по Y определяют количество следующих за ним рангов, меньших по значению, чем данный ранг. Общее количество таких случаев учитывают со знаком “-” и обозначают Q.
3) Рассчитывают S=P+Q=9+(-1)=8
4) Коэффициент Кенделла вычисляют по формуле:
Коэффициент Кенделла может принимать значения от -1 до +1 и чем ближе к , тем сильнее связь между признаками.
В некоторых случаях для определения направления связи между двумя признаками вычисляют коэффициент Фехнера . Этот коэффициент основан на сравнении поведения отклонений индивидуальных значений факторного и результативного признаков от своей средней величины. Коэффициент Фехнера вычисляют по формуле:
; где сумма С - общее число совпадений знаков отклонений, сумма Н - общее число несовпадений знаков отклонений.
1) Вычисляют среднюю величину факторного признака:
2) Определяют знаки отклонений индивидуальных значений факторного признака от средней величины.
3) Рассчитывают среднюю величину результативного признака: .
4) Находят знаки отклонений индивидуальных значений результативного признака от средней величины:
Вывод : связь прямая, о тесноте связи коэффициент не говорит.
Для определения степени тесноты связи между тремя ранжированными признаками вычисляют коэффициент конкордации. Он рассчитывается по формуле:
, где m - число ранжированных признаков; n - число ранжированных единиц наблюдения.
Отрасли промышленности | X1 | X2 | X3 | R1 | R2 | R3 | ||
Электроэнергетика | 7,49 | |||||||
Топливная | 12,70 | |||||||
Черная М. | 5,92 | |||||||
Цветная М. | 9,48 | |||||||
Машиностроение | 4,18 | |||||||
Итог: |
X1 - число работников (тыс. чел.); X2 - объем промышленных продаж (млрд. руб.); X3 - среднемесячная зарплата.
1) Значения всех признаков ранжируем и ранги устанавливаем строго в порядке возрастания количественных значений.
2) По каждой строке определяют сумму рангов. По этому столбцу вычисляется итоговая строка.
3) Вычисляют .
4) По каждой строке находят квадраты отклонений сумм рангов и величин Т. По этому же столбцу рассчитаем итоговую строку, которую обозначим через S. Коэффициент конкордации может принимать значения от 0 до 1 и чем ближе к 1, тем сильнее связь между признаками.
Одним из факторов, ограничивающих применения критериев, основанных на предположении нормальности, является объем выборки. До тех пор пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если вы не уверены, что распределение переменной в популяции является нормальным. Тем не менее, если выборка мала, эти критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако нет способа проверить это предположение на малой выборке.
Использование критериев, основанных на предположении нормальности, кроме того, ограничено шкалой измерений (см. главу Элементарные понятия анализа данных). Такие статистические методы, как t-критерий, регрессия и т. д. предполагают, что исходные данные непрерывны. Однако имеются ситуации, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно.
Типичный пример дают рейтинги сайтов в Интернет: первую позицию занимает сайт с максимальным числом посетителей, вторую позицию занимает сайт с максимальным числом посетителей среди оставшихся сайтов (среди сайтов, из которых удален первый сайт) и т. д. Зная рейтинги, мы можем сказать, что число посетителей одного сайта больше числа посетителей другого, но насколько больше, сказать уже нельзя. Представьте, вы имеете 5 сайтов: А, В, С, D, Е, которые располагаются на 5 первых мест. Пусть в текущем месяце мы имели следующую расстановку: А, В, С, D, E, а в предыдущем месяце: D, E, А, В, С. Спрашивается, произошли существенные изменения в рейтингах сайтов или нет? В данной ситуации, очевидно, мы не можем использовать t-критерий, чтобы сравнить эти две группы данных, и переходим в область специфических вероятностных вычислений (а любой статистический критерий содержит в себе вероятностную калькуляцию!). Мы рассуждаем примерно следующим образом: насколько велика вероятность того, что отличие в двух расстановках сайтов вызвано чисто случайными причинами или это отличие слишком велико и не может быть объяснено за счет чистой случайности. В этих рассуждениях мы используем лишь ранги или перестановки сайтов и никак не используем конкретный вид распределения числа посетителей на них.
Для анализа малых выборок и для данных, измеренных в бедных шкалах, применяют непараметрические методы.
Краткий обзор непараметрических процедур
По существу, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива.
В общем, эти процедуры попадают в одну из следующих категорий:
- критерии различия для независимых выборок;
- критерии различия для зависимых выборок;
- оценка степени зависимости между переменными.
Вообще, подход к статистическим критериям в анализе данных должен быть прагматическим и не отягощен лишними теоретическими рассуждениями. Имея в своем распоряжении компьютер с системой STATISTICA, вы легко примените к своим данным несколько критериев. Зная о некоторых подводных камнях методов, вы путем экспериментирования выберете верное решение. Развитие сюжета довольно естественно: если нужно сравнить значения двух переменных, то вы используете t-критерий. Однако следует помнить, что он основан на предположении нормальности и равенстве дисперсий в каждой группе. Освобождение от этих предположений приводит к непараметрическим тестам, которые особенно полезны для малых выборок.
Развитие t-критерия приводит к дисперсионному анализу, который используется, когда число сравниваемых групп больше двух. Соответствующее развитие непараметрических процедур приводит к непараметрическому дисперсионному анализу, правда, существенно более бедному, чем классический дисперсионный анализ.
Для оценки зависимости, или, выражаясь несколько высокопарно, степени тесноты связи, вычисляют коэффициент корреляции Пирсона. Строго говоря, его применение имеет ограничения, связанные, например, с типом шкалы, в которой измерены данные, и нелинейностью зависимости, поэтому в качестве альтернативы используются также непараметрические, или так называемые ранговые, коэффициенты корреляции, применяемые, например, для ранжированных данных. Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий хи-квадрат Пирсона с различными вариациями и поправками на точность.
Итак, по существу имеется всего несколько типов критериев и процедур, которые нужно знать и уметь использовать в зависимости от специфики данных. Вам нужно определить, какой критерий следует применять в конкретной ситуации.
Непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, n >100), часто не имеет смысла использовать непараметрическую статистику.
Если размер выборки очень мал (например, n = 10 или меньше), то уровни значимости для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.
Различия между независимыми группами . Если имеются две выборки (например, мужчины и женщины), которые нужно сравнить относительно некоторого среднего значения, например, среднего давления или количества лейкоцитов в крови, то можно использовать t-тест для независимых выборок.
Непараметрическими альтернативами этому тесту являются критерий серий Валъда-Волъфовица, Манна-Уитни }/n, где x i - i-е значение, n - число наблюдений. Если переменная содержит отрицательные значения или нуль (0), геометрическое среднее вычислить нельзя.
Гармоническое среднее
Гармоническое среднее иногда используют для усреднения частот. Гармоническое среднее вычисляется по формуле: ГС = n/S(1/х i) где ГС - гармоническое среднее, n - число наблюдений, х i - значение наблюдения с номером i. Если переменная содержит нуль (0), гармоническое среднее вычислить нельзя.
Дисперсия и стандартное отклонение
Выборочная дисперсия и стандартное отклонение - наиболее часто используемые меры изменчивости (вариации) данных. Дисперсия вычисляется как сумма квадратов отклонений значений переменной от выборочного среднего, деленная на п-1 (но не на п). Стандартное отклонение вычисляется как корень квадратный из оценки дисперсии.
Размах
Размах переменной является показателем изменчивости, вычисляется как максимум минус минимум.
Квартильный размах
Квартальный размах, по определению, равен: верхняя квартиль минус нижняя квартиль (75% процентиль минус 25% процентиль). Так как 75% процентиль (верхняя квартиль) - это значение, слева от которого находятся 75% наблюдений, а 25% процентиль (нижняя квартиль) - это значение, слева от которого находится 25% наблюдении, то квартильный размах представляет собой интервал вокруг медианы, который содержит 50% наблюдений (значений переменной).
Асимметрия
Асимметрия - это характеристика формы распределения. Распределение скошено влево, если значение асимметрии отрицательно. Распределение скошено вправо, если асимметрия положительна. Асимметрия стандартного нормального распределения равна 0. Асимметрия связана с третьим моментом и определяется как: асимметрия = n × М 3 /[(n-1) × (n-2) × s 3 ], где М 3 равно: (х i -xсреднее x) 3 , s 3 - стандартное отклонение, возведенное в третью степень, n - число наблюдений.
Эксцесс
Эксцесс - это характеристика формы распределения, а именно мера остроты его пика (относительно нормального распределения, эксцесс которого равен 0). Как правило, распределения с более острым пиком, чем у нормального, имеют положительный эксцесс; распределения, пик которых менее острый, чем пик нормального распределения, имеют отрицательный эксцесс. Эксцесс связан с четвертым моментом и определяется формулой:
эксцесс = /[(n-1) × (n-2) × (n-3) × s 4 ], где M j равно: (х-хсреднее x , s 4 - стандартное отклонение в четвертой степени, n - число наблюдений.