Заметка

Линейный коэффициент корреляции. Его суть и возможности применения в трейдинге. Часть I.

  1  

Коллеги, добрый день!
В настоящей статье я хочу предложить вашему вниманию небольшое исследование, посвященное одному из статистических показателей – линейному коэффициенту корреляции. А также поделюсь некоторыми соображениями по его применению в трейдинге на примере акций Лукойла.

Данная статья разбита на две части:

Часть I. В первой части приведено общее описание понятия корреляции. Так же приведен пример исследования корреляционных эффектов на примере потока цен акций Лукойла LKOH на недельных свечах.

Часть II. Во второй части статьи приведен пример торговой стратегии, построенной на принципе корреляционного эффекта.

 

Общее описание понятия корреляции

 

Для начала позвольте небольшой экскурс в историю возникновения показателя корреляции  (да возблагодарим Википедию!):

Корреля?ция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Линейный коэффициент корреляции (далее ЛКК) (коэффициент корреляции Пирсона), который разработали Карл ПирсонФрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

Рис.1

Коэффициент корреляции изменяется в пределах [-1…+1].

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедениеагрохимиягидробиологиябиометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Итак, коллеги, ЛКК определяет:

  • во-первых, наличие связи между двумя потоками данных
  • во-вторых, силу этой связи (сила связи определяется приближением абсолютного значения ЛКК к единице)
  • в-третьих, направление этой связи (прямая – ЛКК больше единицы или обратная – ЛКК меньше единицы).

Важным и необходимым условием для расчета ЛКК является наличие двух одинаковых по количеству данных потоков данных. Так же в общем случае считается, что значения ЛКК можно считать достоверным, если в расчете участвует поток из более, чем 30 пар данных.

В Excel расчет значения ЛКК реализован через функцию «КОРРЕЛ()».

Пример наличия корреляции:

  • Положительная корреляция: температура окружающего воздуха и продажи летней одежды. Чем теплее на улице, тем больше покупаем летних вещей. Рост температуры – рост продаж.
  • Отрицательная корреляция: та же самая температура окружающего воздуха, но продажи уже зимней одежды. Чем холоднее на улице, тем больше покупаем зимних теплых вещей. Снижение температуры – рост продаж.

Примеры применения ЛКК в трейдинге.

            Области применения ЛКК в трейдинге достаточно широки.

Например, долго считалось, что при падении фондовых рынков в целом растет спрос на золото. То есть между динамикой фондовых рынков и динамикой цен на золото существует обратная корреляционная зависимость.

Другой пример. Рост котировок нефти и рост рынков, вес «нефтянки» в которых высок и является значимым. К таким рынкам относится и фондовый рынок  России.

Но в последние несколько лет, а именно в основном начиная с 2007 года, такие зависимости явно изменились. И либо сильно ослабли, либо исчезли совсем.

У приведенных выше примеров есть одна общая особенность: они построены строго на двух потоках данных, как того и требует формула расчета ЛКК.

Тем не менее, в одной из книг, посвященных теории управления капиталом (а именно, Р.Винс «Математика управления капиталом») я нашел интересный подход к построению ЛКК на массиве, состоящем только из одного потока данных. Это может быть, например, непрерывный поток исходов в системных сделках или поток цен какой-то одной акции. О таком методе построения ЛКК ниже.

Построение ЛКК на единственном потоке данных. Принципы и интерпретация результатов.

 

            Итак, давайте исследуем, например, поток цен на акции Лукойла (LKOH). Составим поток из недельных свечей. Мне удалось найти архив, начиная с 01.01.2001 и по сей день, то есть поток из почти 600 недельных свечей за десять с половиной лет.

            Исследовать будем не свечи в целом, а, например, максимальные цены в каждой свечей. Таким образом, перед нами непрерывный поток из 600 данных – максимальные цены в каждой торговой неделе, начиная с 01 января 2001 года. Кроме этих данных, пока никакие другие данные нам не нужны. 

Рис.2.

            На рис.2. показана динамика максимальных недельных цен в акциях LKOH.

            Расчет ЛКК должен дать ответы на вопросы:

  1. Есть ли зависимость между максимальными ценами двух любых соседних недель.
  2. Если зависимость есть, то какова ее направленность?

Коллеги, если упростить, то вопрос можно сформулировать так:

Если на истекшей неделе Лукойл обновил свой недельный максимум по сравнению с предыдущей неделей, то можем ли мы ожидать продолжения роста и на будущей неделе?

Для расчета ЛКК поток данных требует некоторой трансформации. Составим таблицу (см. рис. 3).

Рис.3

В таблице на рис.3 в последнем столбце, построенном на основе данных столбца «High цена», логика расчета следующая: если максимум текущей недели выше, чем максимум предыдущей недели, то в ячейке стоит значение 1. В противном случае значение равно 0. Таким образом, поток цен преобразован в поток единиц и нулей.

Далее произведем расчет ЛКК на основе данных столбца «Обновление High цены». Поскольку для расчета ЛКК необходимо два потока данных, то сделаем следующее:

Рис.4

            Как видно из рис.4, поток II «сдвинут» относительно потока I на один период. Таким образом, из одного потока данных получено два. И теперь смысл расчета ЛКК заключается в выяснении связи между двумя соседними значениями выборки. В нашем случае – максимальными ценами соседних недель (текущей и предыдущей).

            Теперь собственно по расчету ЛКК. Расчет произведем двумя способами:

  1. Охватим весь период выборки (600 недель).
  2. Начиная с 30й недели выборки (август 2001 года) для каждой недели рассчитаем значение ЛКК по последним 30 неделям. То есть для каждой недели рассчитаем т.н. «скользящее» значение ЛКК с периодом n=30 (по аналогии со скользящей средней), поскольку при n>30 в общем случае значение ЛКК считается значимым.

Результаты расчетов отражены на рис.5.

Рис.5

Выводы по рис.5:

На протяжении всего периода выборки у акций Лукойла наблюдается неярко выраженная положительная корреляция между максимальными ценами соседних недель (красная линия графика с ЛКК = +0,1). То есть факт обновления максимальной цены на текущей неделе по сравнению с предыдущей позволяет сделать предположение о том, что на следующей неделе в сравнении с текущей вероятность обновления максимума выше вероятности НЕобновления максимума.

ЛКК, построенное по последним 30 неделям (синяя линия на графике), изменяется в диапазоне от -0,35 (сильная отрицательная корреляция) до +0,6 (очень сильная положительная корреляция).

Самый продолжительный период, в течение которого корреляция между недельными максимумами была положительная – это период с мая 2004 года до августа 2007 года. В этот период обновление максимумов на прошлой неделе в большинстве случаев приводило к обновлению максимумов в течение текущей недели. Именно в этот период акции Лукойла агрессивно росли.

Самый продолжительный период, в течение которого корреляция между недельными максимумами была отрицательная – это период с августа 2007 года по июль 2011 года. В этот период недельной обновление максимумов на прошлой неделе в большинстве случаев не приводило к обновлению максимумов в течение текущей недели. И наоборот, НЕобновление недельных максимумов в течение текущей недели в большинстве случае приводило к росту на следующей неделе.  В этот период акции Лукойла «запилило» от максимумов весной 2008 года до низов в июле 2009 года.

В точках, где синяя линия находится выше красной, корреляция между недельными максимумами выше средней за период и имеет прямую направленность. В таких точках при обновлении недельных максимумов на текущей неделе наиболее вероятно обновление максимумов в течение следующей недели.

В точках, где синяя линия находится ниже красной, корреляция между недельными максимумами ниже средней за период и имеет в основном обратную направленность. В таких точках, в отличие от ситуации п.5, наиболее вероятно обновление максимумов в течение следующей недели при НЕобновлении недельных максимумов текущей недели.

Коллеги, на основании последних двух выводов у меня сформировалась идея тестирования стратегии, построенной на принципах такого парного корреляционного эффекта.

Принципы стратегии и итоги ее тестирования я представляю на ваш суд во второй части статьи.

Удачи и благодарю за внимание! 

Комментарии

Николай Камынин — 5 сентября 2012 г.

Линейная корреляция над одним потоком называется автокорреляцией.
В статистике хорошо известно, читайте книги по анализу рядов их много, а не одна.

0 +

Николай Камынин — 5 сентября 2012 г.

Например, Р Отнес, Л Эноксон Прикладной анализ временных рядов Глава 7.Ковариация и свертка

1 +

k-132803 — 12 сентября 2012 г.

Не слишком ли большой тайм-фрейм? что бы скользящая ЛКК вышла за уровень 0,1 должна пройти не одна неделя роста, который можно упустить, руководствуясь данной методикой.

0 +

vsozonov — 12 сентября 2012 г.

дык описан просто пример. можно же и часовик так прогнать, и минутку, если угодно. я постарался максимально простить принцип входа в позу и сминимизировать время удержания позиции (одна свеча). а дальше каждый фонтанирует идеями как хочет

0 +

Написать комментарий

Чтобы написать комментарий, необходимо авторизоваться.

Написать администратору