Заметка

Построение трендов по точечным данным. Уровень достоверности аппроксимации R2. Опыты со случайными выборками и применение к анализу цен на фондовом рынке.

  3  

Коллеги, доброго дня!

В настоящей статье я предлагаю вам свое видение такого статистического параметра как уровень достоверности аппроксимации R2. А также предлагаю развить тему применения этого параметра к анализу движений цен акций на российском фондовом рынке.

В целом эта статья развивает идеи статьи «Поведение акций Газпрома после дивидендной отсечки. Статистика 2006-2011 гг.» от 26.04.2012.

В своем посте от 26 апреля, посвященному анализу поведения акций Газпрома (адрес статьи — http://robostroy.ru/community/article.aspx?id=311) я позволил себе сделать прогноз «дна» цен на акции Газпрома в периоде от отсечки 10.05.2012 года до следующей отсечки весной 2013 года. На момент публикации статьи акции Газпрома торговались в районе 165 руб.

Вот этот прогноз:

«….Выходим на уровень просадки в 60% от уровня отсечки 12.05.2006 года, то есть 320,20 руб. х (1 — 0,6) = 128,08 руб., или почти -21%...-22% от минимумов по состоянию на  24.04.2012 года. Ожидаемый период такой просадки – с июня по сентябрь 2012 года включительно. Причем исходя из профиля тренда, то же уровень просадки – 128 руб. – получится и в том случае, если Газпром «отсечется» на текущих уровнях 163-167 руб.

Коллеги, мне самому сегодня не очень верится, что Газпром может в течение 2012 года сходить на 128 руб. Но теперь я вижу, что в таком походе, если он состоится, будет четкая математическая закономерность. Именно математическая, не фундаментальная или еще какая-нибудь

Расчет уровня 128 руб. был выполнен на основе выборки по точечному распределению пар данных за период 2006-2011гг. и построенному по этой выборке тренду – полиному 4го порядка.

Данные использованы такие:

  • Цена отсечки соответствующего года
  • Минимум цены соответствующе года

Позднее (статья, напомню, опубликована 26 апреля), по факту цены отсечки от 10.05.2012 (165 руб.), а также исходя из параметров полинома я уточнил расчетный уровень «дна» для Газпрома. У меня получилось 132,50 руб.

На днях — 24 мая, т.е. всего через две недели от отсечки — Газпром «свозили» на уровень 136,54 руб., то есть цена не дотянула до расчетной цели всего 4 рубля (или 3%).

Повторю графическое изображение полученного тренда по Газпрому из статьи от 26 апреля:

Рис.1

На рисунке 1 построен тренд, который отражает зависимость минимальной цены акций Газпрома от цены отсечки соответствующего года. Уровень просадки приведен не в рублях, а в процентах к цене отсечки 12.05.2006 года, которая принята за точку отчета.

Построенное по Газпрому уравнение тренда-полинома имеет уровень достоверности аппроксимации R2 = 0,9934. Поскольку такое значение говорит о сильной взаимосвязи анализируемых пар данных, то в связи с этим мне стало интересно, насколько уже практически состоявшееся совпадение расчетной и фактической целей (с точностью до 3%) можно считать случайным.

Что же такое этот уровень достоверности аппроксимации R2?

Само значение коэффициента находится в интервале [0…1]. И если по-простому, то чем ближе значение R2 к единице, то тем сильнее связь между данными, по которым строится тренд. И наоборот, чем ближе значение к нулю, тем слабее связь.

В Excel тренды строятся с помощью встроенных функций диаграмм. Нахождение значения R2 и параметров уравнения тренда так же является встроенной функцией диаграмм. Вообще, насколько я знаю, методом нахождения R2 в Excel является МНК – т.н. метод наименьших квадратов. В более глубокие подробности давайте не вдаваться.   

            Приведу пару примеров выборок с незначимым и значимым уровнями R2.

Для начала выборка со слабой взаимосвязью между данными (данные для выборки взяты случайным образом):

Рис.2

Полагаю, что комментарии к рисунку особо не нужны. Все видно на рисунке.

Теперь рисунок, где взаимосвязь между данными имеет противоположный вид (данные для выборки взяты случайным образом):

 Рис.3

В данном случае поле выборки расположено гораздо ближе к своему тренду, чем на рисунке выше.

В исследовании такой вот «близости» и заключается смысл коэффициента R2.

А в случае с Газпромом, напомню, значение R2 = 0,9934. 

Опыт – сын ошибок трудных

Я решил проверить, насколько случайным явился тот факт, что взятые определенным образом данные по Газпрому в периоде 2006-2011 гг. легли в тренд с достоверным уровнем аппроксимации R2 = 0,9934.

А проверить решил следующим образом: провел серию из 200 расчетов трендов для выборок из 6 пар случайных чисел. То есть через все тот же Excel взял и составил  с помощью функции случайного числа «СЛЧИС()» 6 пар чисел. Затем составил по ним график точечного распределения, наложил на график тренд – полином 4го порядка и получил для этого полинома значение R2. И так 200 раз подряд. Значение R2 каждый раз заносил в таблицу.

Вот пример одного из вариантов выборок:

Рис.4

В результате я получил поток из 200 значений R2 и сгруппировал эти данные в интервалы с шагом 0,05: [0,0;0,05], (0,05;0,10]; (0,10;0,15]…. (0,95;1,0]. Графически это выглядит так:

Рис.5

Получается, что из 200 опытов в каждом третьем (35%) случае получился результат с аппроксимацией от 0,95 до 1,0. Из них в 15,5% случаев (в среднем каждый шестой-седьмой опыт) аппроксимация более 0,99. А у Газпрома 0,9934. Выходит, что примерная вероятность случайного совпадения для Газпрома находится в пределах 16%. Много это или мало, судить не берусь. Причем примерно такое же частотное распределение исходов получилось и в первой, и во второй сотне опытов. Поэтому я решил не увеличивать количество опытов до, например, 500 или даже до 1000.

Но факты – штука упрямая. Все-таки Газпром уже был на своем расчетном дне с точностью до 3%. Вдруг до следующей отсечки и 132,50 руб. увидим? В 2011 году вообще котировку увели на 10% ниже расчетной – расчетный минимум 2011 года был в районе 154 рубля (фактически достигнут в августе 2011 года), а абсолютный минимум был в октябре 2011 года – 139,40 руб., что почти на 10% ниже расчета.

….Ну ладно, с Газпромом пока закончим.

Сбербанк, Лукойл, Сургутнефтегаз привилегированный

Расчеты, подобные расчетам по Газпрому, я сделал и по некоторым другим фишкам. В частности, по Сбурбанку, Лукойлу и Сургутнефтегазу привилегированному.

Не буду вас утомлять полученными уровнями минимумов по этим бумагам, чтобы не пугать перспективами индекса ММВБ в целом. Кому интересны ценовые ориентиры – пишите в личку. Сейчас скажу об алгоритме расчета.

Отличия расчетов в этих бумагах заключаются в том, что в каждой из них выборка больше, чем у Газпрома, а значит при обнаружении сильной взаимосвязи, подобной полученной в данных Газпрома, степень вероятности случайного совпадения обязана быть меньше. В Сбербанке и Лукойле выборка по 9 лет (9 пар данных с 2002 года), а в Сургуте (прив) – 7 лет (7 пар данных с 2005 года). В Газпроме всего 6 пар данных с 2006 года.

В таблице ниже приведены данные по выборкам в каждой бумаге с расчетным значением R2. Данные для выборок – цены отсечек и минимальные цены соответствующих лет (то есть исследуем зависимость годового минимума от цены отсечки соответствующего года). Тип тренда для всех бумаг построен один и тот же – полином 4го порядка.

Таблица 1

Бумага

Период выборки

Количество пар данных

Значение R2 в тренде-полиноме 4го порядка

GAZP

2006-2011

6

0,9934

SBER

2002-2011

9

0,9828

LKOH

2002-2011

9

0,9884

SNGSP

2005-2011

7

0,9500

Чтобы оценить степень вероятности случайного совпадения итогов расчетов по этим бумагам, я провел те же опыты, что и с выборками по 6 случайных пар, только для 7, 8 и 9 пар соответственно, — серии опытов по 200 расчетов.

Итоги этих опытов в таблице ниже:

Таблица 2

Желтым цветом выделены диапазоны частот значений R2, в которые попадают  фактические значения R2 трендов Газпрома, Сбербанка, Лукойла и Сургутнефтегаза (прив).

Для визуального представления привожу частотное распределение для выборок из 9 случайных чисел (как у Сбербанка и Лукойла):

Рис.6

Выводы:

  1. Сбербанк и Лукойл. Уровни R2 больше 0.98 на тренде из 9 пар точек – между ценой отсечки и минимумом соответствующего года очень сильная связь. Поскольку в проведенных опытах со случайными выборками ни разу не получен результат R2 > 0.98, то получается, что в таком случае вероятность случайного совпадения для данных Сбербанка и Лукойла нулевая либо очень мала.
  2. Газпром.  Уровеиь R2 больше 0,99 на тренде из 6 пар точек — между ценой отсечки и минимумом соответствующего года очень сильная связь — по состоянию на 29.05.2012 фактический минимум цены совпал с расчетным с точностью до 3%. Поскольку в проведенных опытах со случайными выборками в 15,5% получен результат R2 > 0.99, то получается, что в таком случае вероятность случайного совпадения для данных Газпрома находится в пределах 16%.
  3. Сургутнефтегаз (прив). Уровеиь R2 = 0.95 на тренде из 7 пар точек — между ценой отсечки и минимумом соответствующего года связь сильная. Поскольку в проведенных опытах со случайными выборками в 6% получен результат R2 в диапазоне (0.90;0.95], то получается, что в таком случае вероятность случайного совпадения для данных Сургутнефтегаз (прив) находится в пределах 6%.

Расчеты годовых максимумов

Сейчас прорабатываю идею о расчете годовых максимумов цен акций. По аналогии с расчетом годовых минимумов. Причем по хронологии сначала наступает расчетный минимум, а уже после него расчетный максимум. За год опять же принимаю интервал от отсечки до отсечки. Использую другие данные, нежели в расчете минимумов, но связанные с расчетным уровнем «дна», а значит связанные с ценой отсечки.

Получается, что цена отсечки задает для акции некий «коридор» на год до следующей отсечки, внутри которого цена движется сначала к нижней границе коридора, а затем к его верхней границе.

…Предварительно рассчитал максимумы для Газпрома и Сбербанка. В их трендах зависимостей значения R2 получились равными 0,9597 и 0,9864 соответственно. Посмотрим, что из этого выйдет – цены получились вполне реальные и достижимые, тем более до мая 2013 года.

Комментарии

Николай Камынин — 30 мая 2012 г.

R2 - это коэффициента детерминированности, который определяется через отношение дисперсий исходного ряда относительно средней и остаточного относительно полученного полинома.
Одной из причин близости R к 1 это малое точек эксперимента по сравнению с порядком полинома..
Поэтому, чем больше порядок полинома, чем он ближе он к исходным точкам и коэффициент R ближе к 1.
Увы,чудес не бывает.

0 +

vsozonov — 30 мая 2012 г.

даже в случаях с 9 точками?

0 +

Николай Камынин — 30 мая 2012 г.

9 точек достаточно для аппроксимации прямой линией. Для более высоких полиномов это мало.
На первом графике у Вас 6 точек и есть один максимум и минимум.
Значит что полином 2-ой степени даст хороший результат и R2 будет близко к 1.

0 +

vsozonov — 30 мая 2012 г.

а вот сбербанку, видимо, показалось, что 9 точек достаточно) коль он в 2011м году сходил на свои цели по тренду, построенному до 2010го года

0 +

Николай Камынин — 30 мая 2012 г.

для рис 2 у вас более 1 максимума поэтому полином 2-го порядка не подходит Результат будет плохой Вы его показали.
понадобится полином 3 или 4 степени но точек совсем мало, поэтому R2 для этих полиномов R2 тоже будет близко к 1
Увы, чудес не бывает. Сплошная арифметика.

0 +

Николай Камынин — 30 мая 2012 г.

vsozonov , важно количество экстремумов. а число точек определяет достоверность а не R2.

0 +

Николай Камынин — 30 мая 2012 г.

vsozonov , Через две точки всегда можно провести прямую и R2 равен 1

0 +

Николай Камынин — 30 мая 2012 г.

vsozonov , статистика - это теория больших чисел много больше 10. Погрешность оценки как проавило обратно пропорциональна корню квадратному из числа экспериментов. Так если точек 100 то ожидаемая погрешность примерно 10%

0 +

Николай Камынин — 30 мая 2012 г.

vsozonov Вы возьмите статистику с 1999 года и тогда ваши расчеты еще сместятся вниз.

0 +

Николай Камынин — 30 мая 2012 г.

vsozonov , это не сбербанку показалось а Вам думается. Математика - это точная наука даже в теории вероятности.

0 +

Николай Камынин — 30 мая 2012 г.

и еще, если Вы внимательно почитаете теорию аппроксимации полиномами то узнаете, что их нельзя применять вне области определения т е они годятся для интерполяции но не для экстраполяции.

0 +

vsozonov — 31 мая 2012 г.

в лубом случае в моих расчетах не более шумов, чем в любой другой теории тех анализа. а наворотить то можно, конечно, и с более глубокими выборками

0 +

Николай Камынин — 31 мая 2012 г.

vsozonov,
я лишь пытался объяснить, что R2 никакого отношения к достоверности прогноза не имеет,
а лишь показывает что полином наиболее близко подходит к точкам .
Поэтому использовать его для доказательства надежности прогноза мягко сказать не корректно.

0 +

vsozonov — 31 мая 2012 г.

а разве близость тренда к точкам не есть достоверность? что тогда вообще достоверность?

0 +

Николай Камынин — 31 мая 2012 г.

vsozonov,
При аппроксимации под достоверностью буквально понимается следующее.
Является ли аналитическое описание точек полиномом лучше, чем горизонтальной прямой на уоовне среднего арифметического этих точек.
И все
Вы можете взять любые точки и R2 характеризует лишь что в среднем их более точно на данном интервале аналитически опишет - прямая или полином.
К прогнозам хоть акций хоть погоды хоть чего хоть это не имеет никакого отношения.
Надеюсь, что объяснил понятно.

0 +

Николай Камынин — 31 мая 2012 г.

да и еще,
раз уж Вы увлеклись прогнозированием, то полученный полином
Вам надо экстаполировать на следующий год и он Вам даст точку минимума.
В следующем году Вы и узнаете отображает ли данный полином
какую либо объективную закономерность
или это лишь кривая по девяти точкам.

0 +

vsozonov — 31 мая 2012 г.

да в общем то так и сделал

0 +

Написать комментарий

Чтобы написать комментарий, необходимо авторизоваться.

Написать администратору