Перейти к содержимому


Фотография

Закон больших чисел и гауссова кривая


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 13

#1 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 14 Январь 2010 - 01:10

Начал читать культовую книгу Талеба про черных лебедей. Книга интересная, хотя на мой взгляд, рассказывает о давно известных человечеству вещах. Решил написать небольшой цикл статей, посвященных закону больших чисел и его применению в трейдинге. Настоящая статья посвящена простому изложению закона больших чисел и механизму образования гауссовой кривой. Очень многие события в нашей жизни являются следствием совместного влияния большого числа мелких факторов. Например, время в пути на работу зависит от пробок, светофоров, пешеходов, и.т.д. Все эти факторы, накладываясь друг на друга, и дают итоговое время в пути. Но если постоянно ездить на работу, то вырабатывается некоторое среднее время, например, 25 минут, и маловероятно, что в какой-то день произойдет сильное отклонение от этого времени, например 80 минут. Такая устойчивость к сильным отклонениям от среднего связана с тем, что среди всего множества независимо действующих мелких факторов будут как факторы, уменьшающие время в пути, так и факторы, увеличивающие это время. Уменьшающие и увеличивающие факторы взаимно погашают друг друга, поэтому суммарное отклонение от среднего невелико. При этом чрезвычайно важны две вещи: 1) все действующие факторы не должны быть сильными, 2) все действующие факторы должны быть независимыми. Математической формулировкой этого принципа является закон больших чисел. Он гласит следующее: среднее арифметическое многих независимых случайных величин сходится к некоторому значению при увеличении числа этих величин. Механизм этого прежний—отклонения вправо и влево взаимно погашаются. Именно на этом принципе основано то, что многократное повторение одного и того же приводит к почти предсказуемому результату. Поэтому торгуйте по системе! Однако ясно, что точного совпадения времени в пути со своим средним скорее всего, не будет. Вероятно, при многократном повторении поездки на работу будет некий разброс времен, например 23 мин, 26.4 мин, 24 мин, 27 мин, 25.2 мин, и.т.д. Зададимся вопросом, какова вероятность прибыть на работу, скажем, за 26.6 мин? Ответ на этот вопрос дает так называемая центральная предельная теорема. Она гласит следующее: распределение нормированной суммы n независимых случайных величин, каждая из которых имеет не слишком большой разброс, сходится к нормальному распределению (для изучения строгих формулировок смотри, например, А. И. Кибзун, «Теория вероятностей и математическая статистика»). Нормальное распределение—это и есть гауссова кривая, ее форма задана уравнением y=1/(sqrt(2*pi)*sigma)*exp(-(x-a)^2/(2*sigma^2)). Это хорошо всем известная колоколообразная кривая (см. рис.1 в оригинальной статье), Талеб ее называет гауссианой. Лично меня поражает в центральной предельной теореме то, что сложная формула с экспонентой и корнями выводится вообще из ничего. Рассматривается просто среднее арифметическое многих случайных величин и все. Именно этой простотой объясняется столь частое распространение нормального распределения в природе. Еще раз подчеркну, что для того, чтобы функция распределения суммы случайных факторов сходилась к гауссиане, должно быть выполнено следующее: 1) Все входящие в сумму случайные величины должны быть независимы, 2) Все входящие в сумму случайные величины не должны иметь слишком большого разброса. Это чрезвычайно важно и это не всегда выполняется на рынках и в жизни, приводя, в частности, к черным лебедям Талеба. Гауссову кривую можно легко получить экспериментально. Для этого, например, пригодна так называемая доска Гальтона (см. рис. 2 в оригинальной статье). Сверху на ряд стержней сыплются шарики, которые затем попадают в различные ячейки снизу. Наложение большого числа случайных факторов при рассеянии шариков стержнями приводит к гауссовому распределению этих шариков по ячейкам. Анатолий Уткин

#2 Николай Степенко

Николай Степенко

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 9 440 сообщений
  • Пол:Мужчина
  • Город:Холон
  • Интересы:трейдинг, биржа, обучение трейдингу, технический анализ, фундаментальный анализ, велосипед, море, путешествия

Отправлено 15 Январь 2010 - 00:48

Зададимся вопросом, какова вероятность прибыть на работу, скажем, за 26.6 мин?
Ответ на этот вопрос дает так называемая центральная предельная теорема. Она гласит следующее: распределение нормированной суммы n независимых случайных величин, каждая из которых имеет не слишком большой разброс, сходится к нормальному распределению (для изучения строгих формулировок смотри, например, А. И. Кибзун, «Теория вероятностей и математическая статистика»). Нормальное распределение—это и есть гауссова кривая, ее форма задана уравнением y=1/(sqrt(2*pi)*sigma)*exp(-(x-a)^2/(2*sigma^2)).

А где собственно ответ? Где в этой красивой формуле вероятность прибытия на работу за 26,6 мин?

#3 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 15 Январь 2010 - 12:14

Строго говоря, ответ таков: вероятность прибыть точно преточно за 26.6000000... минут равна нулю. Вы не можете прибыть ровно за это время, не ошибившись на одну квадрилионную, или на одну квадралион квадралионную. Такой ответ связан с тем, что случайная величина--время в пути--является непрерывной, и этот ответ вообще не зависит от закона распределения, достаточно, чтобы этот закон не содержал дельта-функций (простите за эти страшные названия, но вопрос прозвучал :) ). Чтобы получать конечные вероятности для непрерывных случайных величин, вопрос обычно ставится так: какова вероятность того, что время будет от 26.5 до 26.7 минут? Для ответа на этот вопрос нам необходимо знать закон распределения, а для этого необходим высший разум. Пусть этот разум сказал нам, что время в пути подчиняется нормальному распределению, то есть все условия центральной предельной теоремы выполены, то есть мы находимся в Среднестане (термин Талеба), где не бывает черных лебедей. В формуле для нормального распределения есть два параметра: среднее a и среднеквадратичное отклонение sigma. Для нормального распределения их можно взять из опыта, просто приравняв выборочным средней и СКО. То есть мы ездим много раз (для приемлемой точности достаточно 30 раз), получаем некоторые времена прибытия. Вычисляем по ним среднее и СКО. Пусть получилось среднее, равное 25 минут, и среднеквадратичное отклонение, равное 3 минутам. Тогда плотность вероятности времени в пути будет равна: 1/(sqrt(2*pi)*3)*exp(-((x-25)^2)/(2*3^2)) 1/минута (еще раз подчеркну, для всего этого нужен высший разум, который говорит, что условия ЦПТ выполнены). Теперь для определения вероятности того, что время составит от 26.5 до 26.7, необходимо взять интеграл от плотности вероятности в пределах от 26.5 до 26.7 минут. Это можно сделать либо численно на компьютере, либо посмотрев в таблицы функций Лапласа. Не буду утомлять подробностями, приведу ответ: вероятность того, что время в пути составит от 26.5 до 26.7 минут при среднем 25 минут и СКО 3 минуты составит 2.08%. Приведу также пример черного лебедя: на пути на работу произошла авария. Ждали ГАИ, ездили на разбор, и.т.д. Время в пути составило 180 минут. Действуя аналогично вышеприведенной "нормальной" логике, получим, что вероятность времени в пути быть от 179 до 181 минуты (а это отклонение от среднего на 51 сигму) с чистой совестью можно считать нулем. Однако такие вещи с завидной регулярностью происходят и в дальнейших статьях я коснусь вопросов, связанных с поведением хвостов распределений.

#4 Королева Монет

Королева Монет

    Активный участник

  • Коллеги
  • PipPipPip
  • 472 сообщений
  • Пол:Женщина
  • Город:Саратов

Отправлено 17 Январь 2010 - 23:11

Всегда с упоением читаю посты Анатолия. Из них, в лучшем случае, понимаю 60% слов и 10% мыслей. Но искренне восхищает любовь человека к математике. У нас в универе один профессор вел предмет "Локальные системы автоматики", он удивительным образом был способен объяснить многие жизненные ситуации с помощью математических моделей. Вот пример : в системе координат на плоскости строим две оси. По вертикали откладываем уровень интеллекта человека, по горизонтали - возраст. Таким образом , уровень интеллекта в 5 и в 80 - примерно одинаковы :) Возможно, утверждение и спорно, но такие примеры запоминались очень хорошо!

Прикрепленные изображения

  • izmenenie_intellekta_w_techenii_zhizni.jpg


#5 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 18 Январь 2010 - 12:34

Всегда с упоением читаю посты Анатолия. Из них, в лучшем случае, понимаю 60% слов и 10% мыслей. Но искренне восхищает любовь человека к математике. У нас в универе один профессор вел предмет "Локальные системы автоматики", он удивительным образом был способен объяснить многие жизненные ситуации с помощью математических моделей. Вот пример : в системе координат на плоскости строим две оси. По вертикали откладываем уровень интеллекта человека, по горизонтали - возраст. Таким образом , уровень интеллекта в 5 и в 80 - примерно одинаковы :) Возможно, утверждение и спорно, но такие примеры запоминались очень хорошо!


Спасибо, приятно слышать! Кривая вашего профессора ужасна. Во-первых, она похожа на правду, а во-вторых, мне 31 год сейчас :)

У меня нет какой-то особой любви к математике, просто эти схоластические запутанные построения :) иногда способны объяснять и предсказывать некоторые эпизоды и особенности из жизни. Например, формула dQ<=TdS (даже не спрашивайте, что это значит, я и сам не вполне понимаю :) ) предсказывает то, что при влючении кондиционера расход бензина в вашей машине увеличивается, а при включении печки--нет. Операторное уравнение H=E объясняет, почему не разваливаются и не схлопываются атомы и молекулы, состоящие из частиц с различным знаком электрического заряда, соотношение U=-Mm/r объясняет, почему Земля крутится вокруг Солнца по кругу, а кометы по эллипсу, ну и.т.д. Математика--это просто неплохой инструмент для понимания жизни.

#6 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 06 Февраль 2010 - 13:32

Гауссиана и реальная жизнь


Это продолжение статьи «Закон больших чисел и гауссова кривая» от 14.01.2010.

Итак, мы можем математически строго из базовых физических принципов получить функцию распределения суммы мелких независимых вкладов. Получающийся ответ-гауссов колокольчик (см. рис.1, розовая кривая--рисунок есть в полной версии у меня на блоге) обладает одной очень милой сердцу большинства людей особенностью-он с огромной скоростью (экспоненциально) спадает от центра. Это приводит к тому, что вероятность попасть в отрезок [центр плюс минус 3*сигма] равна 99.73%, а вероятность попасть в отрезок [центр плюс минус 5*сигма] равна 99.9998%. Таким образом, наша сумма мелких независимых факторов практически гарантированно не выйдет за пределы пяти сигм от центра. Поскольку люди очень любят гарантии (а я точно заработаю свои 35% годовых?, а я точно доеду по этой дороге?, здесь точно нет консервантов?, и. т. д.), то кривая Гаусса очень сильно полюбилась человечеству.

Вынужден огорчить любителей применять гауссиану где надо и не надо. В реальной жизни основные приближения центральной предельной теоремы (малость и независимость каждого слагаемого в сумме) выполнены далеко не всегда. Приведу пример, когда можно применять гауссиану. Ее можно применять: для статистики скоростей молекул газов, для статистики пшена на доске Гальтона, для статистики разброса наблюдений за временем пролета электрона через кинескоп. Обобщая, нормальное распределение хорошо применимо там, где каждый вклад в сумму обусловлен неким простым агентом или взаимодействием. Это область Среднестана (по Талебу). Там же, где каждый вклад в сумму связан со сложными взаимодействиями, нормальное распределение неприменимо, т.к. нельзя считать вклады малыми и независимыми. Это Крайнестан. Приведу примеры ситуаций, когда гауссиана неприменима: статистика высот подъема реки Нил в разлив (с изучения этой статистики начинал свои исследования Парето), статистика психических заболеваний, статистика колебаний цен на финансовых рынках.

Да-да, нормальное распределение неприменимо на финансовых рынках. Постройте гистограмму распределения приращений цен на любые биржевые товары, и увидите, что она и рядом не стоит с нормальным законом (см. рис. 1). Видно, что основное отличие реального распределения от нормального заключено в том, что реальное спадает гораздо медленнее к краям (это так называемые тяжелые хвосты). В реальности возможны изменения цены Сургута и на 10 и на 15% за день, тогда как аппроксимирующая гауссиана предсказывает нулевую вероятность таких событий. Такое отличие реальности от модели связано с тем, что каждый вклад в некоторое колебание цен связан с действием человека или группы людей, а это очень сложные системы, люди принимают решения и взаимодействуют друг с другом нетривиальным образом и это приводит к отсутствию независимости и малости их вкладов в общее соглашение о цене, т. е. нарушению условий центральной предельной теоремы.

В заключение приведу список некоторых утверждений и формул, следующих из применения гауссианы и неверных на рынках:
1) Формула Блэка-Шоулса-неверна
2) Правило трех сигм-неверно
3) Правило 30 сделок-неверно
4) Вычисление риска портфеля по Марковицу-неверно
5) Теория эффективного рынка-неверна
Эти результаты неверны в том смысле, что они не подтверждаются опытом. Модель слишком простая выбрана :).

Значит ли это, что данными формулами и результатами (из которых большинство-Нобелевские :) ) не следует пользоваться? Конечно нет. В качестве нулевого приближения эти методы могут и должны использоваться. К примеру, если ваш портфель плох с точки зрения оптимизации по Марковицу, то это плохой портфель. Однако если он хорош по Марковицу, то это еще не значит, что хорош в реальной жизни. Я бы предложил такую процедуру: используйте для начала гауссовы, среднестанские методы. Если тест пройден, то попробуйте в ваших вычислениях представить, что произошло отклонение не на три сигмы, а на десять. Что с вами будет? Вы не разоритесь? А такое событие обязательно будет-смотри рис. 1, крах 1998, крах 2008, Северсталь начала 2010 года и. т. д.

#7 Николай Степенко

Николай Степенко

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 9 440 сообщений
  • Пол:Мужчина
  • Город:Холон
  • Интересы:трейдинг, биржа, обучение трейдингу, технический анализ, фундаментальный анализ, велосипед, море, путешествия

Отправлено 07 Февраль 2010 - 22:29

В заключение приведу список некоторых утверждений и формул, следующих из применения гауссианы и неверных на рынках:
1) Формула Блэка-Шоулса-неверна
2) Правило трех сигм-неверно
3) Правило 30 сделок-неверно
4) Вычисление риска портфеля по Марковицу-неверно
5) Теория эффективного рынка-неверна
Эти результаты неверны в том смысле, что они не подтверждаются опытом. Модель слишком простая выбрана :).

Значит ли это, что данными формулами и результатами (из которых большинство-Нобелевские :) ) не следует пользоваться? Конечно нет.

Больше всего мне нравится, что каждый может выбрать себе по вкусу - во что верить, а во что нет :)
К примеру мне хочется верить, что Правило 30 сделок работает, а теория эффективного рынка - полная чушь. Что касается риска портфеля по Марковицу, то это вообще полное мракобесие :)

#8 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 08 Февраль 2010 - 23:43

Больше всего мне нравится, что каждый может выбрать себе по вкусу - во что верить, а во что нет :)
К примеру мне хочется верить, что Правило 30 сделок работает, а теория эффективного рынка - полная чушь. Что касается риска портфеля по Марковицу, то это вообще полное мракобесие :)


Это ведь больше вопрос знаний и опыта, нежели веры. Например, правило тридцати сделок--это частный случай закона больших чисел, гласящий, что для оценки матожидания и СКО нормально распределенной случайной величины достаточно взять выборку из тридцати сделок. Закон больших чисел--это общее свойство природы, в каком-то смысле не особо зависящее от нормальности или ненормальности распределения, поскольку взаимное уничтожение положительных и отрицательных случайных вкладов будет при любых распределениях (просто, если эти вклады не малы и не независимы, то не будет экспоненциального спадания распределения). Поэтому аналог правила 30 применим и на реальных рынках, но, поскольку они негауссовы, то брать надо не 30 сделок, а больше. Нужно взять сделок столько, чтобы в них были учтены тяжелые хвосты распределения цен. Иными словами, систему надо тестировать на возможно большем периоде времени, обязательно включающем в себя всевозможные истерики, и тогда получишь более или менее надежные результаты.

Теория эффективного рынка стоит на более шаткой основе. Ее предположение о мгновенности и рациональности действий агентов рынка (а это, фактически, означает малость и независимость их вкладов в цену, и, как следствие, нормальность распределения цен) не выдерживает никакой проверки опытом. Достаточно взглянуть на любой пузырь или крах, чтобы понять--рациональностью и мгновенностью на рынке даже не пахнет. Пока все овцы на все плечи загрузятся в поезд--куча времени пройдет. Потом, когда они вытряхиваются из товарняка, летящего вниз, они тоже не очень рациональны :)

Риск по Марковицу--ну не то чтобы это прямо уж мракобесие :) Это красивая математическая теория. Ее легко изучать в экономических ВУЗах. На мой взгляд, теория эта не имеет особого отношения к реальным рынкам и годна лишь для оценки риска на спокойных рынках, что сильно снижает ее ценность. В качестве простого возражения к теории портфеля Марковица отмечу, что она использует понятие дисперсии, а для реальных тяжелохвостовых распределений дисперсия может быть бесконечно большой, что делает теорию нерабочей.

Так что мне нравится ваша вера--она похожа на правду :)

#9 Николай Степенко

Николай Степенко

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 9 440 сообщений
  • Пол:Мужчина
  • Город:Холон
  • Интересы:трейдинг, биржа, обучение трейдингу, технический анализ, фундаментальный анализ, велосипед, море, путешествия

Отправлено 09 Февраль 2010 - 12:53

По вертикали откладываем уровень интеллекта человека, по горизонтали - возраст. Таким образом , уровень интеллекта в 5 и в 80 - примерно одинаковы :) Возможно, утверждение и спорно, но такие примеры запоминались очень хорошо!

Я поражаюсь уровню интеллекта своего 3-х летнего сына. Знает 2 языка, конструирует сверхинтересные модели из любого материала, а какие перлы иногда отпускает... Мне бы так. А в целом, надеюсь, что график показывает среднюю температуру по больнице. Иначе... полная труба. Как мало осталось у меня времени.

#10 Николай Степенко

Николай Степенко

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 9 440 сообщений
  • Пол:Мужчина
  • Город:Холон
  • Интересы:трейдинг, биржа, обучение трейдингу, технический анализ, фундаментальный анализ, велосипед, море, путешествия

Отправлено 09 Февраль 2010 - 12:57

Иными словами, систему надо тестировать на возможно большем периоде времени, обязательно включающем в себя всевозможные истерики, и тогда получишь более или менее надежные результаты.

Именно так. Если у системы меньше 100 - 200 сделок, я ее не рассматриваю.

#11 mikki33

mikki33

    Активный участник

  • Друзья
  • PipPipPip
  • 231 сообщений
  • Пол:Мужчина
  • Город:Израиля

Отправлено 13 Май 2010 - 20:29

Значит ли это, что данными формулами и результатами (из которых большинство-Нобелевские :) ) не следует пользоваться?


Нобелевский лауреат по экономике, фамилию которого я не помню, проводил финансовую политику Аргентины в соответствии со своей теорией. Дело кончилось дефолтом в 2000 году... :)

LTCM (Long Term Capital Management), строющий свои торговые стратегии в соответствии с теориями двух нобелевских лауреатов, которые его и создали, потерял все деньги инвесторов (100% лос) в 1998 году. Абсолютная сумма тоже тогда впечатляла: 6.2 миллиарда долларов. Задействованая стратегия, т.н. fixed income arbitrage помноженная на плечо порядка 1:40 не выдержала резких изменений условий после российского дефолта 1998 года.

---
"Это экономика, а не наука" (с)

#12 Николай Степенко

Николай Степенко

    Активный участник

  • Главные администраторы
  • PipPipPip
  • 9 440 сообщений
  • Пол:Мужчина
  • Город:Холон
  • Интересы:трейдинг, биржа, обучение трейдингу, технический анализ, фундаментальный анализ, велосипед, море, путешествия

Отправлено 13 Май 2010 - 20:52

Нобелевский лауреат по экономике, фамилию которого я не помню, проводил финансовую политику Аргентины в соответствии со своей теорией. Дело кончилось дефолтом в 2000 году... :)

LTCM (Long Term Capital Management), строющий свои торговые стратегии в соответствии с теориями двух нобелевских лауреатов, которые его и создали, потерял все деньги инвесторов (100% лос) в 1998 году. Абсолютная сумма тоже тогда впечатляла: 6.2 миллиарда долларов. Задействованая стратегия, т.н. fixed income arbitrage помноженная на плечо порядка 1:40 не выдержала резких изменений условий после российского дефолта 1998 года.

---
"Это экономика, а не наука" (с)

1. Да, экономика - не наука.
2. Торговля с плечом ученикам запрещена. Чтоб дефолта не было :)

#13 mikki33

mikki33

    Активный участник

  • Друзья
  • PipPipPip
  • 231 сообщений
  • Пол:Мужчина
  • Город:Израиля

Отправлено 15 Май 2010 - 16:57

В качестве курьеза, построенная система для зарабатывания денег на полностью случайных котировках, описываемых, разумеется, стандартным гауссианом.

Автор: Правдюк Тарас

http://www.2stocks.r.../1271063888.doc


Можно читать и http://www.2stocks.r...s/article120410 , но у меня справа режет часть текста из-за слишком больших графиков.

#14 Anatoly Utkin

Anatoly Utkin

    Активный участник

  • Пользователи
  • PipPipPip
  • 158 сообщений

Отправлено 17 Май 2010 - 01:14

В качестве курьеза, построенная система для зарабатывания денег на полностью случайных котировках, описываемых, разумеется, стандартным гауссианом.

Автор: Правдюк Тарас

http://www.2stocks.r.../1271063888.doc


Можно читать и http://www.2stocks.r...s/article120410 , но у меня справа режет часть текста из-за слишком больших графиков.


Эта статья обсуждается здесь: http://www.2stocks.r...w...13145&st=10 . Тарас выложил код стратегии, я его прогнал на своих случайных котировках--ничего статистически значимого не обнаружил. Я предположил, что проблема там в изготовлении котировок, Тарас пока молчит.




Количество пользователей, читающих эту тему: 0

0 пользователей, 0 гостей, 0 анонимных