10 hot Hadoop start ups
-
- Уже с Приветом
- Posts: 10708
- Joined: 22 Jul 2006 20:19
Re: 10 hot Hadoop start ups
На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Причем в большинстве случаев используют гауссовское распределение плотности вероятности, что вообще то делается не от хорошей жизни а просто потому что нечего другого априори не могут предложить.
В реальной жизни, это все все совсем не так. Поэтому то никто никогда не сможет создать модель отражающую скажем поведение рынка и способную предсказать где и когда он взлетит и где и на чем долбанется.
А так крючков нарисовать можно сколько душе угодно и потом все это запрограммировать и втюхать лохам ушастым (инвесторам то есть). Наиболее ушлые даже нобельные премии получают в экономике за это..
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Причем в большинстве случаев используют гауссовское распределение плотности вероятности, что вообще то делается не от хорошей жизни а просто потому что нечего другого априори не могут предложить.
В реальной жизни, это все все совсем не так. Поэтому то никто никогда не сможет создать модель отражающую скажем поведение рынка и способную предсказать где и когда он взлетит и где и на чем долбанется.
А так крючков нарисовать можно сколько душе угодно и потом все это запрограммировать и втюхать лохам ушастым (инвесторам то есть). Наиболее ушлые даже нобельные премии получают в экономике за это..
-
- Уже с Приветом
- Posts: 11999
- Joined: 08 Sep 2006 20:07
- Location: Силиконка
Re: 10 hot Hadoop start ups
Adda, чего так мрачно?adda_ wrote:А так крючков нарисовать можно сколько душе угодно и потом все это запрограммировать и втюхать лохам ушастым (инвесторам то есть)..
У вас какой телефон? Я повторюсь, но скажу - меня Google Now иногда просто пугает своим ителлектом.
Я тут полный профан, но кажется мне, что во многих областях применения ML довольно простецкие алгоритмы - это всё равно сильно лучше, чем ничего. Так что начать можно и без "глубоких знаний". Потом, да, всякие там гуглы с фейсбуками могут нанять практически любого нобелевца, но эти уже бьются за доли процента, упираясь в diminishing returns - поисковики потихоньку улучшают релевантность поиска, стригут зелень с контекстной рекламы (и "лохи ушастые" вроде не бедствуют), нетфликс улучшает рекомендации...
А на привете всё сокрушаются по поводу "дилетантов".
Мир Украине. Свободу России.
-
- Уже с Приветом
- Posts: 2420
- Joined: 18 Jul 2005 04:22
- Location: Moscow -> NYC
Re: 10 hot Hadoop start ups
Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: 10 hot Hadoop start ups
M. Ridcully wrote: А на привете всё сокрушаются по поводу "дилетантов".
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
На самом деле модель может и не работать, если, например, основывается на некорректно поставленной задаче (ill-posed problem). Модель пытается математически отражать реальность. Имеено поэтому она и применяется. Здесь два момента. Первый - насколко хорошо она эту рельность отражает. Второй, насколько сама модель (например, система диффуров) правильна (например, имеет единственное решение, устойчива и т.п.). Это как бы две разные проблемы. Мы как то все обсуzhдаем временные рyaды. Нo ведь существует большое количество "стационарных" моделей. Те же классификаторы в машинном обучении. Очень широко распространены и весьма успешны. Я бы не стал преименьшать пол моделей. Она очень велика. С другой стороны, говоря о "провалах" надо хорошо понимать ограничения. Ведь модель - лишь апроксимация реальности. Предсказывать будующее трудно. Но наука это имеет в виду. Те же временные ряды приводят к увеличении вариации при росте времени. Все логично. А при моделировании будующего надо знат будущие интервенции (говоря медицинским языком). Особенно в экономике. Но кто их знает? Даже полтика сильно переплалась с экономикой.Fedot wrote:Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
В физике инвариантность есть следствие "эксперимента" (в широком понимании). Как только будет найдено "противоречие" грядет очередная революция в физике (давны бы пора, а то в физике какой-то застой). В экономике тоже сви законы. Другое дело, что в физике когда создается модель (например, система дуффуров) мы огранчиваемя лишь данным явлением. В экономике мы пытаемся моделировать бол'ше чем одно явление. Например, поведение рынка. Но там множество факторов, которые трудно учесть (например, политика, "настроение" инвесторов и т.п.). Таже проблема возникнет с физической моделью при попытке учесть множество факторов. Безусловно модел как отражение реальности может быть и неправильной. Поэтому и выводы будут неправильные, т.е. несогласующиеся с реальностью.В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
-
- Уже с Приветом
- Posts: 10708
- Joined: 22 Jul 2006 20:19
Re: 10 hot Hadoop start ups
Модель всегда работает - это надо занести в аналы... Модель сферического коня в вакууме инвариантного во времени...Fedot wrote:Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Модели нужны тогда и только тогда, когда они отражают процессы происходящие в природе или обществе. Абстрактные модели моделирующие некие явления которые нигде кроме головы моделиста не существуют, и которые можно наплодить как кроликов, не нужны никому. Иначе мы вернемся к обсуждению того сколько ангелов может уместиться на острие иголки (популярный топик для дисскуссии схоластов в средние века)..
-
- Уже с Приветом
- Posts: 18862
- Joined: 30 Aug 2001 09:01
- Location: 3rd planet
Re: 10 hot Hadoop start ups
Нет такого кандидатского минимума. Есть канд минимум по специальности, и если человек не занимается мат.статистикой или смежными дисциплинами, статистики там нет.Снежная Королева wrote:А казалось бы, солидные учёные, их тоже заставляли кандидат.минимум по статистике сдавать.
Тупизна как Энтропия. Неумолимо растет.
-
- Уже с Приветом
- Posts: 18862
- Joined: 30 Aug 2001 09:01
- Location: 3rd planet
Re: 10 hot Hadoop start ups
Почему, были люди, которые достаточно точно предсказали крах и неслабо на этом наварились; но это укладывается в рамки того, что одни "угадали", а другие - "не угадали".Fedot wrote: Рынок грохнулся в 2008, никто предсказать не смог.
Тупизна как Энтропия. Неумолимо растет.
-
- Уже с Приветом
- Posts: 18862
- Joined: 30 Aug 2001 09:01
- Location: 3rd planet
Re: 10 hot Hadoop start ups
Причем отражают корректно. Я помню, как на курсе дифуров в частных производных нам давали пример: физическую задачу и ее "грубую" модель (систему диффуров), которая на первый взгляд точно описывала задачу. Затем прогнали обратный анализ модели и показали, что на самом деле задача, которую модель описывает, не совсем та, которую надо было решить, а при некоторых условиях - вообще не та.adda_ wrote:Модели нужны тогда и только тогда, когда они отражают процессы происходящие в природе или обществе.
Корректность - необходимое условие работы модели. Иначе может оказаться, что вместа полета на Луну модель описывает погружение в Мариинскую впадину.
Тупизна как Энтропия. Неумолимо растет.
-
- Уже с Приветом
- Posts: 1663
- Joined: 16 Jul 2009 14:18
- Location: Uganda
Re: 10 hot Hadoop start ups
- Чего ругаешься, хозяин! Ты же просил колодец с лампочкой, мы тебе и выкопали...Boriskin wrote:Корректность - необходимое условие работы модели. Иначе может оказаться, что вместа полета на Луну модель описывает погружение в Мариинскую впадину.
- Чертерж разверни, вредитель! Маяк я просил, ма-я-к!!!
PS. Про модели. С интересом слушаю периодически наших ядерщиков, когда они специфику обсуждают и как это реализовано. Столько новых слов узнаю
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Вы уверены, что одно и тоже обсуждаете? Кандидатсий минимум - это в России. Кандидатский минимум (физ.мат.), как уже упоминали, сдается по специальности. Так что статистики там может и не быть в помине.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Я так и подумал. Просто решил уточнить, а то обсуждались как бы разные вещи.
-
- Уже с Приветом
- Posts: 18862
- Joined: 30 Aug 2001 09:01
- Location: 3rd planet
Re: 10 hot Hadoop start ups
В России/СССР математикам мат.статистику преподают как один из обязательных курсов на диплом о ВО, однако единственная специальность, в которой статистика входит в кандминимум - это 01.01.05, коя собственно и называется "01.01.05 – Теория вероятностей и математическая статистика". В других математических специальностях мат.статистика в кандминимум по специальности не входит. Вообще и никак.Снежная Королева wrote:Не, всех PhD заставляют сдавать research methods (или другими словами), и там даётся какой-то минимум статистики тоже.Boriskin wrote:Нет такого кандидатского минимума. Есть канд минимум по специальности, и если человек не занимается мат.статистикой или смежными дисциплинами, статистики там нет.Снежная Королева wrote:А казалось бы, солидные учёные, их тоже заставляли кандидат.минимум по статистике сдавать.
На западе, насколько мне известно, статистика входит в общий математический курс, но если человек занимается, скажем, математической логикой или, не дай бог, какой геометрией - то статистику у него никто нигде хоть как то серьезно в процессе делания PhD спрашивать не будет, знакомства с мат.статистикой на уровне ликбеза будет достаточно.
Для интереса и сравнения можете взглянуть, что именно входит в кандминимум по статистике вот тут - http://www.math.spbu.ru/ru/mmeh/AspDok/ ... 010105.pdf
Тупизна как Энтропия. Неумолимо растет.
-
- Уже с Приветом
- Posts: 10708
- Joined: 22 Jul 2006 20:19
Re: 10 hot Hadoop start ups
Вы хотите летать на самолете который построен на основании модели не точно отражающей реальность? И который поэтому регулярно падает. Или чтобы вам делали операцию скажем на сердце используя приблизительные модели описания того где оно находится (слева, справа или в жопе (пардон май френч))?Снежная Королева wrote:All models are wrong. Some of them useful.adda_ wrote:..никто никогда не сможет создать модель отражающую ...поведение ...
Оттого что модель "неправильная", т.е. не отражает точно реальность, не означает что она бесполезна. Предсказания всегда имеют ошибку. Однако, для получения competitive advantage вовсе не обязательно делать безошибочные предсказания, достаточно просто иметь ошибку чуть-чуть меньше, чем у конкурентов. Это, кстати, не только к финансовым рынкам относится.
Моделей описывающих поведение рынка нет. Да все знают что он скоро должен долбануться, но когда, как сильно и каким боком это выйдет, не знает никто. Умный дядя придумал для этого слова "жирный хвост" и "черный лебедь" которыми все сейчас пользуются. Но это не намного добавило к тому что написано выше. Мы просто придумали слова которыми обозначили наше незнание.
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: 10 hot Hadoop start ups
Я думаю, экономисты с вами не согласятся.adda_ wrote:Моделей описывающих поведение рынка нет.
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: 10 hot Hadoop start ups
А мужики-то не знают а оказывается, можно даже на пальцах объяснитьСнежная Королева wrote: Вот на пальцах, что произошло в области оценки рисков выдачи кредитов на недвижимость....
А у нас не сдаютСнежная Королева wrote:Ну, я произвольно назвала "кандидатский минимум". В России я не училась, так что не знаю. А здесь у нас PhD сдают "Research Methods for Science, Engineering and related disciplines"
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 4205
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
Re: 10 hot Hadoop start ups
Похоже на пересказ баек и историй передающихся из уст в уста студентами.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
[ъуоте]
Точности не существует в природе. Вся математика - лишь отражение реальности с погрешностью, которую мы никогда не сможем точно измерить. Например, в природе не существует идеальных геометрических фигур.
[/ъуоте]
А что Вы подразумеваете под точностью? Похоже, мы переходим к вопросу о философии науки. Имеется в виду невозможность точно измерить? Кристаллы, по моему, точные геометрические фигуры. Конечно, там могут быть разные виды дислокации, смещения. Погрешность можно оценить.
[ъуоте]
Все модели неточно отражают реальность, и модели в самолётах тоже.
[/ъуоте]
Осталось выяснить, что есть неточность модели самолета (да что есть сама модель самолета)?
Точности не существует в природе. Вся математика - лишь отражение реальности с погрешностью, которую мы никогда не сможем точно измерить. Например, в природе не существует идеальных геометрических фигур.
[/ъуоте]
А что Вы подразумеваете под точностью? Похоже, мы переходим к вопросу о философии науки. Имеется в виду невозможность точно измерить? Кристаллы, по моему, точные геометрические фигуры. Конечно, там могут быть разные виды дислокации, смещения. Погрешность можно оценить.
[ъуоте]
Все модели неточно отражают реальность, и модели в самолётах тоже.
[/ъуоте]
Осталось выяснить, что есть неточность модели самолета (да что есть сама модель самолета)?
-
- Уже с Приветом
- Posts: 2420
- Joined: 18 Jul 2005 04:22
- Location: Moscow -> NYC
Re: 10 hot Hadoop start ups
Organic Organization Chart
http://www.autodeskresearch.com/projects/orgorgchart
визуализация динамики организации - попробуй предсказать!
http://www.autodeskresearch.com/projects/orgorgchart
визуализация динамики организации - попробуй предсказать!
-
- Уже с Приветом
- Posts: 1234
- Joined: 24 Nov 1999 10:01
- Location: Seattle
Re: 10 hot Hadoop start ups
"All models are wrong. Some models are useful"Fedot wrote: Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Не думаю, что математики здесь "причем". На мой взгляд, методы уже придуманы (ну может, конечно, еще придумают). Теперь задача - их распареллелить. Естественно, это не для всех методов будет работать. Я в этом и вижу текущую проблему с большими данными. Считывать их научились, но в лоб же существующие алгоритмы не применешь. Надо дистрибьютить И параллелить. На мой взгляд, е;то бол;ше задача для "ученых-программистов", а не математиков.Снежная Королева wrote: А как математики придумают методы, то дальше алгоритм как обычно:
1. Вначале статистики создадут новые пакеты в R.
5. Зарплаты data scientists наконец-то упадут до 50К на старт
Не знаю, упадут ли зарплаты, но не понятно, по какой причине. Я вижу возрастающий тренд по вакансиям (мое субьективное мнение, естественно). Хороший "ученый" - он же не только умеет методы вызывать. Это лишь малая толика работы. Важно же правильно задачу сформулировать и найти ее решение. А это далеко не все умеют делать. За это и платят. Впрочем эту тему мы уже обсуждали, но с удовольствием поговорю еще.
Если будут интересные ссылки, то давайте тоже обсудим. Тама очень актуальна.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Я предполагаю, что под высокой размерностью имеется в виду именно размерность исходного пространства (т.е. размерность - это число переменных, по которым строится модель), а не само число данных. Если это так, то имеет место быть curse of dimensionality (как ето лучше по-русски). В частности, это проявляется в том, что локальные методы перестают работать (как Вы правильно пишите, падает точность, возможны неустойчивости), да и нелокальные (регрессия) тоже плохо обобщаются (помните правило bias vs. variance). Однако это природа (математическая) самих методов, а не проблема алгоритмов. Для сравнения, если Вы когда либо имели дело с так называемыми некорректно-поставленными задачами (ill-posed problems), то проблема как раз и заключается в самой природе этих задач и не зависит от алгоритмов решения. Безусловно, алгоритмы есть (в основном тихоновская регуляризация), но это основано на оптимизацинных методах, и решаетя несколько другая задача. В машинном обучении тоже самое. Большая размерность разрешается бОльшим количеством данных. Другое дело, если мы берем "последовательные" алгоритмы (например, градиентные методы), то они захлебнутся в большом потоке данных. Нужно распараллеливать, но это уже алгоритмическя и программистская задача. Я не исключаю появления новых математических методов, но ведь природу не обманешь. Некорректно поставленная задача так и останется таковой.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Еще один момент. В больших данных надо разделять "пераработку" данных (типа ETL) и построение моделей. С перераборкой как бы все ясно. Чем быстрее, тем лучше. Обратимся к методам обучения и прогнозирования (мы об этом тоже, по-моему, говорили). Какова цель создания методов для больших данных? Допустим, я могу работать с миллионом данных. Так ли мне нужно строить модель на оснoве миллиарда данных? Я не думаю, что надо. Аргументы. Рассмортим для простоты классификаторы. С математичекой точки зрения мне нужно в многомерном пространстве построить разделяющую "гипер-поверхность". Если такова существует, то не важно сколько данных я использую. Если же таковой нет, то решается оптимизациоанная задача (минимум мисклассификации). Безусловно решение зависит от количества данных. Более того, если данных "недостаточно", то могут быть приколы вроде полного разделения. Но допустим, что выборка (sample) из одной популяции. Трудно предположить, что такие приколы будут случайными при миллионе данных. Скорее всего будет получена хорошая выборка и при меньшем числе данных. Если же в качестве входных параметров я хчу исползовать 100 тысяч переменных (ясно что при миллионe данных моя модель работать скорее всего не будет), то мне стоит крепко подумать, с какого дуба я решился на такую модель. Она просто неуправляема. Модель должна быть простой (ну не совсем простой, конечно). Так зачем мне миллиард данных? Если же модель действительно зависит от милиарда, то нужно разобраться в самих данных. Наверняка это уже не одинаковая выборка (что на практике означает некие тренды). Но тогда и надо с ними вначале работать