10 hot Hadoop start ups

adda_
Уже с Приветом
Posts: 10708
Joined: 22 Jul 2006 20:19

Re: 10 hot Hadoop start ups

Post by adda_ »

На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Причем в большинстве случаев используют гауссовское распределение плотности вероятности, что вообще то делается не от хорошей жизни а просто потому что нечего другого априори не могут предложить.
В реальной жизни, это все все совсем не так. Поэтому то никто никогда не сможет создать модель отражающую скажем поведение рынка и способную предсказать где и когда он взлетит и где и на чем долбанется.
А так крючков нарисовать можно сколько душе угодно и потом все это запрограммировать и втюхать лохам ушастым (инвесторам то есть). Наиболее ушлые даже нобельные премии получают в экономике за это..
User avatar
M. Ridcully
Уже с Приветом
Posts: 11999
Joined: 08 Sep 2006 20:07
Location: Силиконка

Re: 10 hot Hadoop start ups

Post by M. Ridcully »

adda_ wrote:А так крючков нарисовать можно сколько душе угодно и потом все это запрограммировать и втюхать лохам ушастым (инвесторам то есть)..
Adda, чего так мрачно?
У вас какой телефон? Я повторюсь, но скажу - меня Google Now иногда просто пугает своим ителлектом.
Я тут полный профан, но кажется мне, что во многих областях применения ML довольно простецкие алгоритмы - это всё равно сильно лучше, чем ничего. Так что начать можно и без "глубоких знаний". Потом, да, всякие там гуглы с фейсбуками могут нанять практически любого нобелевца, но эти уже бьются за доли процента, упираясь в diminishing returns - поисковики потихоньку улучшают релевантность поиска, стригут зелень с контекстной рекламы (и "лохи ушастые" вроде не бедствуют), нетфликс улучшает рекомендации...
А на привете всё сокрушаются по поводу "дилетантов".
Мир Украине. Свободу России.
User avatar
Fedot
Уже с Приветом
Posts: 2420
Joined: 18 Jul 2005 04:22
Location: Moscow -> NYC

Re: 10 hot Hadoop start ups

Post by Fedot »

adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: 10 hot Hadoop start ups

Post by Annetta »

M. Ridcully wrote: А на привете всё сокрушаются по поводу "дилетантов".
:good:
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Fedot wrote:
adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
На самом деле модель может и не работать, если, например, основывается на некорректно поставленной задаче (ill-posed problem). Модель пытается математически отражать реальность. Имеено поэтому она и применяется. Здесь два момента. Первый - насколко хорошо она эту рельность отражает. Второй, насколько сама модель (например, система диффуров) правильна (например, имеет единственное решение, устойчива и т.п.). Это как бы две разные проблемы. Мы как то все обсуzhдаем временные рyaды. Нo ведь существует большое количество "стационарных" моделей. Те же классификаторы в машинном обучении. Очень широко распространены и весьма успешны. Я бы не стал преименьшать пол моделей. Она очень велика. С другой стороны, говоря о "провалах" надо хорошо понимать ограничения. Ведь модель - лишь апроксимация реальности. Предсказывать будующее трудно. Но наука это имеет в виду. Те же временные ряды приводят к увеличении вариации при росте времени. Все логично. А при моделировании будующего надо знат будущие интервенции (говоря медицинским языком). Особенно в экономике. Но кто их знает? Даже полтика сильно переплалась с экономикой.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
В физике инвариантность есть следствие "эксперимента" (в широком понимании). Как только будет найдено "противоречие" грядет очередная революция в физике (давны бы пора, а то в физике какой-то застой). В экономике тоже сви законы. Другое дело, что в физике когда создается модель (например, система дуффуров) мы огранчиваемя лишь данным явлением. В экономике мы пытаемся моделировать бол'ше чем одно явление. Например, поведение рынка. Но там множество факторов, которые трудно учесть (например, политика, "настроение" инвесторов и т.п.). Таже проблема возникнет с физической моделью при попытке учесть множество факторов. Безусловно модел как отражение реальности может быть и неправильной. Поэтому и выводы будут неправильные, т.е. несогласующиеся с реальностью.
adda_
Уже с Приветом
Posts: 10708
Joined: 22 Jul 2006 20:19

Re: 10 hot Hadoop start ups

Post by adda_ »

Fedot wrote:
adda_ wrote:На самом деле проблема в том, что любая модель работает при каких то допущениях. Эти допущения не всегда очевидны.
Что же касается статистических моделей, то они работают если процесс эргодический и стационарный (или может быть приведен к стационарному).
Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
Модель всегда работает - это надо занести в аналы... Модель сферического коня в вакууме инвариантного во времени...

Модели нужны тогда и только тогда, когда они отражают процессы происходящие в природе или обществе. Абстрактные модели моделирующие некие явления которые нигде кроме головы моделиста не существуют, и которые можно наплодить как кроликов, не нужны никому. Иначе мы вернемся к обсуждению того сколько ангелов может уместиться на острие иголки (популярный топик для дисскуссии схоластов в средние века)..
User avatar
Boriskin
Уже с Приветом
Posts: 18862
Joined: 30 Aug 2001 09:01
Location: 3rd planet

Re: 10 hot Hadoop start ups

Post by Boriskin »

Снежная Королева wrote:А казалось бы, солидные учёные, их тоже заставляли кандидат.минимум по статистике сдавать.
Нет такого кандидатского минимума. Есть канд минимум по специальности, и если человек не занимается мат.статистикой или смежными дисциплинами, статистики там нет.
Тупизна как Энтропия. Неумолимо растет.
User avatar
Boriskin
Уже с Приветом
Posts: 18862
Joined: 30 Aug 2001 09:01
Location: 3rd planet

Re: 10 hot Hadoop start ups

Post by Boriskin »

Fedot wrote: Рынок грохнулся в 2008, никто предсказать не смог.
Почему, были люди, которые достаточно точно предсказали крах и неслабо на этом наварились; но это укладывается в рамки того, что одни "угадали", а другие - "не угадали".
Тупизна как Энтропия. Неумолимо растет.
User avatar
Boriskin
Уже с Приветом
Posts: 18862
Joined: 30 Aug 2001 09:01
Location: 3rd planet

Re: 10 hot Hadoop start ups

Post by Boriskin »

adda_ wrote:Модели нужны тогда и только тогда, когда они отражают процессы происходящие в природе или обществе.
Причем отражают корректно. Я помню, как на курсе дифуров в частных производных нам давали пример: физическую задачу и ее "грубую" модель (систему диффуров), которая на первый взгляд точно описывала задачу. Затем прогнали обратный анализ модели и показали, что на самом деле задача, которую модель описывает, не совсем та, которую надо было решить, а при некоторых условиях - вообще не та.

Корректность - необходимое условие работы модели. Иначе может оказаться, что вместа полета на Луну модель описывает погружение в Мариинскую впадину. :mrgreen:
Тупизна как Энтропия. Неумолимо растет.
mynameiszb
Уже с Приветом
Posts: 1663
Joined: 16 Jul 2009 14:18
Location: Uganda

Re: 10 hot Hadoop start ups

Post by mynameiszb »

Boriskin wrote:Корректность - необходимое условие работы модели. Иначе может оказаться, что вместа полета на Луну модель описывает погружение в Мариинскую впадину. :mrgreen:
- Чего ругаешься, хозяин! Ты же просил колодец с лампочкой, мы тебе и выкопали...
- Чертерж разверни, вредитель! Маяк я просил, ма-я-к!!!

PS. Про модели. С интересом слушаю периодически наших ядерщиков, когда они специфику обсуждают и как это реализовано. Столько новых слов узнаю :)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Вы уверены, что одно и тоже обсуждаете? Кандидатсий минимум - это в России. Кандидатский минимум (физ.мат.), как уже упоминали, сдается по специальности. Так что статистики там может и не быть в помине.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Я так и подумал. Просто решил уточнить, а то обсуждались как бы разные вещи.
User avatar
Boriskin
Уже с Приветом
Posts: 18862
Joined: 30 Aug 2001 09:01
Location: 3rd planet

Re: 10 hot Hadoop start ups

Post by Boriskin »

Снежная Королева wrote:
Boriskin wrote:
Снежная Королева wrote:А казалось бы, солидные учёные, их тоже заставляли кандидат.минимум по статистике сдавать.
Нет такого кандидатского минимума. Есть канд минимум по специальности, и если человек не занимается мат.статистикой или смежными дисциплинами, статистики там нет.
Не, всех PhD заставляют сдавать research methods (или другими словами), и там даётся какой-то минимум статистики тоже.
В России/СССР математикам мат.статистику преподают как один из обязательных курсов на диплом о ВО, однако единственная специальность, в которой статистика входит в кандминимум - это 01.01.05, коя собственно и называется "01.01.05 – Теория вероятностей и математическая статистика". В других математических специальностях мат.статистика в кандминимум по специальности не входит. Вообще и никак.

На западе, насколько мне известно, статистика входит в общий математический курс, но если человек занимается, скажем, математической логикой или, не дай бог, какой геометрией - то статистику у него никто нигде хоть как то серьезно в процессе делания PhD спрашивать не будет, знакомства с мат.статистикой на уровне ликбеза будет достаточно.

Для интереса и сравнения можете взглянуть, что именно входит в кандминимум по статистике вот тут - http://www.math.spbu.ru/ru/mmeh/AspDok/ ... 010105.pdf
Тупизна как Энтропия. Неумолимо растет.
adda_
Уже с Приветом
Posts: 10708
Joined: 22 Jul 2006 20:19

Re: 10 hot Hadoop start ups

Post by adda_ »

Снежная Королева wrote:
adda_ wrote:..никто никогда не сможет создать модель отражающую ...поведение ...
All models are wrong. Some of them useful.

Оттого что модель "неправильная", т.е. не отражает точно реальность, не означает что она бесполезна. Предсказания всегда имеют ошибку. Однако, для получения competitive advantage вовсе не обязательно делать безошибочные предсказания, достаточно просто иметь ошибку чуть-чуть меньше, чем у конкурентов. Это, кстати, не только к финансовым рынкам относится.
Вы хотите летать на самолете который построен на основании модели не точно отражающей реальность? И который поэтому регулярно падает. Или чтобы вам делали операцию скажем на сердце используя приблизительные модели описания того где оно находится (слева, справа или в жопе (пардон май френч))?

Моделей описывающих поведение рынка нет. Да все знают что он скоро должен долбануться, но когда, как сильно и каким боком это выйдет, не знает никто. Умный дядя придумал для этого слова "жирный хвост" и "черный лебедь" которыми все сейчас пользуются. Но это не намного добавило к тому что написано выше. Мы просто придумали слова которыми обозначили наше незнание.
User avatar
perasperaadastra
Уже с Приветом
Posts: 20128
Joined: 21 Feb 2009 22:55
Location: Лох Онтарио

Re: 10 hot Hadoop start ups

Post by perasperaadastra »

adda_ wrote:Моделей описывающих поведение рынка нет.
Я думаю, экономисты с вами не согласятся.
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: 10 hot Hadoop start ups

Post by Annetta »

Снежная Королева wrote: Вот на пальцах, что произошло в области оценки рисков выдачи кредитов на недвижимость....
А мужики-то не знают :-) а оказывается, можно даже на пальцах объяснить :-)
Снежная Королева wrote:Ну, я произвольно назвала "кандидатский минимум". В России я не училась, так что не знаю. А здесь у нас PhD сдают "Research Methods for Science, Engineering and related disciplines"
А у нас не сдают :pain1:
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: 10 hot Hadoop start ups

Post by fruit6 »

Похоже на пересказ баек и историй передающихся из уст в уста студентами.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

[ъуоте]
Точности не существует в природе. Вся математика - лишь отражение реальности с погрешностью, которую мы никогда не сможем точно измерить. Например, в природе не существует идеальных геометрических фигур.
[/ъуоте]

А что Вы подразумеваете под точностью? Похоже, мы переходим к вопросу о философии науки. Имеется в виду невозможность точно измерить? Кристаллы, по моему, точные геометрические фигуры. Конечно, там могут быть разные виды дислокации, смещения. Погрешность можно оценить.

[ъуоте]
Все модели неточно отражают реальность, и модели в самолётах тоже.
[/ъуоте]
Осталось выяснить, что есть неточность модели самолета (да что есть сама модель самолета)?
User avatar
Fedot
Уже с Приветом
Posts: 2420
Joined: 18 Jul 2005 04:22
Location: Moscow -> NYC

Re: 10 hot Hadoop start ups

Post by Fedot »

Organic Organization Chart

http://www.autodeskresearch.com/projects/orgorgchart

визуализация динамики организации - попробуй предсказать!
Roy
Уже с Приветом
Posts: 1234
Joined: 24 Nov 1999 10:01
Location: Seattle

Re: 10 hot Hadoop start ups

Post by Roy »

Fedot wrote: Модель всегда работает, на то она и модель, математическая абстракция. Подгоняет ли она данные? В принципе вся статистика--взять данные и подогнать какую либо модель. Если данных много, там никакой модели не надо и так все видно. Если мало, этих моделей можно придумать как кроликов , и с пеной у рта доказывать, что твоя самая лучшая. Как говорил Ландау, из бесконечного количества идиотских теорий, всегда можно выделить конечное множество согласующееся с экспериментом. В физике бытует мнение, что "законы природы" инвариантны во времени (кто знает от куда они взялись?) , в этом смысле поиск моделей/законов в каком-то смысле оправдан. В экономике, которая не является часть природы, а придумана людьми, не понятно содержится ли какая-нибудь информация в прошлом о будущем.
"All models are wrong. Some models are useful" :)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Снежная Королева wrote: А как математики придумают методы, то дальше алгоритм как обычно:
1. Вначале статистики создадут новые пакеты в R.

5. Зарплаты data scientists наконец-то упадут до 50К на старт :D
Не думаю, что математики здесь "причем". На мой взгляд, методы уже придуманы (ну может, конечно, еще придумают). Теперь задача - их распареллелить. Естественно, это не для всех методов будет работать. Я в этом и вижу текущую проблему с большими данными. Считывать их научились, но в лоб же существующие алгоритмы не применешь. Надо дистрибьютить И параллелить. На мой взгляд, е;то бол;ше задача для "ученых-программистов", а не математиков.

Не знаю, упадут ли зарплаты, но не понятно, по какой причине. Я вижу возрастающий тренд по вакансиям (мое субьективное мнение, естественно). Хороший "ученый" - он же не только умеет методы вызывать. Это лишь малая толика работы. Важно же правильно задачу сформулировать и найти ее решение. А это далеко не все умеют делать. За это и платят. Впрочем эту тему мы уже обсуждали, но с удовольствием поговорю еще.
Если будут интересные ссылки, то давайте тоже обсудим. Тама очень актуальна.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Я предполагаю, что под высокой размерностью имеется в виду именно размерность исходного пространства (т.е. размерность - это число переменных, по которым строится модель), а не само число данных. Если это так, то имеет место быть curse of dimensionality (как ето лучше по-русски). В частности, это проявляется в том, что локальные методы перестают работать (как Вы правильно пишите, падает точность, возможны неустойчивости), да и нелокальные (регрессия) тоже плохо обобщаются (помните правило bias vs. variance). Однако это природа (математическая) самих методов, а не проблема алгоритмов. Для сравнения, если Вы когда либо имели дело с так называемыми некорректно-поставленными задачами (ill-posed problems), то проблема как раз и заключается в самой природе этих задач и не зависит от алгоритмов решения. Безусловно, алгоритмы есть (в основном тихоновская регуляризация), но это основано на оптимизацинных методах, и решаетя несколько другая задача. В машинном обучении тоже самое. Большая размерность разрешается бОльшим количеством данных. Другое дело, если мы берем "последовательные" алгоритмы (например, градиентные методы), то они захлебнутся в большом потоке данных. Нужно распараллеливать, но это уже алгоритмическя и программистская задача. Я не исключаю появления новых математических методов, но ведь природу не обманешь. Некорректно поставленная задача так и останется таковой.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Еще один момент. В больших данных надо разделять "пераработку" данных (типа ETL) и построение моделей. С перераборкой как бы все ясно. Чем быстрее, тем лучше. Обратимся к методам обучения и прогнозирования (мы об этом тоже, по-моему, говорили). Какова цель создания методов для больших данных? Допустим, я могу работать с миллионом данных. Так ли мне нужно строить модель на оснoве миллиарда данных? Я не думаю, что надо. Аргументы. Рассмортим для простоты классификаторы. С математичекой точки зрения мне нужно в многомерном пространстве построить разделяющую "гипер-поверхность". Если такова существует, то не важно сколько данных я использую. Если же таковой нет, то решается оптимизациоанная задача (минимум мисклассификации). Безусловно решение зависит от количества данных. Более того, если данных "недостаточно", то могут быть приколы вроде полного разделения. Но допустим, что выборка (sample) из одной популяции. Трудно предположить, что такие приколы будут случайными при миллионе данных. Скорее всего будет получена хорошая выборка и при меньшем числе данных. Если же в качестве входных параметров я хчу исползовать 100 тысяч переменных (ясно что при миллионe данных моя модель работать скорее всего не будет), то мне стоит крепко подумать, с какого дуба я решился на такую модель. Она просто неуправляема. Модель должна быть простой (ну не совсем простой, конечно). Так зачем мне миллиард данных? Если же модель действительно зависит от милиарда, то нужно разобраться в самих данных. Наверняка это уже не одинаковая выборка (что на практике означает некие тренды). Но тогда и надо с ними вначале работать

Return to “Работа и Карьера в IT”