10 hot Hadoop start ups

Ann4Ann
Уже с Приветом
Posts: 1239
Joined: 14 Nov 2002 23:02
Location: S.Peterburg, Russia -->SoFla

Re: 10 hot Hadoop start ups

Post by Ann4Ann »

а кто-нибудь здесь работал с graph databases? у меня опыта работы с BigData вообще нет, кроме просматривания статей и форумов, но вот есть офер от компании, у них там Титан поверх Кассандры для решения большинства задач... много теории графов и линейной алгебры, и Хадуп как инструмент для решения узкого спектра задач. подумала, что если кто-то сталкивался, то, может, ткнет в толковую документацию. гуглить умею. что-то нагуглила, но советы тех, кто уже работал с всегда существенны:).
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Физик-Лирик wrote: Правда вышеперечисленных функциий явно недостаточно для анализа данных и построения моделей.
Когда будет достаточно и ничего уже не надо будет портировать это каждый дурак будет уметь и платить за скил хорошо никто не будет :)
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Сабина wrote:
Физик-Лирик wrote: Правда вышеперечисленных функциий явно недостаточно для анализа данных и построения моделей.
Когда будет достаточно и ничего уже не надо будет портировать это каждый дурак будет уметь и платить за скил хорошо никто не будет :)
Уметь что?
User avatar
dotcom
Уже с Приветом
Posts: 9035
Joined: 25 Oct 2011 19:02
Location: SVO->ORD->SFO

Re: 10 hot Hadoop start ups

Post by dotcom »

Zorkus wrote: Спарк это круто, но пока вопрос такой - существуют кластеры хадупа в 50 тысяч нодов и больше уже, полагаю. Какой размер самого крупного кластера спарка - трудно сказать. В Яхе был на 80-100 нодов вроде год или два назад. Есть ли кластеры спарка скажем в 1к нодов? Не следил, не знаю.
Я с большой вероятностью могу сказать, какого размера самый большой коммерческий кластер, хотя и не следил за тем, что контора делала последние два года. Но это все равно коммерческая тайна. :P Да, там порядки другие, чем у самых больших инсталяций хадупа.
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote:Ну тогда отвечать я не буду
Ладно, проявлю мужество и поборю свою лень. Ну вы например учились на мехмате, или какой-то другой специальности? :-) Раз уж вопрос встал.
degree major in mathematics подойдёт?
MS или PhD? :-) Я не очень уверен, что такое major in mathematics - там упор на прикладные разделы или теоретические?
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote:Ну тогда отвечать я не буду
Ладно, проявлю мужество и поборю свою лень. Ну вы например учились на мехмате, или какой-то другой специальности? :-) Раз уж вопрос встал.
degree major in mathematics подойдёт?
MS или PhD? :-) Я не очень уверен, что такое major in mathematics - там упор на прикладные разделы или теоретические?
Major in mathematics бывает очень разный: pure math, stochastic processes, mathematical physics, operations research, etc, но всё равно теоретические разделы на каком-то уровне изучают во всех направлениях. Если изучать только прикладные предметы, то это уже не major in math, а major in applied statistics, например.

У меня эквивалент бакалавра и несколько предметов мастера. Сейчас думаю, надо ли делать всего мастера, думаю, что не надо.
Ну я для себя, по российским меркам, разделяю на "applied math", когда первые года 2-2.5 Его Величество Матан, линейная алгебра, диффуры, тензоры, функциональный анализ и подобное, а потом уходит во всякие там..операционные исчисления, ур.мат.физы, реологические модели, много всякой механике, теория вероятности, стохастка.. а в pure math переходят углубленно на алгебру и на всякие группы, кольца, поля, кватернионы..не помню уже далььше :(
Last edited by Zorkus on 25 Apr 2014 07:26, edited 1 time in total.
User avatar
Komissar
Уже с Приветом
Posts: 64661
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: 10 hot Hadoop start ups

Post by Komissar »

Снежная Королева wrote:Сейчас думаю, надо ли делать всего мастера, думаю, что не надо.
Вам - не надо.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Снежная Королева wrote:
Komissar wrote:
Снежная Королева wrote:Сейчас думаю, надо ли делать всего мастера, думаю, что не надо.
Вам - не надо.
Это вы серьёзно? Почему не надо?

На самом деле я в больших раздумьях и не знаю, кто может посоветовать. Что-то даже никто не берётся. Вот Физик мог бы дать совет, наверное :oops:
Сейчас математики может найти работу в следующих областях:
1) Профессор в унивeре (нужен доктор и очень большя конкуренция).
2) Оборонка (нухзно правильное происхождение).
3) Индсутрия.
Т.к. автор хочет быть аналитиком, остановимся на 3-м пункте.
Из чисто практичеких соображений, лучше получить степень в прикладной статистике и машинном обучении. Сейчас очень популярно (особенно в связи с "Большыми данными"). Помимо "общей" теории рекомендую делать упор на софтвеерные пакеты, а также эпидемиологию и эконометрику. Под машинным обучением я имею в виду хорошее понимание предмета, а не только овладениа пакетами. К портированию кода, о чем писали выше, это отношение не имеет. Именно понимание и практическое применение анализа сейчас ценится и оплачивается. Можно дополнить образование математическим моделированием. Это будет круто. Под этим я имею в виду набор из диффуров (желательно и в частнх производных), статистики и машинного обучения, стохастических диффуров и процессов. Дополните это хорошим пониманем финансовой математики, эконометрики, эпидемиологии, временных рядов, а также методов моделирования, типа разностных схем, Монте-Карло, конечных элементов, и цены Вам не будет. Также неплохо знать парочку языков программирования.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Вне зависимости от системы образования, я считаю математиками тех, кто мыслит определёнными категориями. Я всегда и скорее всего буду работать только в бизнесе, аналитиком. От этого не становлюсь меньше математиком.
Кстати, очень правильный комментарий. Мне всегда интересно наблюдать, как люди с разным "бэкграундом (как сейчас говорят) подходят к решению аналитических задач (к коим я отношу многие бизнесс-задачи). Допустим бизнес сказал, хочу тот-то и тот то (то, что имееит количественный выход). Так вот подходы людей с хорошим математичеким образованием резко (и в лучшую сторону) отличаются от людей с чисто "бизнесс" образованием или программистами (нашим соотечественникам это не грозит, т.к. в большинстве они имеют математику). Задача должна быть вначале сформулирована, а потом ищется ее решение.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Да, забыл сказать. Из моих чисто субьективных соображений, математик с баколавром не ценится. Т.е. степень баколавра есть необходиное условие, например, если идешь в программисты. Не буду категорически утверждать, что с баколавром не найти работу аналитиком, но будет труднее. Надо по крайней мере магистра получить. Для аналитика этого вплоне достаточно. Если автор желает в индустриальную науку (типа мат. моделирования), то лучше доктора. На некоторые позиции это требование. Да и для аналитика может пригодитя. Это Вас будет выгодно отличать от остальных.

Опять-таки по чисто личным соображениям не рекомендую (повторюсь, это моя субьективная точка зрения) математических дисциплин типа общей алгебры (терии полей, колец, групп), топологии и т.п. Что касается Operation Research, ситуация не однозначна. Сейчас вроде оно как-то востребовано. Но пару лет назад разговаривал с одним человеком из этой области. Говорил, что работ не найти (хотя он имел доктора).
mynameiszb
Уже с Приветом
Posts: 1663
Joined: 16 Jul 2009 14:18
Location: Uganda

Re: 10 hot Hadoop start ups

Post by mynameiszb »

Физик-Лирик wrote:Задача должна быть вначале сформулирована, а потом ищется ее решение.
Скажем так - это в лучшем случае :)
Зачастую даже бизнес-требования сформировать не могут. "Сделайте мне хорошо" - это как формализовать?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

mynameiszb wrote:
Физик-Лирик wrote:Задача должна быть вначале сформулирована, а потом ищется ее решение.
Скажем так - это в лучшем случае :)
Зачастую даже бизнес-требования сформировать не могут. "Сделайте мне хорошо" - это как формализовать?
Это точно. :D
Еще забавнее, когда говорят, сделайте "мне хорошо", используя такой-то метод, потому что кто-то что-то когда-то сказал/услышал.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

mynameiszb wrote:
Физик-Лирик wrote:Задача должна быть вначале сформулирована, а потом ищется ее решение.
Скажем так - это в лучшем случае :)
Зачастую даже бизнес-требования сформировать не могут. "Сделайте мне хорошо" - это как формализовать?
Я давно это трактую to the best of your knowledge and experience, то бишь do your best или другими словами this is a chance to shine :mrgreen:
https://www.youtube.com/watch?v=wOwblaKmyVw
mynameiszb
Уже с Приветом
Posts: 1663
Joined: 16 Jul 2009 14:18
Location: Uganda

Re: 10 hot Hadoop start ups

Post by mynameiszb »

Сабина wrote:Я давно это трактую to the best of your knowledge and experience, то бишь do your best или другими словами this is a chance to shine :mrgreen:
Обычно это делается, чтобы переложить ответственность, а потом сделать круглые глаза и заявить: "я требовал совсем другое, а теперь посмотри, какую ... ты тут нафигачил"...
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

mynameiszb wrote:
Сабина wrote:Я давно это трактую to the best of your knowledge and experience, то бишь do your best или другими словами this is a chance to shine :mrgreen:
Обычно это делается, чтобы переложить ответственность, а потом сделать круглые глаза и заявить: "я требовал совсем другое, а теперь посмотри, какую ... ты тут нафигачил"...
Ну е мое, если я отвечаю сделано будет в лучшем виде, а значит никаких закатанных глаз быть не может :). Мне кажется тут только с таким атитюдом чего то добьешься ;)
https://www.youtube.com/watch?v=wOwblaKmyVw
mynameiszb
Уже с Приветом
Posts: 1663
Joined: 16 Jul 2009 14:18
Location: Uganda

Re: 10 hot Hadoop start ups

Post by mynameiszb »

Сабина wrote:Ну е мое, если я отвечаю сделано будет в лучшем виде, а значит никаких закатанных глаз быть не может :). Мне кажется тут только с таким атитюдом чего то добьешься ;)
Был свидетелем несколько лет назад.

1. Начальник отдела поставил задачу. Его зам хотел срочно что-то себе проапрувить, поэтому на совещании влез в обсуждение "чего бы нам почесать, чтобы было хорошо" и пообещал, что эту штуку он выполнит в момент. А то, что у него еще 150 дел - так это не беда. Да и вон, например, Вася поможет.
2. Вася был молодой и начинающий, у него язык не повернулся сказать "нет", он покивал - типа, да, мы с мудрым гением отодвинем эти 150 дел и сделаем.
3. В итоге было еще несколько совещаний, на которых брались доп-обязательства, но Васю никто даже в известность не ставил.
4. На каком-то промежуточном подведении итогов всплыло, что Вася хоть и сидит сутками - но все обещанное сделать не успевает.
5. Зам устроил истерику, что "как же так, ведь Вася нам обещал, что он все сделает"
6. Васю выперли тем же вечером...

Хо 1: Не важно, что ты обещаешь. Есть еще 150 разных политических игр, которые могут быть использованы другими, чтобы прикрыть личную любимую задницу.
Хо 2: Формализация требований - рулит. Особенно, когда это все оформлено в виде письма с копиями по инстациям. Поэтому я, например, после любого совещания пишу краткий Sum Up : "слушали, обсудили, назначили крайними, сроки выставили"... И по любому внезапному возбуждению тупо тыкаю в письмо и прошу в письменном виде любые рекламации.
Хо 3: От увольнения это вряд ли защитит, но хотя бы у самого будет понимание, в какую именно задницу залез наш сферический конь в вакууме...

PS. Как написано депелоперской кровью в Бусидо офисного самурая:
- Пусть истинного офисного самурая - это путь к увольнению
- Так давайте же пройдем его с честью...
( копирайты не помню, но весь кодекс легко гуглится )...

PPS. Можно не обращать внимания. Это у меня конец интеграционной недели и предстоящая командировка с флагом "все починить, доделать и готовность - еще вчера" :)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

mynameiszb wrote: PPS. Можно не обращать внимания. Это у меня конец интеграционной недели и предстоящая командировка с флагом "все починить, доделать и готовность - еще вчера" :)
Я так и поняла да. Спроси меня в такую полосу про attitude - ой че будет :).
Но это я так для балансу :wink:
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Снежная Королева wrote:
Физик-Лирик wrote:Из чисто практичеких соображений, лучше получить степень в прикладной статистике и машинном обучении. Сейчас очень популярно (особенно в связи с "Большыми данными"). Помимо "общей" теории рекомендую делать упор на софтвеерные пакеты, а также эпидемиологию и эконометрику. Под машинным обучением я имею в виду хорошее понимание предмета, а не только овладениа пакетами. К портированию кода, о чем писали выше, это отношение не имеет. Именно понимание и практическое применение анализа сейчас ценится и оплачивается. Можно дополнить образование математическим моделированием. Это будет круто. Под этим я имею в виду набор из диффуров (желательно и в частнх производных), статистики и машинного обучения, стохастических диффуров и процессов. Дополните это хорошим пониманем финансовой математики, эконометрики, эпидемиологии, временных рядов, а также методов моделирования, типа разностных схем, Монте-Карло, конечных элементов, и цены Вам не будет. Также неплохо знать парочку языков программирования.
Какие софтверные пакеты и языки программирования? R + Python (ну и SQL само собой) недостаточно? Что нужно для big data?

Пойду ещё подумаю и спрошу. Большое спасибо :fr:
Этого вплоне достаточно для начала. Если есть возможность выучите какой-нибудь "традиционый" язык. Думаю "кора" будет достаточно. Неплохо бы знать один скрипт, но Вы его уже перечислили. Вы учите именно как язык, а не только как приложение для анализа данных.
Для больших данных вопрос боле запутанный. Постараейтесь посмотреть все то, что перечисленно в этом топике. Программ Вам писать не нужны только приложения.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Цель: data scientist :oops: среднего уровня
Ну зачем же среднего. Ставьте высокие цели.

Понятие "ученого по данным" сейчас имеет очень широкое толкование. Очень часто под этим подразумевают ETL. Мне это не очень интересно в силу своих собственных наклонностей. Здесь надо знать все основные тулсы (включая пчелу и свинью). Мне более интересны математичекие модели с применением диффуров, статистических и машинных методов. Именно это я называю мат.моделированием. Есть еще термин - "predictive modeling". В принципе это тот же "data science". Во общем куча всяких названий сейчас в индустрии. Прогнозироваие - это машинное обучение или построение моделей на основе диффуров, включая стохастичекие диффуры.
Вам надо определиться, в какой индустрии Вы хoтите работать. Если Вы не хотите в индустриальную науку (как Вы пишите), то первый универ - Ваш выбор. Если Вы все-таки не закрываете за собой дверь в науку - то второй универ. Второй мне нравится больше, но все зависит от Ваших конктертных обстоятельств. Магистра лучше иметь чем не иметь. Однако в науке надо либо магистра из престижного или доктора.

Помимо общих курсов по статистике, языку и машинному обучению я бы обратил внимание на проложения. Я уже упоминал, что таковыми сейчас являются - медицина (неплохо бы посмотреть на эпидемиологию), финансы (здесь фин. математика, ряды, риски), продажи и реклама. Все выучить - это задача следущих двух пятилеток. Короче, Вам надо найти свою нишу. В финансы попасть сложно, осoбенно если нет опыта или финансового образования (не гoворю, что невозможно).
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

В индустриальной науке обязателен PhD. Поскольку ею занимаются очень мало компаний, плюс гос."НИИ", в котором, кстати, постоянные сокращения финансирования, постоянную работу там получают только PhD. То есть для меня это вообще не вариант.
На самом деле компаний не так уж и мало, и, в принципе, магистра может быть и достаточно. Все зависит от научной вовлеченности. Для аналиста магистр очень нормально. Доктор может улучшить положение и раскроет больше возможностей.
Потому, останавливаюсь на "продажи и реклама".
Согласен, рынок труда здесь может быть весьма перспективным, особенно в связи с "большими данными". Если это Ваша ниша, работайте в этом направлении. Посмотрите книги на предемт применения мат. методов в бизнесе. Сейчас их много.
Изучать стохастические диффуры, как мне кажется, может оказаться большой потерей времени. Что используется: то, что вы сможете объяснить начальству/клиенту, т.е. большой упор делается на interpretability. Обычно все варианты линейных моделей и/или decision trees. Time series forecasting изредка, ну и ещё несколько несложных моделей. Пойнт в том, что это всё я либо уже знаю, ли могу освоить по книжкам+MOOCs.
Безусловно, бизнес интересует именно "интерпретация". Однако, как мы здесь обсуждали, надо уметь формулировать задачи. Поэтому хорошй мат. бекграунд просто необходим.
Если есть время, посмотрите на то, что Вы "знаете" с другой точки зрения. Например, на теорию вероятности с точки зрения Колмогоровской теории. К своему великому удивлению Вы откроете много нового даже там, что казалось очевидным. А как изучать временные ряды без теoрии случайных величин я вообще не представляю. Но это в свободное время, т.к. займет уйму времени. Но может пригодиться.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Можете что-то посоветовать с применением в big data? Именно тут я не улавливаю суть: к примеру, я знаю, как правильно применить метод, ту же logistic regression или decision tree с целью классификации, но если данных слишком много, в R уже не хватает операционной памяти, что делать?
Именно этот вопрос я и задавал аудитории ... :D
Есть два подхода. Первый - махаутировать (купите единственную на данный момент книгу и смотрите онлайн документацию). Библиотека неплохая, но не полная. Там Вы найдете классификаторы (регрессию, RF, Байес, SVM), рекомедеры и кластеры. Это библиотека уже заточена под большие данные. Можно либо использовать командые строки либо вызыват уже имеющиеся Java классы. Следует отметить, что не все алгоритмы можо параллелить. Например, регрессия (хотя она и так быстрая) и юзеровские рекомендеры (только айтемовские) не параллелятся. Втoрой подход - это использовать "обычный" стат. пакет. Вопрос, хватит ли миллиона данных, чтобы обучить модель? Тема широко дисскутируется. Можно, например, взять миллион данных (стат. пакет это проглотит), научить модель и оценить точность (на дополнительном наборе). Потом выбрать другой миллион, обучить модель, оценить точность. И т.д. Типа кросс валидации. Если результаты "близки", то миллиона хватит. Таким образом у Вас будет модель, а далее гоняете ее на новых данных (либо напрямую либо через тулсы типа свиньи, может понадобится мэпредьюс). Если дискриминация классов хорошая, то миллиона точно хватит.Если нет, не уверен, что классификатор вообще хороший.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

согласна, и хорошему предела нет. Как раз сейчас изучаю measured theoretic probability theory. Это поглощает совершенно всё свободное от работы время. Нужно ли идти дальше и изучать, скажем, martingales? Поможет ли мне в жизни доказательство Central Limit Theorem? сомневаюсь... А вот если я научусь применять logistic regression to the 3 millions observations datasets, это действительно нужный skill. К сожалению, в моих университетах этому не учат...
Если Вы свободно владеете функциональным анализом и хорошо понимаете теории меры, сигму-алгебру, случайные величины как измереимые функции и как на их основе интерпретировать вероятностные модели, то непонятно, почему Вы хотите довольствоваться скромной ролью аналитика. Далеко не все (мягко говоря) это знают. Это очень серьезный мат. аппарат, и если Вы им владеете, то понятное дело, надо "продвигаться". Доказателства Вам помогут именно в понимании. Здесь в местных универах почти нет доказательств. Я считаю это очень серьезным недостатком. Именно доказательства дают возможность понимать как все работает, понимать ограничения моделей и т.п. Мартингейлы хороши сами по себе. В основном их применяют в финансах. Я бы порекомендовал остановиться на Броуновском движении (если хотите экзотики, посмотрите на построение Винеровского процесса). Конечно, никто Вас об этом спрашивать не будет. Но если, например, понимать, что прогнозирование - это проекция на пространство измеримых функий и обычно аппроксимируется проекцией на линейную комбинацию фунцкий в Гильбертовом прострастве, то это прикольно, и как то все становится в голове на место. Опять-таки, никто об этом спрашивать не будет, но можно пустить пыль в глаза на интервью (что я люблю делать :oops: ) или среди коллег (правда потом народ ныть начинает, что ничего не понимают мол, но в этом и весь прикол, главное не переборщить, зато хорошо можно душу отвести :ROFL: ).

А вообще в науке есть две ступени. Первая - постановка задачи и выбор метода. Вторая ступень - заставить метод работать. К сожамению, в машинном обучении все большие теории быстро заканчиваются, и начинается искусство, а не наука. Поэтому я больше диффуры люблю. :great:
Roy
Уже с Приветом
Posts: 1234
Joined: 24 Nov 1999 10:01
Location: Seattle

Re: 10 hot Hadoop start ups

Post by Roy »

А у меня вопрос с обратной стороны. По профессии программист, но всегда хотелось более фундаментально разобраться в Machine Learning. T.e. не только уметь применить алгоритм, но и написать свою версию, или сделать его работающим в distributed environment. С какой стороны подходить? Есть мат образование (теоретик) из среднего украинского ВУЗа. Здесь уже взял несколько курсов по статистике в UW. Пытался ходить на классы уровня MS of Statistics, но там уже начиналась конкретная жесть, надо full time учиться. Что посоветуете делать?

Ещё отдельным вопросом: в последнее время заинтересовали Graphical Models. Такое ощущение, что за ними будущее. Что на этом фронте происходит в практичеком плане? Какие есть библиотеки, как они работают с Big Data?
Физик-Лирик wrote: Если Вы свободно владеете функциональным анализом и хорошо понимаете теории меры, сигму-алгебру, случайные величины как измереимые функции и как на их основе интерпретировать вероятностные модели, то непонятно, почему Вы хотите довольствоваться скромной ролью аналитика.
Кстати, что здесь в US является аналогом нашего функиионально анализа (если брать курс по книге Колмогорова как определение "нашего")?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Кстати, что здесь в US является аналогом нашего функиионально анализа (если брать курс по книге Колмогорова как определение "нашего")?
Real Analysis. Книга здесь переведена. В принципе термин "Функциональный Анализ" тоzhе используется, но если брать теорию меры, то все-таки Real Analysis.
А у меня вопрос с обратной стороны. По профессии программист, но всегда хотелось более фундаментально разобраться в Machine Learning. T.e. не только уметь применить алгоритм, но и написать свою версию, или сделать его работающим в distributed environment. С какой стороны подходить? Есть мат образование (теоретик) из среднего украинского ВУЗа. Здесь уже взял несколько курсов по статистике в UW. Пытался ходить на классы уровня MS of Statistics, но там уже начиналась конкретная жесть, надо full time учиться. Что посоветуете делать?
С хоришм мат. образованием самому разобраться в машинном обучении не так уж сложно. Совсем необязательно брать классы в универе. Другое дело, если нужна формальная бумажка. Книг много. Посмотрите на Инете. Так много рекомендаций от книг с "простым" описанием, до книг со строгой теорией. Я предпочитаю "оранжевые" книги со строгой теорией. Фундаментальность зависит от Ваших вкусов. Если хотите особой остроты - залезайте в простанства с мерой. Как я упомнал выше - это приятное времяпрeпровождение (но не практично). Более практичекий подход - это книги и учебники с "формулами". Кстати, если Вы хотите их программировать, то там и найдете теорию. Останется лишь "распараллелить" алгоритмы. Как это сделать я не знаю, т.к. мне это не особенно интересно. Наверное, надо подсоединитья к отрытому проекту.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

На самом деле теория вероятности может быть более интересной. Машинное обучение можно и самому освоить. Я бы обратил внимание на софты, которые в универах бесплатные для студентов, а не для студентов $$$. Выучите, сдайте на сертификат.

Если уже есть степень, вопрос в том, нужен ли магистр в статистике, если человек не будет там особо работать?

Просветите по поводу графических моделей? Может оно и мне надо. :D

Еще раз подчеркну. Для "обыкновенного" аналиста особо теорий не нужно. В основном - это умения пользоваться пакетами, понимая при этом, что эти методы делают. Теория больше понадобиться, если более в "научной" области и/или работаешь над моделями.

Return to “Работа и Карьера в IT”