как живется data scientistам нынче?

Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

KotKot wrote:Дармоеды это те, кто повыше по рангу. Чем выше, тем больше.

Хотя с точки зрения дворника да, Дармоед.
:D

Думаю, что описанная выше должность называется дейта аналист (ака дейта сайнтист).
Сейчас если хотя какие данные манипулируешь - значит дейта сайнтист. :D
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Dweller wrote:Область хорошая и интересная, сижу в ней больше 10 лет.
Основные преимущества пожалуй это то что можно упражнять мозги интересными вещами за казенные деньги, плюс почти полное отсутствие продакшна со всеми вытекающими т.к. все происходит в оффлайне. Если продакшн и есть то не customer facing а обработка данных.
Анализировать данные можно в разных целях
1) для улучшения продукта или создания нового продукта
2) для аналитических услуг своим клиентам
Знание как работают распределенные системы нужно т.к. данные идут оттуда. Нужно хорошее знание статистики. Кодировать тоже нужно уметь но архитектить большие системы не надо
В общем должен быть довольно большой набор разнообразных скиллзов
В больших компаниях скорее всего можно сидеть в R, python, и запускать готовые библиотеки на одном компе на небольших данных
Основная проблема в том, что за такое время все алгоритмы будут уже выученными и становится непонятным, что делать дальше в смысле собственного развития. Остается одно - менять сами бизнес задачи. А для этого надо прыгать из отрасли в отрасль или хотя бы из конторы в контору. Скукота короче. Помогают новые дистрибутивные технологии, особенно сейчас. Но это тоже скоро пройдет. В этом плане лучше не дейта сайнс, а мат. моделирование в широком смысле. Там и маш. обучение, и статистика, и прогнозирование, и диффуры, и ряды. Там есть чем скуку снять. А так только в бизнес аналистов остается формулами плеваться. Забавно, конечно, но тоже в конце концов надоест. :sadcry:
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:У нас скука снимается тем, что все через ж и приходится извращаться. Типа сделайте нам прогноз потребления, но данные по клиентам мы вам не дадим, и последние данные по потреблению очень приблизительные, мы их меняем каждый день, а старые не храним. Прогноз должен выводиться на эту машину, но на ней нельзя ничего устанавливать, как будете туда закачивать прогноз - ваши проблемы. Командной строкой делать ничего нельзя, все забанено, библиотеки в питоне не устанавливаются, тк нет доступа. Качайте и дома и устанавливайте руками. И много, много таких дурацких моментов, которые отнимают 90 процентов времени. Но иногда бывает интересно обойти врага (IT).
Действительно, от такого не заскучаешь, а сразу в состоянии тоски войдешь. А вообще я давно удивляюсь (теперь уже нет), как определенные личности начальниками становятся. Описанный выше бардак есть тому наглядное подтверждение. Похоже бардак и начальники одинаковые на всех материках.
Снежная Королева wrote:
А что делать, если у начальства у самого пиэйчди в физике :cry:
Попытаться перенять опыт. Начальник со степенью, если только без выкидонов - это хорошо. У меня были такие.
Можно приятно о науке поговорить. А вот что делать, когда начальник с непонятным бакалавром из непонятно какого места? Вот тогда
тихий ужас. Нет, в принципе есть адекватные. Понимают, что ничего не понимают. Овертайм предложат, из дома поработать. Кайф просто. Но ведь есть и такие, которые не понимают, что ничего не понимают. Ведь говорят же, что не столь страшен ди...л, сколь активный ди...л. :D
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:Я на идиотов начальников принципиально не работаю. Пока не выясню все credentials команды, на интервью вообще не иду. У всей команды должны быть masters in hard science как минимум, у начальника - PhD in hard science, и он должен быть белый австралиец. Только так будет покой, rational decision making и отсутствие мозгоклюйства. У нас даже у начальника моего начальника undergrad in maths, хоть он и не помнит ничего уже за 20 лет в бизнесе, но аналитиков уважает :) а если я вижу business/economics/MBA/engineering обычно ничего хорошего от такой работы.
Начальник может поменяться уже в процессе работы. Не всегда охота сваливать из-за этого. Да и на контракте по большому счету начальник не так уж важен. Все равно закончится. Собственно я больше на младший/средний менеджмент ссылался. К счастью, в определенный момент карьеры средний менеджмент становится уже по одному месту. Как правило, высший все-таки адекватен (иначе конторе капец). Ну а общение с бизнесом как-нибудь всегда налаживается. :D
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Cколько откладывал изучение R, а надо все же начинать. Загрузил R и RStudio, начал смотреть лекции вот этого курса
https://class.coursera.org/rprog-034" onclick="window.open(this.href);return false;

Впечатление от курса очень хорошее. От самого R по сравнению с SAS ом пока что тоже, хотя бы учитывая то, что не надо парить мозг с лицензиями и прочей ерундой, просто скачал и все.

Вопросы
-Если есть общий Data Science/Data Analysis background, сколько времени нужно учить R, чтобы на интервью можно было сказать "я знаю R" и в случае чего ответить на базовые вопросы?
-Какие еще посоветоуете источники по изучению сего продукта?
-Что еще можно выучить, чтобы максимально повысить свою привлекательность на рынке за достаточно короткий срок (скажем, несколько месяцев максимум)?
Из своей головы не эмигрируешь.
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Снежная Королева wrote:Я на идиотов начальников принципиально не работаю. Пока не выясню все credentials команды, на интервью вообще не иду. У всей команды должны быть masters in hard science как минимум, у начальника - PhD in hard science, и он должен быть белый австралиец. Только так будет покой, rational decision making и отсутствие мозгоклюйства. У нас даже у начальника моего начальника undergrad in maths, хоть он и не помнит ничего уже за 20 лет в бизнесе, но аналитиков уважает :) а если я вижу business/economics/MBA/engineering обычно ничего хорошего от такой работы.
каким способом выясняете все credentials команды и прогнозируете их rational decision making? Linkedin?
мне кажется новое место это всегда в той или иной мере кот в мешке
User avatar
Komissar
Уже с Приветом
Posts: 64661
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: как живется data scientistам нынче?

Post by Komissar »

Космос wrote:[новое место это всегда в той или иной мере кот в мешке
и не просто кот, а КотКот в мешке. 8)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

KotKot wrote: Вопросы
-Если есть общий Data Science/Data Analysis background, сколько времени нужно учить R, чтобы на интервью можно было сказать "я знаю R" и в случае чего ответить на базовые вопросы?
-Какие еще посоветоуете источники по изучению сего продукта?
-Что еще можно выучить, чтобы максимально повысить свою привлекательность на рынке за достаточно короткий срок (скажем, несколько месяцев максимум)?
1) Несколько часов, чтобы начать программировать. Пару дней, чтобы познакомится с основными объектами.
На интервью скажите, что это объектно-ориентированный язык (в смысле, что все "переменные" там - объекты),
и все поймут, что все нормально. Несколько недель / месяцев активного программирование, чтобы овладеть
разными "приколами" и "штучками". Здесь недавно уже тема обсуждалась. Сам язык выучит несложно. Главное -
аппликации.
2) Взять какой-нибудь онлайновский тюториал. Можете книжку купить. Посмотрите, какие сейчас рекомендуют.
Я в свое время начал с книжки (названия не помню), потом онлайн. Процесс быстро идет.
3) Какова конкретная цель? Ответ будет зависеть от этого. Напишите конкретно чем планируете заниматься.
Я недавно в одной из тем описывал некий набор. С удовольствием повторю, если не найдете. Но зависит от целей.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:Мы недавно писали, что нужно для R. Напишите, что вы делаете в SAS, я напишу, что нужно для R.

Но вообще я заметила, что это очень непросто ментально поменять язык. Сама несколько раз пыталась перейти на питон. Вроде все понятно, чужой код читаю, игрушечные проекты делаю, а как доходит до рабочего проекта, то бросаю и перехожу в R.
У меня тоже самое. Это потому, что языки "похожи" (для анализа, естественно; так они не похожи). В результате нет изюминки, и соответственно возникает вопрос, зачем писать на другом языке, если все можно делать на привычном, тем более, что синтакс близок, но не полностью. Раздражение одно, и создается впечатление полного геммора. :pain1: Другое дело, если нет выбора. А когда он есть, тогда все делается на "родном" языке. Лучше учить, когда есть изюминка. Я, например, пришел в восторг, когда попробовал Скалу на Спарке. Этакий возбуждающий эффект. :lol:
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Физик-Лирик wrote:
KotKot wrote: Вопросы
-Если есть общий Data Science/Data Analysis background, сколько времени нужно учить R, чтобы на интервью можно было сказать "я знаю R" и в случае чего ответить на базовые вопросы?
-Какие еще посоветоуете источники по изучению сего продукта?
-Что еще можно выучить, чтобы максимально повысить свою привлекательность на рынке за достаточно короткий срок (скажем, несколько месяцев максимум)?
1) Несколько часов, чтобы начать программировать. Пару дней, чтобы познакомится с основными объектами.
На интервью скажите, что это объектно-ориентированный язык (в смысле, что все "переменные" там - объекты),
и все поймут, что все нормально. Несколько недель / месяцев активного программирование, чтобы овладеть
разными "приколами" и "штучками". Здесь недавно уже тема обсуждалась. Сам язык выучит несложно. Главное -
аппликации.
2) Взять какой-нибудь онлайновский тюториал. Можете книжку купить. Посмотрите, какие сейчас рекомендуют.
Я в свое время начал с книжки (названия не помню), потом онлайн. Процесс быстро идет.
3) Какова конкретная цель? Ответ будет зависеть от этого. Напишите конкретно чем планируете заниматься.
Я недавно в одной из тем описывал некий набор. С удовольствием повторю, если не найдете. Но зависит от целей.
1) Я так и понял, что много времени не понадобится для того, чтобы понять самые основы.
2) Одну книжку я уже нашел, причем она бесплатная и прилагается к курсу на Coursera, ссылку на который я давал выше https://www.cs.upc.edu/~robert/teaching ... amming.pdf" onclick="window.open(this.href);return false;
3) Cначала опишу свой skill set в общем. Background in Business/Economics, то есть не программист, хотя знаю SAS и SQL. Немного знаю Big Data tools (проходил курсы, есть материалы, но на практике почти не использовал).
Также есть знания по статистике, хотя и нет формального статистического образования - sampling, descriptive stats, distributions, statistical tests, correlation, regression analysis including logistic regression. SAS в основном использую для достаточно простого с технической точки зрения анализа, включающего простые арифметические действия и иногда выше указанные статистические методы. SQL использую для data pulls.
Цель - повысить свою стоимость и востребованность на рынке как Data Scientist (или Data Analyst, если угодно).
Как видно из описания, нынешний skill set во-первых заточен под большие компании, во-вторых, то же самое может быть сделано толковым индусом, то есть такого специалиста легко заменить или аутсорсить. Хочется приобрести skills, которые, во-первых, помогут выделиться и заработать больше в традиционных крупных компаниях, во-вторых, дадут возможность искать работу в менее традиционных местах - стартапах, fintech companies, consulting/analytics shops, etc.
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:Мы недавно писали, что нужно для R. Напишите, что вы делаете в SAS, я напишу, что нужно для R.

Но вообще я заметила, что это очень непросто ментально поменять язык. Сама несколько раз пыталась перейти на питон. Вроде все понятно, чужой код читаю, игрушечные проекты делаю, а как доходит до рабочего проекта, то бросаю и перехожу в R.
Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:Вам надо не R учить, а математику и machine learning (predictive modelling). Язык сам не важен, важно то, что вы умеете на нем делать. Все, что делает R, можно сделать и в SAS, если есть библиотеки (т.е их не надо покупать).

Простой вопрос: как у вас с линейной алгеброй и калькулюсом?
И то, и другое изучал в школе и университете и получал очень хорошие оценки, но в работе практически не использую, поэтому многое подзабылось.
Из своей головы не эмигрируешь.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Идея выучить R возникла в связи с тем, что сейчас не такой уж большой спрос на специалистов, которые знают SAS, а все больше R/Java/Python/Big Data требуются либо вместе с SAS/SQL, либо даже без упоминания SAS
Из своей головы не эмигрируешь.
notknown
Уже с Приветом
Posts: 17494
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

Снежная Королева wrote:Вам надо не R учить, а математику и machine learning (predictive modelling). Язык сам не важен, важно то, что вы умеете на нем делать. Все, что делает R, можно сделать и в SAS, если есть библиотеки (т.е их не надо покупать).

Простой вопрос: как у вас с линейной алгеброй и калькулюсом?
Вот :umnik1: мне тоже самое - именно надо переучиваться/доучиваться математике. Саму R выучить ерунда и мне R очень нравится, а на Hadley Wickamskie мозги я вобще по-моему crash развила (первый раз в жизни такое со мной :oops: ). Но! без математики далеко не уедешь - я бы в жизни не приняла никого на работу как Дата аналитик без знания математики. А вот где бы время найти. :cry:

Кстати, вопрос, если я потихоньку просто буду подтягиваться в статистике - ето же без хорошего знания калькулуса и линейной алгебры хватит? Я конечно много что изучала в прошлой жизни, но ето было давно и неправда.

Не помню - здесь писали про kaggle.com ? Хорошее место проверить готов ли кто искать работу как дата аналитик.
notknown
Уже с Приветом
Posts: 17494
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

KotKot wrote:Идея выучить R возникла в связи с тем, что сейчас не такой уж большой спрос на специалистов, которые знают SAS, а все больше R/Java/Python/Big Data требуются либо вместе с SAS/SQL, либо даже без упоминания SAS
Загуглите - я где-то видела докумнет/книга специально для тех кому надо переучиваться на R с SAS. Я-биолог. Наш теперешний начальник тоже, но с математикой и тоже выученный на SAS. Не хочет переучиваться на R почему-то. С другой стороны моя дитя, которая математике на Matlab обученная, когда надо была на R график сделать - села и сделала. Мне почему-то кажется что с SAS особо трудно переучиваться, но я SAS совсем не знаю, так наблюдения.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

KotKot wrote: Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
1) Язык, на котором Вы работаете сейчас, достаточно востребован. Даже у меня у самого есть сертификат
(сдал когда-то для интереса). В резюме хорошо выглядит. Делеко не все конторы работаю с опен соурсем.
Так что не следут Вашим ценным навыком пренебрегать. Очень пригодится.
2) У Вас классический набор бизнес-аналитика и это тоже ценно. С дескриптив статистикой далеко не уйдешь,
но ценится.
3) Какие биг дейта тулс знаете? Рекомендую Хадуп, Спарк (становится популярным), Пиг и Хайв. Т.к. сиквел
Вы знаете с Хавом проблем не будет. Пиг - достаточно несожный и приятный. Я бы рекомендовал с них и начать,
но придется Хадуп установить.
4) Далее, надо решить, будите ли двигаться в маш. обучение и статистику. Если да, то надо посмотреть
книжки. Я предпочитаю с оранжевыми обложками (люблю это издательство), но там много формул. Может имеет
смысл начать с вводных книг. Наверное, имеет смысл купить книги по маш. обучению на R (таких несколько,
легко найдете). Тогда сразу достигните двух целей.
5) Имеет смысл продолжить изучение инференциальной статистики. Это точечные оценки, интервальные оценки
и гипотезы. Для этого рекомендую книги по биостатистике (не смущайтесь названием, просто в них содержится
описание тестов типа т-теста, ановы, кай-скуаре, проерки гипотез, пи-валью и т.п.). Собственно маш. обучение
- это тоже инферециальная статистика (+ оптимизация).
6) Чтобы научиться вызывать правильные языковые функции (например, регрессию) для анализа потребуется
несколько недель/ месяцев. Зависит, сколько "функций" хотите освоить. Чтобы основательно выучить статистику
с маш. обучением - по крайней мере годик, а то и два. Практически все маш. обучение основано на решении
оптимизационных задач (с ограничениями) да еще с регуляризационным параметром, так что надо будет оптимизацию
повторять.
7) Нужна ли она вся эта "математика" - наверное нет. Большинство понятия не имеет. Лично много раз убеждался.
Не исключено, что достаточно освоить "функции" из языка и понимать, что они делают.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

notknown wrote:
Кстати, вопрос, если я потихоньку просто буду подтягиваться в статистике - ето же без хорошего знания калькулуса и линейной алгебры хватит? Я конечно много что изучала в прошлой жизни, но ето было давно и неправда.
Для дескриптив статистики - калкулус и алгебра не нужны, для инференционной - нужны.
Но скорее всего Вы этим напрямую заниматься не будете (например, лаклихуд максимизировать).
Скорее всего будите вызывать готовые функции.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Снежная Королева wrote:
Отличный курс (free) c приложением очень хорошей (free) книжки есть у станфорда, statistical machine learning называется. Это начальный уровень, он сильно упрощен, но качество очень хорошее. Опять же, без линейной алгебры, калькулюса и теории оптимизации там делать нечего.
Этот курс? https://www.coursera.org/learn/machine-learning" onclick="window.open(this.href);return false;

Который Andrew Ng?
Из своей головы не эмигрируешь.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: как живется data scientistам нынче?

Post by Физик-Лирик »

Снежная Королева wrote:Физик, это вам так кажется, что вам не нужна математика, а достаточно освоить функции. Потому что вы математику в голове делаете. А если вас разбудить в два часа утра и спросить разницу между lasso и ridge regression, вы круг и diamond тут же нарисуете. Это стандартный вопрос на data science interview. Которое KotKot не пройдет, если будут спрашивать технические вопросы.
Да, на такой вопрос я бы небрежно кинул несколько фраз про L1 и L2 оптимизаци и развил теорию Тихоновской регуляризации. Далее я бы сказал, про обнуление коэффициентов. Потом, что никогда бы не стал применять линейную регрессию, а применил бы рендом форест
или бустинг (GBM). Ну а если серьезно, то мне таких вопросов не задавали, и я сильно сомневаюсь, что нашим коллегам, которым мы здесь даем рекомендации, зададут. По крайней мере, если это будут бизнес позиции. Я тут недавно разговаривал с человеком, который дейта сантист. Кстати нормальный спец. Ну и что, после моих фраз о нахождении собственных векторов корреляционной матрицы для определения принципиальных компонент, человек как-то спекся. Не будут ничего задавать, если только не научная контора или
группа. Скорее будут спрашивать, как решать бизнес задачи.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Физик-Лирик wrote:
KotKot wrote: Я написал что делаю в общем виде выше в ответе Физику-Лирику. Конкретно в SAS в основном использую
-Data steps - formatting, merging, etc
-Proc SQL
-Proc means, summary, freq, etc for reporting. Графики чаще всего рисую в экселе на основе получающихся таблиц.
-Macros and macro variables, arrays - иногда
-Proc univariate, corr и др. стат анализ - иногда
-Proc reg, proc logistic - реже
1) Язык, на котором Вы работаете сейчас, достаточно востребован. Даже у меня у самого есть сертификат
(сдал когда-то для интереса). В резюме хорошо выглядит. Делеко не все конторы работаю с опен соурсем.
Так что не следут Вашим ценным навыком пренебрегать. Очень пригодится.
2) У Вас классический набор бизнес-аналитика и это тоже ценно. С дескриптив статистикой далеко не уйдешь,
но ценится.
3) Какие биг дейта тулс знаете? Рекомендую Хадуп, Спарк (становится популярным), Пиг и Хайв. Т.к. сиквел
Вы знаете с Хавом проблем не будет. Пиг - достаточно несожный и приятный. Я бы рекомендовал с них и начать,
но придется Хадуп установить.
4) Далее, надо решить, будите ли двигаться в маш. обучение и статистику. Если да, то надо посмотреть
книжки. Я предпочитаю с оранжевыми обложками (люблю это издательство), но там много формул. Может имеет
смысл начать с вводных книг. Наверное, имеет смысл купить книги по маш. обучению на R (таких несколько,
легко найдете). Тогда сразу достигните двух целей.
5) Имеет смысл продолжить изучение инференциальной статистики. Это точечные оценки, интервальные оценки
и гипотезы. Для этого рекомендую книги по биостатистике (не смущайтесь названием, просто в них содержится
описание тестов типа т-теста, ановы, кай-скуаре, проерки гипотез, пи-валью и т.п.). Собственно маш. обучение
- это тоже инферециальная статистика (+ оптимизация).
6) Чтобы научиться вызывать правильные языковые функции (например, регрессию) для анализа потребуется
несколько недель/ месяцев. Зависит, сколько "функций" хотите освоить. Чтобы основательно выучить статистику
с маш. обучением - по крайней мере годик, а то и два. Практически все маш. обучение основано на решении
оптимизационных задач (с ограничениями) да еще с регуляризационным параметром, так что надо будет оптимизацию
повторять.
7) Нужна ли она вся эта "математика" - наверное нет. Большинство понятия не имеет. Лично много раз убеждался.
Не исключено, что достаточно освоить "функции" из языка и понимать, что они делают.
1 и 2) Согласен, спасибо
3) Изучал Hadoop, Pig and Hive. На практике почти не использовал, но общее представление имею и при необходимости могу быстро повторить, все материалы имеются и даже доступ к данным и tools. Считаете, что лучше на это налечь сперва, чем на R?
4 и 5 и 6) В разное время я изучал hypothesis testing - t-test, anova & chi-square время от времени даже применял на практике. Кроме этого, изучал матрицы, основы вероятности и мат статистику, регрессионный анализ (mostly linear regression), а также оптимизацию (linear programming). В настоящее время то, что осталось в голове - смесь знаний и терминов на русском и английском, так что все это привести в порядок, конечно, легче, чем начинать с нуля, но это задача не на пару месяцев, конечно.

Наконец, уточнение что касается цели. Начнем того, что бесплатно я бы не стал этим заниматься, как и вообще любой работой. То есть, цель в данном случае не выучить что-то ради личного интереса, а максимизировать свой leverage на рынке труда, чтобы потом уже его использовать как захочется: повысить зарплату, не работать на _удаков, минимизировать стресс, работать удаленно и т д по желанию. СтОит ли, исходя из этой цели и имеющихся ресурсов, сильно углубляться в математические/cтатистические дебри? Я не уверен. Если есть ниша, допустим, в области data preparation/quality, business analytics, compliance, etc, где можно добиться указанного выше, то я бы не углублялся в machine learning/heavy math/statistics. Однако, как я уже указал выше, в наше время многие 23-летние индусы и китайцы могут сделать то же самое, готовы работать в 2 раза больше и за меньшие деньги, так что приходится двигаться вперед.
Из своей головы не эмигрируешь.
notknown
Уже с Приветом
Posts: 17494
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

KotKot wrote:
Снежная Королева wrote:
Отличный курс (free) c приложением очень хорошей (free) книжки есть у станфорда, statistical machine learning называется. Это начальный уровень, он сильно упрощен, но качество очень хорошее. Опять же, без линейной алгебры, калькулюса и теории оптимизации там делать нечего.
Этот курс? https://www.coursera.org/learn/machine-learning" onclick="window.open(this.href);return false;

Который Andrew Ng?
Jон Хопкинские на Курсере сказали что их курс про машине леарнинг = краткий обзор курса Андреш Нг. А если взять Андреш Нг, то бушь хорошо знать machine learning.

Кстати, на kaggle.com есть линки на туториалс на machine learning на елементарную задачу с Титаник. Для быстрого вступления (такого что за день) очень неплохо.
notknown
Уже с Приветом
Posts: 17494
Joined: 25 Jan 2005 00:59

Re: как живется data scientistам нынче?

Post by notknown »

Снежная Королева wrote:Notknown, я Hadley Wickham тоже по гроб жизни благодарна, он поднял язык на новый уровень. Но он не статистикой занимается, а пишет пакеты для элементарной работы с данными.
Но он в первую очередь статистик и программер, а то что он сейчас работает на RStudio и может заниматься чем ему нравится - польза только всем. Кстати, он оказывается еще и с биологии начинал:

http://had.co.nz/portfolio/cv.pdf" onclick="window.open(this.href);return false;

А так в целом я понимаю разницу между елементарной работой с данными и статистикой. Говорю же в прошлой жини я проходила и статистику, и матиматику, и программирование, и бизнес. Просто давно ето было. Но зато я хорошо понимаю что я многое забыла или никогда не учила. :-)
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: как живется data scientistам нынче?

Post by Сабина »

KotKot wrote: 1 и 2) Согласен, спасибо
3) Изучал Hadoop, Pig and Hive. На практике почти не использовал, но общее представление имею и при необходимости могу быстро повторить, все материалы имеются и даже доступ к данным и tools. Считаете, что лучше на это налечь сперва, чем на R?
4 и 5 и 6) В разное время я изучал hypothesis testing - t-test, anova & chi-square время от времени даже применял на практике. Кроме этого, изучал матрицы, основы вероятности и мат статистику, регрессионный анализ (mostly linear regression), а также оптимизацию (linear programming). В настоящее время то, что осталось в голове - смесь знаний и терминов на русском и английском, так что все это привести в порядок, конечно, легче, чем начинать с нуля, но это задача не на пару месяцев, конечно.

Наконец, уточнение что касается цели. Начнем того, что бесплатно я бы не стал этим заниматься, как и вообще любой работой. То есть, цель в данном случае не выучить что-то ради личного интереса, а максимизировать свой leverage на рынке труда, чтобы потом уже его использовать как захочется: повысить зарплату, не работать на _удаков, минимизировать стресс, работать удаленно и т д по желанию. СтОит ли, исходя из этой цели и имеющихся ресурсов, сильно углубляться в математические/cтатистические дебри? Я не уверен. Если есть ниша, допустим, в области data preparation/quality, business analytics, compliance, etc, где можно добиться указанного выше, то я бы не углублялся в machine learning/heavy math/statistics. Однако, как я уже указал выше, в наше время многие 23-летние индусы и китайцы могут сделать то же самое, готовы работать в 2 раза больше и за меньшие деньги, так что приходится двигаться вперед.
Изучите вот этот проект от и до - https://github.com/killrweather/killrweather" onclick="window.open(this.href);return false;
К нему прилагается видео - если не пожалеете денег или контора оплатит - то вот оно http://shop.oreilly.com/product/0636920043652.do" onclick="window.open(this.href);return false;

После того как вы в вышеупомянутом стаке сможете все пользовать легко и просто - вас в SF или NY оторвут с руками и ногами :)

Data scientist - это напускное, нету на них еще столько спроса, сколько создано ажиотажа вокруг терминов big data , data scientist etc
В реальной жизни люди с деньгами еще только строят настоящие event driven systems, big data, real time event processing etc.
Туда надо рваться - в building the infrastructure, а не в R programming, где по моему уже желающих больше чем спроса :mrgreen:
https://www.youtube.com/watch?v=wOwblaKmyVw
Космос
Уже с Приветом
Posts: 340
Joined: 04 Jun 2008 03:26

Re: как живется data scientistам нынче?

Post by Космос »

Ученые, а задачку слабо решить? Hadoop, Spark, Pig, R, SAS вам не помогут :twisted: ?
при какой статистической значимости данное в статье заключение, о том что data scientist лучшная работа, верно на основании выборки, приведенной в статье ?
http://www.today.com/money/best-jobs-wo ... ore-t51326" onclick="window.open(this.href);return false;
проще - каково p-value что data scientist лучшая работа изходя из данных статьи?
Рассуждения пожалста...
Last edited by Космос on 11 Nov 2015 18:29, edited 1 time in total.
KotKot
Уже с Приветом
Posts: 5401
Joined: 04 Feb 2009 05:05

Re: как живется data scientistам нынче?

Post by KotKot »

Космос, журналисты, как обычно, не говорят про слона в комнате. А этот слон - IQ. У большинства людей он слишком низкий не то, что для Data Science, но даже чтобы толком на Excel научиться работать.

А помимо этого, все верно. С другой стороны, я думаю, что топ моделью тоже хорошо работать. Давайте все пойдём в топ модели.
Из своей головы не эмигрируешь.

Return to “Работа и Карьера в IT”