Junior Quality/Data Analyst

Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Ofreema wrote:Ну, работа в Голландии, пока особо никого не нанимают. А в дата консультанта я переквалифицируюсь с осени, т.к. вчера получили зеленый свет на проект, и буду я на все руки мастер ))))

По поводу фильтров, как пример погуглите: "Adaptive Smoothing Method Used in Highway Traffic State".
Там фишка в том, что мы получаем достаточно неоднородные данные, которые нужно сгладить.

Я бы и сам с удовольствием покопался в этих вещах, но к сожалению, не всегда есть на это бюджет, и еще очень часто приходится исравлять чей-то говнокод, но это отдельная история :)))
Понятно. Надо будет посмотреть на слаживающие методы. Тоже пытаюсь быть мастером на все руки. Это и интересно, и может пригодится, да и на интервью помогает попиариться. :D
Ofreema
Новичок
Posts: 30
Joined: 14 Jul 2015 14:23

Re: Junior Quality/Data Analyst

Post by Ofreema »

а вы тоже поделитесь чем-нибудь :) Я ж так понимаю, что Вы консультат в мат моделировании - анализе данных?

Не Вам одному нужно пиариться :D
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Ofreema wrote:а вы тоже поделитесь чем-нибудь :) Я ж так понимаю, что Вы консультат в мат моделировании - анализе данных?

Не Вам одному нужно пиариться :D
Я в последнее время изучал и пробовал "современные" дистрибутивные системы (о чем уже упоминал выше). С точки зрения пиара - самое оно. Особенно когда интервьюируешся с "большими начальниками". В большинстве случаев их не интересует математические подробности, хотя упоминать стоит, крутые словечки производят впечатление. Здесь главное не переборщить. А то у меня несколько раз выходило так, что испуганные рекрутеры звонили после интервью и говорили, что клиенты считают, что у меня слишком много академии. А вот упоминание больших/дистрибутивных технологий производит отличный эффект. Еще можно спросить, какие технологии у них. И если они работают "по старинке", слегка их пожурить. Мол все прогрессивное человечество широкой поступью идет в светлое будующее дистрибутивных технологий, а вы отстаете. Смешно, что начинают оправдываться.
Как часто Вы интервьюируетесь?
User avatar
fruit6
Уже с Приветом
Posts: 4205
Joined: 10 Jan 2004 01:22
Location: n-sk -> MD -> VA

Re: Junior Quality/Data Analyst

Post by fruit6 »

'распределенные'
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

fruit6 wrote:'распределенные'
Мне кажется, что с точки зрения Русского языка, это одно и тоже. Особенно, учитывая современное количество заимствованных слов.
Ofreema
Новичок
Posts: 30
Joined: 14 Jul 2015 14:23

Re: Junior Quality/Data Analyst

Post by Ofreema »

Физик-Лирик wrote: Здесь главное не переборщить. А то у меня несколько раз выходило так, что испуганные рекрутеры звонили после интервью и говорили, что клиенты считают, что у меня слишком много академии. А вот упоминание больших/дистрибутивных технологий производит отличный эффект. Еще можно спросить, какие технологии у них. И если они работают "по старинке", слегка их пожурить. Мол все прогрессивное человечество широкой поступью идет в светлое будующее дистрибутивных технологий, а вы отстаете. Смешно, что начинают оправдываться.
Как часто Вы интервьюируетесь?
Ага, я когда искал свою первую работу после академии много граблей перепробовал :D
Я пока работаю на первой работе после пхд (7 месяцев). Думаю, что через 6-9 месяцев начну искать новую работу. Я ж как раз и пришел сюда на форум, чтобы поузнавать тонкости поиска работы в США. А Вы Data SCientist? или consultant?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Ofreema wrote: Ага, я когда искал свою первую работу после академии много граблей перепробовал :D
Я пока работаю на первой работе после пхд (7 месяцев). Думаю, что через 6-9 месяцев начну искать новую работу. Я ж как раз и пришел сюда на форум, чтобы поузнавать тонкости поиска работы в США. А Вы Data SCientist? или consultant?
Если говорить современными терминами, то в настоящий момент скорее дейта сайнтист. В целом - мат. моделирование (в широком смысле). А в чем Вы видите разницу между консалтерами и дейта сайнтистами? На мой взгляд, дейта сайнтист - это тот, кто работает в соответствующей области. Консалтер - это скорее не область, а как человек работает. Обычно на контракте или в разъездах. А область может быть та же дейта сайнс. Область сейчас популярная, особенно "биг дейта".
Ofreema
Новичок
Posts: 30
Joined: 14 Jul 2015 14:23

Re: Junior Quality/Data Analyst

Post by Ofreema »

Хорошо, я больше имею ввиду, что дата саентист, это человек который сидит в офисе и пишет программки. А консультант занимается и этим тоже, но еще и рассказывает клиентам, что можно "вытащить" из их данных, работает в паре с сэйлзами.

Просто, кмк, дата сайентисты таки должны быть и консалтерами, иначе не понятно, что сэйлзам продавать...
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Ofreema wrote:Хорошо, я больше имею ввиду, что дата саентист, это человек который сидит в офисе и пишет программки. А консультант занимается и этим тоже, но еще и рассказывает клиентам, что можно "вытащить" из их данных, работает в паре с сэйлзами.

Просто, кмк, дата сайентисты таки должны быть и консалтерами, иначе не понятно, что сэйлзам продавать...
В этом плане практически любой ученый - это консалтер. Ведь кто-то должен оплачивать чужое любопытство.
Здесь все-таки существует определенная терминология. В основном консалтерами называют контрактников вне зависимости от поля деятельности. А с клиентами можно и на постоянке работать. Насчет того, кто должен рассказывать, что можно вытащить из данных ... я всегда был противником выражения "пусть данные нам сами расскажут". Расскажут что? Нужна постановка задача в бизнес терминах, что бизнес хочет. Данные лишь подтверждают гипотезу или помогают найти решение.

А в целом дейта сайнс не есть мат. моделирование, а потому может быть скучен и зануден. Хотя все на любителя конечно.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Снежная Королева wrote:
Физик-Лирик wrote:Как методы временных рядов используете? ETS, ARIMA или что-нибудь более экзотичное? Рандом форест для регрессии?
Да, ARIMA with regressors и random forest для регрессии.

Что такое "работать с водой"?
А Вы с ETS моделями работали? Ваш австралийский коллега книгу выпустил и R пакет есть. Если еще не пробовали, то рекомендую. И книгу прочтите, если еще не прочли.
Что такое "вода"? Наберите формулу воды (из химии) и добавьте к нему "машинное обучение". Вам сразу выдадут сайт с опен соурсом. Очередная разработка с процессированием в памяти. Уже и соответсвующий пакет на R сделан. Заодно и глубокое обучение попробуете. Там и рендом форест есть и многое другое. Кстати через пару месяцев должна книга выйти по глубокому обучению. А пока почитайте статьи на Инете. Там пытаются обьяснить с помощью физики, хотя у меня есть свое объяснение.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Снежная Королева wrote:Rob Hyndman-а очень хорошо знаю, и всё читала. ETS не применяю, ибо в этот метод нельзя запихнуть multiseasonality (weekly and yearly) плюс регрессоры.

H2O не знала, выглядит интересно, надо почитать внимательно. :great:
В принципе существует связь между аримой и етесом. Все таки етс включает много моделей. Если работаете с такой экзотикой, то методы машинного обучения могут быть лучше. Я вообще отношусь к временным рядам с некой осторожностью. Во-первых. при прогнозировании они выдают достаточно широкий конфиденс интервал. Во-вторых, они не позволяют учитывать неких внешних факторов. В Вашей ситуации, например, расход энергии может зависеть от средней температуры воздуха. Если стоит аномальная погода, то не совсем ясно, как модель это воспроизведет, даже если это и было в прошлом. Все идея рядов состоит в изучении их коррялиционных свойств. Именно потому и требуется их (слабая) стационарность. Напротив, в регрессионных моделях все "свойства" можно сформулировать заранее. Например, ввести температуру как предиктор. Я не знаю, как Вы оцените результаты свои моделей, но мне кажется, что рендом форест (да и другая модель машинного обучения) выдаст лучший результат в смысле прогноза.
А чем объясняется выбор именно рендом форест? Эта одна из самых любимых мной моделей. Боостинг тоже достаточно быстро работает. Если будете грузить "воду" посмотрите на глубокое обчение. Там конечно возня с параметрами, но результаты могут быть интересными. Заодно и впечатлениями поделитесь. Я сейчас этот метод изучаю.
Кстати в последние пару-тройку месяцев замечаю, что в требования к работе дейта сайнтистов стали включать воду.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Снежная Королева wrote:
Что касается временных рядов, то вы видимо не поняли, что температура является регрессором. Arima допускает это. С этой точки зрения проблем нет. Проблема у меня в том, что чем свежее данные у меня, тем менее они надежны. Арима по определению дает большой вес свежим данным, а это для меня очень плохо.
Что у Вас является целевой функций (output/target function), а что предикторами (входными переменными)?
Снежная Королева wrote:Random forest - потому что хорошо знаю и нежно люблю. Они простые очень, легко объяснить непосвященным, не надо делать variable transformation, и если добавить bagging/boosting, то неплохо предсказывают.
В каком смысле добавить бэгинг/бустинг? Рандом форест сам по себе бэгинг (но не бустинг). Или Вы что-то еще делаете?
Снежная Королева wrote: В общем, поломала я модель с временными рядами окончательно. 3 дня с ней провозилась, странные результаты выдает. Поставила тестировать RF на ночь, пожелайте удачи :)
Желаю. :D
User avatar
Komissar
Уже с Приветом
Posts: 64661
Joined: 12 Jul 2002 16:38
Location: г.Москва, ул. Б. Лубянка, д.2

Re: Junior Quality/Data Analyst

Post by Komissar »

деуочки таки слабо тянут в математике...
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Снежная Королева wrote:
Физик-Лирик wrote:
Снежная Королева wrote:
Что касается временных рядов, то вы видимо не поняли, что температура является регрессором. Arima допускает это. С этой точки зрения проблем нет. Проблема у меня в том, что чем свежее данные у меня, тем менее они надежны. Арима по определению дает большой вес свежим данным, а это для меня очень плохо.
Что у Вас является целевой функций (output/target function), а что предикторами (входными переменными)?
Снежная Королева wrote:Random forest - потому что хорошо знаю и нежно люблю. Они простые очень, легко объяснить непосвященным, не надо делать variable transformation, и если добавить bagging/boosting, то неплохо предсказывают.
В каком смысле добавить бэгинг/бустинг? Рандом форест сам по себе бэгинг (но не бустинг). Или Вы что-то еще делаете?
Снежная Королева wrote: В общем, поломала я модель с временными рядами окончательно. 3 дня с ней провозилась, странные результаты выдает. Поставила тестировать RF на ночь, пожелайте удачи :)
Желаю. :D
Daily gas demand is response. Predictors (regressors) - погодные данные (температура и её производные,скорость ветра, дождь и т.п.), количество клиентов, а также сезонные факторы (день недели, праздники, школьные каникулы и т.п).

В общем самая засада в том, что нет нормальных данных по клиентам. С домами еще ничего, но нет данных по коммерческим клиентам, нет типа бизнеса. Т.е это может быть маленький офис или мелкий завод, у которого совсем другой профайл. А может есть и другие засады :sadcry:

RF да, уже сам по себе bagging, я имела бустинг в виду. Я потом прогоняю gbm, обычно улучшает слегка prediction accuracy на тестовых данных.

Снежная Королева, подскажите какой это в R пакет/функция? А для векторной VAR какой?
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Снежная Королева wrote:Пакеты random forest и gbm. Не поняла вопроса о векторной VAR. В R все векторное :D
Arma функция и подобное ведь не векторная.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Снежная Королева wrote:Почему не векторная? Arima(x, ...) takes a vector x which is univariate time series
Не в этом смысле. Univariate же.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Посмотрите пакет forecast. Там и arima и ets.
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Так я же говорю, что arima там не векторная, не multivariate то бишь.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Снежная Королева wrote: Daily gas demand is response. Predictors (regressors) - погодные данные (температура и её производные,скорость ветра, дождь и т.п.), количество клиентов, а также сезонные факторы (день недели, праздники, школьные каникулы и т.п).

В общем самая засада в том, что нет нормальных данных по клиентам. С домами еще ничего, но нет данных по коммерческим клиентам, нет типа бизнеса. Т.е это может быть маленький офис или мелкий завод, у которого совсем другой профайл. А может есть и другие засады :sadcry:

RF да, уже сам по себе bagging, я имела бустинг в виду. Я потом прогоняю gbm, обычно улучшает слегка prediction accuracy на тестовых данных.
Ну да, все как я и говорил. Регресионные модели могут иметь преимущества перед временными рядами. Температура - это один из предикторов (в местной терминологии слово регрессор не очень употребляется, более часто используют предиктор или входная переменная). Так как у Вас явно выраженная сезонность и цикличность, то регрессионная модель (типа упомянутого рендом фореста) может дать неплохие результаты.

То что Вы описываете по поводу "нормальных данных" наводит на мысль, что Вы сталкиваетесь с проблемой sampling bias. А посему вопрос, проводите ли Вы какую либо коррекцию. Тема сейчас на подъеме. Впервые она была в конце 70-х проработана (нобелевка по экономике). Но в основном для линейной регрессии. В принципе на мой взгляд коррекцию сделать нельзя, если не вводить дополнительных предположений о равенстве условных распределений для двух множеств, реального и "трейнинга". Не совсем правда ясно, как можно это проверить на практике. У Вас есть какие-либо наработки по данному вопросу? Мне эта тема очень интересна.

Да, тема окончательно перешла в нужное русло для джуниор аналистов. :D
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

Annetta wrote:Так я же говорю, что arima там не векторная, не multivariate то бишь.
Т.е Вы интересуетесь изучением векторных рядов и их крос-корреляцией?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

А Вы уже смотрели пакет vars?
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Физик-Лирик wrote:А Вы уже смотрели пакет vars?
я смотрела и не нашла, где там задавать дополнительные lagged regressors, как в SAS-овском varmax.
Но это совсем не в тему топика уже :oops: Просто подумала, что Cнежная Королева сходу чего назовет.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Снежная Королева wrote:
Annetta wrote:
Физик-Лирик wrote:А Вы уже смотрели пакет vars?
я смотрела и не нашла, где там задавать дополнительные lagged regressors, как в SAS-овском varmax.
Но это совсем не в тему топика уже :oops: Просто подумала, что Cнежная Королева сходу чего назовет.
Все, до меня дошло :oops:

Здесь посмотрите: http://www.otexts.org/fpp/9/2" onclick="window.open(this.href);return false;
Это то же самое, что и Физик-Лирик вверху написал :pain1:
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
User avatar
Annetta
Уже с Приветом
Posts: 12250
Joined: 18 Sep 2006 02:36
Location: New England

Re: Junior Quality/Data Analyst

Post by Annetta »

Если кому-то понадобится, то в varmax (SAS) можно задавать отдельно порядок в AR, MA моделях и максимальный возможный лаг для предикторов. Плюс, на любые отдельные и группы коэффициенты возможно ставить различные линейные условия, как равенства, так и неравенства. В R пакета с такой функциональностью нет.
Автор, извините за офф-топ.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Junior Quality/Data Analyst

Post by Физик-Лирик »

На самом деле полезная дискуссия для тех, кто работает или собирается работать в этой области. Могу заметить, что сейчас многие конторы смотрят в сторону опен соурс, так что практически подготовить себя к роли дейта аналиста/сантиста стало попроще. К сожалению, не всегда есть возможность самостоятельно выучить коммерческие софты. Так что не совсем офтопик.
Как все-таки насчет байеса?

Return to “Работа и Карьера в IT”