Понятно. Надо будет посмотреть на слаживающие методы. Тоже пытаюсь быть мастером на все руки. Это и интересно, и может пригодится, да и на интервью помогает попиариться.Ofreema wrote:Ну, работа в Голландии, пока особо никого не нанимают. А в дата консультанта я переквалифицируюсь с осени, т.к. вчера получили зеленый свет на проект, и буду я на все руки мастер ))))
По поводу фильтров, как пример погуглите: "Adaptive Smoothing Method Used in Highway Traffic State".
Там фишка в том, что мы получаем достаточно неоднородные данные, которые нужно сгладить.
Я бы и сам с удовольствием покопался в этих вещах, но к сожалению, не всегда есть на это бюджет, и еще очень часто приходится исравлять чей-то говнокод, но это отдельная история ))
Junior Quality/Data Analyst
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
-
- Новичок
- Posts: 30
- Joined: 14 Jul 2015 14:23
Re: Junior Quality/Data Analyst
а вы тоже поделитесь чем-нибудь Я ж так понимаю, что Вы консультат в мат моделировании - анализе данных?
Не Вам одному нужно пиариться
Не Вам одному нужно пиариться
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Я в последнее время изучал и пробовал "современные" дистрибутивные системы (о чем уже упоминал выше). С точки зрения пиара - самое оно. Особенно когда интервьюируешся с "большими начальниками". В большинстве случаев их не интересует математические подробности, хотя упоминать стоит, крутые словечки производят впечатление. Здесь главное не переборщить. А то у меня несколько раз выходило так, что испуганные рекрутеры звонили после интервью и говорили, что клиенты считают, что у меня слишком много академии. А вот упоминание больших/дистрибутивных технологий производит отличный эффект. Еще можно спросить, какие технологии у них. И если они работают "по старинке", слегка их пожурить. Мол все прогрессивное человечество широкой поступью идет в светлое будующее дистрибутивных технологий, а вы отстаете. Смешно, что начинают оправдываться.Ofreema wrote:а вы тоже поделитесь чем-нибудь Я ж так понимаю, что Вы консультат в мат моделировании - анализе данных?
Не Вам одному нужно пиариться
Как часто Вы интервьюируетесь?
-
- Уже с Приветом
- Posts: 4205
- Joined: 10 Jan 2004 01:22
- Location: n-sk -> MD -> VA
Re: Junior Quality/Data Analyst
'распределенные'
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Мне кажется, что с точки зрения Русского языка, это одно и тоже. Особенно, учитывая современное количество заимствованных слов.fruit6 wrote:'распределенные'
-
- Новичок
- Posts: 30
- Joined: 14 Jul 2015 14:23
Re: Junior Quality/Data Analyst
Ага, я когда искал свою первую работу после академии много граблей перепробовалФизик-Лирик wrote: Здесь главное не переборщить. А то у меня несколько раз выходило так, что испуганные рекрутеры звонили после интервью и говорили, что клиенты считают, что у меня слишком много академии. А вот упоминание больших/дистрибутивных технологий производит отличный эффект. Еще можно спросить, какие технологии у них. И если они работают "по старинке", слегка их пожурить. Мол все прогрессивное человечество широкой поступью идет в светлое будующее дистрибутивных технологий, а вы отстаете. Смешно, что начинают оправдываться.
Как часто Вы интервьюируетесь?
Я пока работаю на первой работе после пхд (7 месяцев). Думаю, что через 6-9 месяцев начну искать новую работу. Я ж как раз и пришел сюда на форум, чтобы поузнавать тонкости поиска работы в США. А Вы Data SCientist? или consultant?
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Если говорить современными терминами, то в настоящий момент скорее дейта сайнтист. В целом - мат. моделирование (в широком смысле). А в чем Вы видите разницу между консалтерами и дейта сайнтистами? На мой взгляд, дейта сайнтист - это тот, кто работает в соответствующей области. Консалтер - это скорее не область, а как человек работает. Обычно на контракте или в разъездах. А область может быть та же дейта сайнс. Область сейчас популярная, особенно "биг дейта".Ofreema wrote: Ага, я когда искал свою первую работу после академии много граблей перепробовал
Я пока работаю на первой работе после пхд (7 месяцев). Думаю, что через 6-9 месяцев начну искать новую работу. Я ж как раз и пришел сюда на форум, чтобы поузнавать тонкости поиска работы в США. А Вы Data SCientist? или consultant?
-
- Новичок
- Posts: 30
- Joined: 14 Jul 2015 14:23
Re: Junior Quality/Data Analyst
Хорошо, я больше имею ввиду, что дата саентист, это человек который сидит в офисе и пишет программки. А консультант занимается и этим тоже, но еще и рассказывает клиентам, что можно "вытащить" из их данных, работает в паре с сэйлзами.
Просто, кмк, дата сайентисты таки должны быть и консалтерами, иначе не понятно, что сэйлзам продавать...
Просто, кмк, дата сайентисты таки должны быть и консалтерами, иначе не понятно, что сэйлзам продавать...
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
В этом плане практически любой ученый - это консалтер. Ведь кто-то должен оплачивать чужое любопытство.Ofreema wrote:Хорошо, я больше имею ввиду, что дата саентист, это человек который сидит в офисе и пишет программки. А консультант занимается и этим тоже, но еще и рассказывает клиентам, что можно "вытащить" из их данных, работает в паре с сэйлзами.
Просто, кмк, дата сайентисты таки должны быть и консалтерами, иначе не понятно, что сэйлзам продавать...
Здесь все-таки существует определенная терминология. В основном консалтерами называют контрактников вне зависимости от поля деятельности. А с клиентами можно и на постоянке работать. Насчет того, кто должен рассказывать, что можно вытащить из данных ... я всегда был противником выражения "пусть данные нам сами расскажут". Расскажут что? Нужна постановка задача в бизнес терминах, что бизнес хочет. Данные лишь подтверждают гипотезу или помогают найти решение.
А в целом дейта сайнс не есть мат. моделирование, а потому может быть скучен и зануден. Хотя все на любителя конечно.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
А Вы с ETS моделями работали? Ваш австралийский коллега книгу выпустил и R пакет есть. Если еще не пробовали, то рекомендую. И книгу прочтите, если еще не прочли.Снежная Королева wrote:Да, ARIMA with regressors и random forest для регрессии.Физик-Лирик wrote:Как методы временных рядов используете? ETS, ARIMA или что-нибудь более экзотичное? Рандом форест для регрессии?
Что такое "работать с водой"?
Что такое "вода"? Наберите формулу воды (из химии) и добавьте к нему "машинное обучение". Вам сразу выдадут сайт с опен соурсом. Очередная разработка с процессированием в памяти. Уже и соответсвующий пакет на R сделан. Заодно и глубокое обучение попробуете. Там и рендом форест есть и многое другое. Кстати через пару месяцев должна книга выйти по глубокому обучению. А пока почитайте статьи на Инете. Там пытаются обьяснить с помощью физики, хотя у меня есть свое объяснение.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
В принципе существует связь между аримой и етесом. Все таки етс включает много моделей. Если работаете с такой экзотикой, то методы машинного обучения могут быть лучше. Я вообще отношусь к временным рядам с некой осторожностью. Во-первых. при прогнозировании они выдают достаточно широкий конфиденс интервал. Во-вторых, они не позволяют учитывать неких внешних факторов. В Вашей ситуации, например, расход энергии может зависеть от средней температуры воздуха. Если стоит аномальная погода, то не совсем ясно, как модель это воспроизведет, даже если это и было в прошлом. Все идея рядов состоит в изучении их коррялиционных свойств. Именно потому и требуется их (слабая) стационарность. Напротив, в регрессионных моделях все "свойства" можно сформулировать заранее. Например, ввести температуру как предиктор. Я не знаю, как Вы оцените результаты свои моделей, но мне кажется, что рендом форест (да и другая модель машинного обучения) выдаст лучший результат в смысле прогноза.Снежная Королева wrote:Rob Hyndman-а очень хорошо знаю, и всё читала. ETS не применяю, ибо в этот метод нельзя запихнуть multiseasonality (weekly and yearly) плюс регрессоры.
H2O не знала, выглядит интересно, надо почитать внимательно.
А чем объясняется выбор именно рендом форест? Эта одна из самых любимых мной моделей. Боостинг тоже достаточно быстро работает. Если будете грузить "воду" посмотрите на глубокое обчение. Там конечно возня с параметрами, но результаты могут быть интересными. Заодно и впечатлениями поделитесь. Я сейчас этот метод изучаю.
Кстати в последние пару-тройку месяцев замечаю, что в требования к работе дейта сайнтистов стали включать воду.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Что у Вас является целевой функций (output/target function), а что предикторами (входными переменными)?Снежная Королева wrote:
Что касается временных рядов, то вы видимо не поняли, что температура является регрессором. Arima допускает это. С этой точки зрения проблем нет. Проблема у меня в том, что чем свежее данные у меня, тем менее они надежны. Арима по определению дает большой вес свежим данным, а это для меня очень плохо.
В каком смысле добавить бэгинг/бустинг? Рандом форест сам по себе бэгинг (но не бустинг). Или Вы что-то еще делаете?Снежная Королева wrote:Random forest - потому что хорошо знаю и нежно люблю. Они простые очень, легко объяснить непосвященным, не надо делать variable transformation, и если добавить bagging/boosting, то неплохо предсказывают.
Желаю.Снежная Королева wrote: В общем, поломала я модель с временными рядами окончательно. 3 дня с ней провозилась, странные результаты выдает. Поставила тестировать RF на ночь, пожелайте удачи
-
- Уже с Приветом
- Posts: 64661
- Joined: 12 Jul 2002 16:38
- Location: г.Москва, ул. Б. Лубянка, д.2
Re: Junior Quality/Data Analyst
деуочки таки слабо тянут в математике...
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Снежная Королева wrote:Daily gas demand is response. Predictors (regressors) - погодные данные (температура и её производные,скорость ветра, дождь и т.п.), количество клиентов, а также сезонные факторы (день недели, праздники, школьные каникулы и т.п).Физик-Лирик wrote:Что у Вас является целевой функций (output/target function), а что предикторами (входными переменными)?Снежная Королева wrote:
Что касается временных рядов, то вы видимо не поняли, что температура является регрессором. Arima допускает это. С этой точки зрения проблем нет. Проблема у меня в том, что чем свежее данные у меня, тем менее они надежны. Арима по определению дает большой вес свежим данным, а это для меня очень плохо.
В каком смысле добавить бэгинг/бустинг? Рандом форест сам по себе бэгинг (но не бустинг). Или Вы что-то еще делаете?Снежная Королева wrote:Random forest - потому что хорошо знаю и нежно люблю. Они простые очень, легко объяснить непосвященным, не надо делать variable transformation, и если добавить bagging/boosting, то неплохо предсказывают.
Желаю.Снежная Королева wrote: В общем, поломала я модель с временными рядами окончательно. 3 дня с ней провозилась, странные результаты выдает. Поставила тестировать RF на ночь, пожелайте удачи
В общем самая засада в том, что нет нормальных данных по клиентам. С домами еще ничего, но нет данных по коммерческим клиентам, нет типа бизнеса. Т.е это может быть маленький офис или мелкий завод, у которого совсем другой профайл. А может есть и другие засады
RF да, уже сам по себе bagging, я имела бустинг в виду. Я потом прогоняю gbm, обычно улучшает слегка prediction accuracy на тестовых данных.
Снежная Королева, подскажите какой это в R пакет/функция? А для векторной VAR какой?
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Arma функция и подобное ведь не векторная.Снежная Королева wrote:Пакеты random forest и gbm. Не поняла вопроса о векторной VAR. В R все векторное
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Не в этом смысле. Univariate же.Снежная Королева wrote:Почему не векторная? Arima(x, ...) takes a vector x which is univariate time series
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Посмотрите пакет forecast. Там и arima и ets.
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Так я же говорю, что arima там не векторная, не multivariate то бишь.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Ну да, все как я и говорил. Регресионные модели могут иметь преимущества перед временными рядами. Температура - это один из предикторов (в местной терминологии слово регрессор не очень употребляется, более часто используют предиктор или входная переменная). Так как у Вас явно выраженная сезонность и цикличность, то регрессионная модель (типа упомянутого рендом фореста) может дать неплохие результаты.Снежная Королева wrote: Daily gas demand is response. Predictors (regressors) - погодные данные (температура и её производные,скорость ветра, дождь и т.п.), количество клиентов, а также сезонные факторы (день недели, праздники, школьные каникулы и т.п).
В общем самая засада в том, что нет нормальных данных по клиентам. С домами еще ничего, но нет данных по коммерческим клиентам, нет типа бизнеса. Т.е это может быть маленький офис или мелкий завод, у которого совсем другой профайл. А может есть и другие засады
RF да, уже сам по себе bagging, я имела бустинг в виду. Я потом прогоняю gbm, обычно улучшает слегка prediction accuracy на тестовых данных.
То что Вы описываете по поводу "нормальных данных" наводит на мысль, что Вы сталкиваетесь с проблемой sampling bias. А посему вопрос, проводите ли Вы какую либо коррекцию. Тема сейчас на подъеме. Впервые она была в конце 70-х проработана (нобелевка по экономике). Но в основном для линейной регрессии. В принципе на мой взгляд коррекцию сделать нельзя, если не вводить дополнительных предположений о равенстве условных распределений для двух множеств, реального и "трейнинга". Не совсем правда ясно, как можно это проверить на практике. У Вас есть какие-либо наработки по данному вопросу? Мне эта тема очень интересна.
Да, тема окончательно перешла в нужное русло для джуниор аналистов.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
Т.е Вы интересуетесь изучением векторных рядов и их крос-корреляцией?Annetta wrote:Так я же говорю, что arima там не векторная, не multivariate то бишь.
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
А Вы уже смотрели пакет vars?
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
я смотрела и не нашла, где там задавать дополнительные lagged regressors, как в SAS-овском varmax.Физик-Лирик wrote:А Вы уже смотрели пакет vars?
Но это совсем не в тему топика уже Просто подумала, что Cнежная Королева сходу чего назовет.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Это то же самое, что и Физик-Лирик вверху написалСнежная Королева wrote:Все, до меня дошлоAnnetta wrote:я смотрела и не нашла, где там задавать дополнительные lagged regressors, как в SAS-овском varmax.Физик-Лирик wrote:А Вы уже смотрели пакет vars?
Но это совсем не в тему топика уже Просто подумала, что Cнежная Королева сходу чего назовет.
Здесь посмотрите: http://www.otexts.org/fpp/9/2" onclick="window.open(this.href);return false;
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 12250
- Joined: 18 Sep 2006 02:36
- Location: New England
Re: Junior Quality/Data Analyst
Если кому-то понадобится, то в varmax (SAS) можно задавать отдельно порядок в AR, MA моделях и максимальный возможный лаг для предикторов. Плюс, на любые отдельные и группы коэффициенты возможно ставить различные линейные условия, как равенства, так и неравенства. В R пакета с такой функциональностью нет.
Автор, извините за офф-топ.
Автор, извините за офф-топ.
Happiness can be found, even in the darkest of times, if one only remembers to turn on the light. (C)
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Junior Quality/Data Analyst
На самом деле полезная дискуссия для тех, кто работает или собирается работать в этой области. Могу заметить, что сейчас многие конторы смотрят в сторону опен соурс, так что практически подготовить себя к роли дейта аналиста/сантиста стало попроще. К сожалению, не всегда есть возможность самостоятельно выучить коммерческие софты. Так что не совсем офтопик.
Как все-таки насчет байеса?
Как все-таки насчет байеса?