Это хорошие страшилки, я со всем согласен. Но это в случае, если cross-validation & testing показывает, что ваша модель не работает и надо искать почему или как улучшить. А если прямо из коробки заработало и потом в продакшн продолжает работать то и можно браться за следующую задачу.Физик-Лирик wrote:Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.
Machine Learning again
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
В общем, все так и будет. Хотя, по большому счету, практически все данные кривые, если их только с самого начала не собирать "правильно". Но на практике, это редкость. Имеем, что имеем. Собственно задача учёного это понять, разобраться и предложить решение, зная как особенности данных так и особенности алгоритмов. Чисто ручной процесс, но он как раз и служит водоразделом между учеными и сиквельщиками с наклейкой учёного.Снежная Королева wrote:Не будет оно работать прямо из коробки. Сабина правильно сказала, если данные в базе кривые, работать не будет, а вы и не поймете, почему. Да и меняется оно все. Сегодня маркет ситуация поменялась, и привет, все переделывать надо.
-
- Уже с Приветом
- Posts: 189
- Joined: 13 Mar 2006 19:01
- Location: Earth -> Moon -> Mars
Re: Machine Learning again
Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширшеФизик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.
Вон народ на БАКе, когда частицы гоняет, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.
А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data
-
- Уже с Приветом
- Posts: 189
- Joined: 13 Mar 2006 19:01
- Location: Earth -> Moon -> Mars
Re: Machine Learning again
Есть вот такая ссылка, но там очень всё поверхностно
https://yandex.ru/blog/company/89612" onclick="window.open(this.href);return false;
https://yandex.ru/blog/company/89612" onclick="window.open(this.href);return false;
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Увы, смотрю, как оно есть на самом деле. Данных сейчас действительно очень много. Но это автоматически не означает, что все знают, что с ними делать, а самое главное, как. А технических моментов тоже куча, что и делает эту область очень привлекательной и интересной.x.angie wrote:Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimumx.angie wrote:Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширшеФизик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.
Вон народ на БАКе, когда частицы гоняете, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.
А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
С этого места про низводителей и укрощателей поподробнее пожалуйста.Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: Machine Learning again
Физик-Лирик wrote:С этого места про низводителей и укрощателей поподробнее пожалуйста.Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
Классика жанра
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Классика жанра это "бигдата как teenage секс", все гооворят о нем, но мало у кого есть А укрощение это что-то новенькое.
-
- Уже с Приветом
- Posts: 7956
- Joined: 08 Nov 2004 12:24
- Location: GA
Re: Machine Learning again
А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету .
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)Prosche wrote:А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету .
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледноФизик-Лирик wrote:С этого места про низводителей и укрощателей поподробнее пожалуйста.Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
Трудно не согласиться.Сабина wrote: Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледно
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Кстати - вот мой самый любимый machine learning example
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;
Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта
Вот это я понимаю - big data i machine learning
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;
Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта
Вот это я понимаю - big data i machine learning
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Видео пока не посмотрел, но думаю используют Market Basket Analysis и/или Recommenders. Если так, то чистый Machine Learning.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Machine Learning again
Мне кажется у них ( например Кредит Кармы и Минта) разный подход к теме:). Ну а у кредитных бюро вообще третий и поэтому полярно разные результаты. Минт он вообще слегка "тупой" в том смысле что полагается толькл на картину мира которую вы ему создали ( сводит балансы только между теми счетами что вы там завели). И там может запросто получится что например во время перефинансирования у вас заведенный в Минте моргидж закрыт, а нового лендеоа вы еще не знаете. В итоге ваш networth прыгает до 800 и credit score тоже примерно туда же . Параллельно агенства грустно репортят ваши 750 уже полгода как. А Кредит Карма кмк немного пооперативнее агенств и быстрее реагирует на увеличение кредитного баланса и запросы , то есть она к полученной от всех агенств информации добааляет еще какие то свои собственные данные и у них скор уже может быть 720 запросто. Зато стоит выплатить баланс - и они первыми вверх побежали.Физик-Лирик wrote:На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
Я где то так себе обьясняю эту разницу, помлелние года два вроде все совпадает
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 192
- Joined: 01 Jul 2005 08:56
- Location: Нск, РФ -> Riverside, CA
Re: Machine Learning again
А кто подскажет с чего начать учиться знаниям о нейронных сетях? А то да - есть тот же caffe.berkeleyvision.org, http://www.tensorflow.org" onclick="window.open(this.href);return false; - но это подразумевает уже имеющийся базис. А вот что почитать для начала по теории, чтобы не было устаревшим относительно текущих реалий? Если кто занимается, буду очень благодарен за ссылки...
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
-
- Ник закрыт за хамство.
- Posts: 357
- Joined: 16 Feb 2014 18:34
Re: Machine Learning again
А, да, моя книжка о Machine learning в общем, а не только о нейронных сетях.
-
- Уже с Приветом
- Posts: 2261
- Joined: 17 Jun 2003 04:41
- Location: Just like US
Re: Machine Learning again
Из ревью на эту книгуDeckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать.don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
...а мы такой компанией, возьмем, да и припремся к Элис!
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Плюс констрейнт оптимизейшен , дуал проблем. А так, книга очень хорошая, одна из моих настольных. Вторую ещё не читал, но планирую купить.blanko27 wrote:Из ревью на эту книгуDeckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать.don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: Machine Learning again
Что ещё интересного появилось почитать за последнее время? Я стараюсь следить, но может что и упустил.
-
- Уже с Приветом
- Posts: 3481
- Joined: 02 Jan 2005 22:10
Re: Machine Learning again
Так вы Мастера в математике получили или в процессе?Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.
-
- Уже с Приветом
- Posts: 5992
- Joined: 11 Mar 2011 05:36
Re: Machine Learning again
если это БД, то я тогда балеринаСабина wrote:Кстати - вот мой самый любимый machine learning example
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;
Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта
Вот это я понимаю - big data i machine learning
пипец, да и только