Machine Learning again

Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Физик-Лирик wrote:
Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.
Это хорошие страшилки, я со всем согласен. Но это в случае, если cross-validation & testing показывает, что ваша модель не работает и надо искать почему или как улучшить. А если прямо из коробки заработало и потом в продакшн продолжает работать то :gen1: :fr: и можно браться за следующую задачу.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Снежная Королева wrote:Не будет оно работать прямо из коробки. Сабина правильно сказала, если данные в базе кривые, работать не будет, а вы и не поймете, почему. Да и меняется оно все. Сегодня маркет ситуация поменялась, и привет, все переделывать надо.
В общем, все так и будет. Хотя, по большому счету, практически все данные кривые, если их только с самого начала не собирать "правильно". Но на практике, это редкость. Имеем, что имеем. Собственно задача учёного это понять, разобраться и предложить решение, зная как особенности данных так и особенности алгоритмов. Чисто ручной процесс, но он как раз и служит водоразделом между учеными и сиквельщиками с наклейкой учёного.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Image
User avatar
x.angie
Уже с Приветом
Posts: 189
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: Machine Learning again

Post by x.angie »

Физик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.
Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше :umnik1:

Вон народ на БАКе, когда частицы гоняет, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.

А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data :D
User avatar
x.angie
Уже с Приветом
Posts: 189
Joined: 13 Mar 2006 19:01
Location: Earth -> Moon -> Mars

Re: Machine Learning again

Post by x.angie »

Есть вот такая ссылка, но там очень всё поверхностно

https://yandex.ru/blog/company/89612" onclick="window.open(this.href);return false;
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

x.angie wrote:Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше :umnik1:
Увы, смотрю, как оно есть на самом деле. Данных сейчас действительно очень много. Но это автоматически не означает, что все знают, что с ними делать, а самое главное, как. А технических моментов тоже куча, что и делает эту область очень привлекательной и интересной.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

x.angie wrote:
Физик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.
Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше :umnik1:

Вон народ на БАКе, когда частицы гоняете, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.

А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data :D
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
С этого места про низводителей и укрощателей поподробнее пожалуйста.
User avatar
Sergunka
Уже с Приветом
Posts: 34124
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: Machine Learning again

Post by Sergunka »

Физик-Лирик wrote:
Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
С этого места про низводителей и укрощателей поподробнее пожалуйста.
Image

Классика жанра :crazy:
"A patriot must always be ready to defend his country against his government." Edward Abbey
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Классика жанра это "бигдата как teenage секс", все гооворят о нем, но мало у кого есть :-) А укрощение это что-то новенькое.
User avatar
Prosche
Уже с Приветом
Posts: 7956
Joined: 08 Nov 2004 12:24
Location: GA

Re: Machine Learning again

Post by Prosche »

Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету :).
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так :)
А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Prosche wrote:
Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету :).
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так :)
А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.
Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Физик-Лирик wrote:
Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
С этого места про низводителей и укрощателей поподробнее пожалуйста.
Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледно
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.
Сабина wrote: Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледно
Трудно не согласиться.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Кстати - вот мой самый любимый machine learning example :)
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта :)

Вот это я понимаю - big data i machine learning
Screen Shot 2016-02-16 at 8.53.12 PM.png
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Видео пока не посмотрел, но думаю используют Market Basket Analysis и/или Recommenders. Если так, то чистый Machine Learning.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Machine Learning again

Post by Сабина »

Физик-Лирик wrote:
Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.
Мне кажется у них ( например Кредит Кармы и Минта) разный подход к теме:). Ну а у кредитных бюро вообще третий и поэтому полярно разные результаты. Минт он вообще слегка "тупой" в том смысле что полагается толькл на картину мира которую вы ему создали ( сводит балансы только между теми счетами что вы там завели). И там может запросто получится что например во время перефинансирования у вас заведенный в Минте моргидж закрыт, а нового лендеоа вы еще не знаете. В итоге ваш networth прыгает до 800 и credit score тоже примерно туда же :). Параллельно агенства грустно репортят ваши 750 уже полгода как. А Кредит Карма кмк немного пооперативнее агенств и быстрее реагирует на увеличение кредитного баланса и запросы , то есть она к полученной от всех агенств информации добааляет еще какие то свои собственные данные и у них скор уже может быть 720 запросто. Зато стоит выплатить баланс - и они первыми вверх побежали.
Я где то так себе обьясняю эту разницу, помлелние года два вроде все совпадает
https://www.youtube.com/watch?v=wOwblaKmyVw
Wolverene
Уже с Приветом
Posts: 192
Joined: 01 Jul 2005 08:56
Location: Нск, РФ -> Riverside, CA

Re: Machine Learning again

Post by Wolverene »

А кто подскажет с чего начать учиться знаниям о нейронных сетях? А то да - есть тот же caffe.berkeleyvision.org, http://www.tensorflow.org" onclick="window.open(this.href);return false; - но это подразумевает уже имеющийся базис. А вот что почитать для начала по теории, чтобы не было устаревшим относительно текущих реалий? Если кто занимается, буду очень благодарен за ссылки...
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Deckel
Ник закрыт за хамство.
Posts: 357
Joined: 16 Feb 2014 18:34

Re: Machine Learning again

Post by Deckel »

А, да, моя книжка о Machine learning в общем, а не только о нейронных сетях.
blanko27
Уже с Приветом
Posts: 2261
Joined: 17 Jun 2003 04:41
Location: Just like US

Re: Machine Learning again

Post by blanko27 »

Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Из ревью на эту книгу
don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать. :-)
...а мы такой компанией, возьмем, да и припремся к Элис!
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

blanko27 wrote:
Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Из ревью на эту книгу
don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать. :-)
Плюс констрейнт оптимизейшен :D , дуал проблем. А так, книга очень хорошая, одна из моих настольных. Вторую ещё не читал, но планирую купить.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: Machine Learning again

Post by Физик-Лирик »

Что ещё интересного появилось почитать за последнее время? Я стараюсь следить, но может что и упустил.
User avatar
Kolbasoff
Уже с Приветом
Posts: 3481
Joined: 02 Jan 2005 22:10

Re: Machine Learning again

Post by Kolbasoff »

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.
Так вы Мастера в математике получили или в процессе?
DropAndDrag
Уже с Приветом
Posts: 5992
Joined: 11 Mar 2011 05:36

Re: Machine Learning again

Post by DropAndDrag »

Сабина wrote:Кстати - вот мой самый любимый machine learning example :)
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта :)

Вот это я понимаю - big data i machine learning
Screen Shot 2016-02-16 at 8.53.12 PM.png
если это БД, то я тогда балерина 8)
пипец, да и только :pain1:

Return to “Работа и Карьера в IT”