Machine Learning again

Deckel · Post by **Deckel** » 10 Feb 2016 18:31

Физик-Лирик wrote:
Deckel wrote:Вообще-то кроме ватсона есть еще много полуавтоматизированых хреней. В sklearn это примерно так делается: непрерывные данные скалировать на [-1,1] если нет intrinsic scale, а все остальные кодировать one hot encoder. Потом на это напустить случайный лес GBM или спуск по градиенту SGD либо classifier либо regressor, если зависимая переменная непрерывная. Гиперпараметры алгоритмов подбираются методом монте-карло или прогоном по списку и cross validation, для этого тоже есть готовый фреймворк. Какие из зависимых переменных приносят пользу можно посмотреть по score который им выдает алгоритм, а потом убрать ненужные. Но с современным объемом памяти это наверное уже и не обязательно.
Остается проблема мультиколлинеарности - ну можно еще методом главных компонент PCA понизить размерность после причесывания данных.
Может я какие-то особенные случаи не учел, пусть старшие товарищи меня поправят.
Оно как бы в теории все так, но на практике все будет иначе. Я уже говорил выше, что все начинается с постановки бизнес задачи. Отсюда надо и плясать. Алгоритмов много, но надо знать какой и где применять не только с точки зрения самой задачи, но и времени вычислений, устойчивости к оферфиттингу, точности и т.п. Выборка основных переменных производится автоматически, но вопрос в том, насколько все это точно. Вы уже упоминали мультиколинеарность. Об этом сейчас много дискутируют. Т.к. оценки важности переменных будут неточными, алгоритмы, основанные на выборке по данному критерию, могут полететь. В случае линейной регрессии все кулинарные переменные могут оказаться незначимыми (их же вычисляют как маргинальные переменные), так что степ вайз селекция может не сработать. Принципиальные компоненты, да, но как их интерпретировать? А как метрику выбирать, например, для кластеров или аутлаеров. А про байес в исходных данных я вообще молчу. Так что заменить все фреймверками не получится. А ещё проблема распараллелить алгоритмы.
Короче, наблюдаем некий бум, сходный (масштаб, конечно, не тот) с концом 90-х. Только в отличие от программирования здесь математику знать надо. А вот здесь будут явные проблемы.

Это хорошие страшилки, я со всем согласен. Но это в случае, если cross-validation & testing показывает, что ваша модель не работает и надо искать почему или как улучшить. А если прямо из коробки заработало и потом в продакшн продолжает работать то

и можно браться за следующую задачу.

Физик-Лирик · Post by **Физик-Лирик** » 10 Feb 2016 23:54

Снежная Королева wrote:Не будет оно работать прямо из коробки. Сабина правильно сказала, если данные в базе кривые, работать не будет, а вы и не поймете, почему. Да и меняется оно все. Сегодня маркет ситуация поменялась, и привет, все переделывать надо.

В общем, все так и будет. Хотя, по большому счету, практически все данные кривые, если их только с самого начала не собирать "правильно". Но на практике, это редкость. Имеем, что имеем. Собственно задача учёного это понять, разобраться и предложить решение, зная как особенности данных так и особенности алгоритмов. Чисто ручной процесс, но он как раз и служит водоразделом между учеными и сиквельщиками с наклейкой учёного.

Deckel · Post by **Deckel** » 11 Feb 2016 01:52

x.angie · Post by **x.angie** » 12 Feb 2016 05:59

Физик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.

Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше

Вон народ на БАКе, когда частицы гоняет, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.

А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data

x.angie · Post by **x.angie** » 12 Feb 2016 06:03

Есть вот такая ссылка, но там очень всё поверхностно

https://yandex.ru/blog/company/89612" onclick="window.open(this.href);return false;

Физик-Лирик · Post by **Физик-Лирик** » 12 Feb 2016 14:17

x.angie wrote:Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше

Увы, смотрю, как оно есть на самом деле. Данных сейчас действительно очень много. Но это автоматически не означает, что все знают, что с ними делать, а самое главное, как. А технических моментов тоже куча, что и делает эту область очень привлекательной и интересной.

Сабина · Post by **Сабина** » 13 Feb 2016 01:09

x.angie wrote:
Физик-Лирик wrote:Ну так я о том и говорю. Сиквелщики теперь "ученые", собиратели данных и построители моделей. Просто я так хорошо выражаться не умею.
Другая беда - вся наука сводится к "знанию" Р. Вот и вся предиктив аналитикс. Помноженное на непонимание менеджментом, нафига это все нужно, когда и так работает.
Да нуууу... Как-то однобого и слишком узко смотрите. Сейчас к людям нужно помягше, а на вопросы смотреть ширше

Вон народ на БАКе, когда частицы гоняете, за одну секунду собирает столько инфы (raw data), что её не в один кластер оракл не засунешь и не обработаешь потом. Да и данные о нужных столкновениях не сиквельными запросами "вытягиваются", там ML алгоритмы в полный рост. Туда даже Яндекс пытался влезть с их фермой по обработке данных, но я не знаю чем это кончилось. У меня даже где-то видео было с коротенечким рассказом чё там и как... Сейчас попробую найти... [минут через 10ть] Не, не могу найти. Но там чувак такой сидит и рассказывает об инфраструктуре БАКа, и как они там считают.

А вы говорите сиквельщики, собиратели данных, постротели моделей... Главное хвост! Big Data

Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum

Физик-Лирик · Post by **Физик-Лирик** » 13 Feb 2016 03:08

Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum

С этого места про низводителей и укрощателей поподробнее пожалуйста.

Sergunka · Post by **Sergunka** » 13 Feb 2016 04:28

Физик-Лирик wrote:
Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
С этого места про низводителей и укрощателей поподробнее пожалуйста.

Классика жанра

Deckel · Post by **Deckel** » 13 Feb 2016 10:28

Классика жанра это "бигдата как teenage секс", все гооворят о нем, но мало у кого есть

А укрощение это что-то новенькое.

Prosche · Post by **Prosche** » 13 Feb 2016 14:36

Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету .
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так

А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.

Сабина · Post by **Сабина** » 13 Feb 2016 19:29

Prosche wrote:
Сабина wrote:Прочла сегодня в БАРТе рекламку и поняла почему меня КредитКарма всегла записывает в "х...е заёмщики", в то время как тот же Минт говорит что лучше меня нету .
Рекламка на стене гласила "I apply machine learning to make credit more human...." И подпись какого то индуса-инженера из Кредит кармы. Ну а че все правильно - потеряй я работу и все мои скоры, которые может и высокие по подсчетам агенств в течении последних 10+ лет , полетят к чертовой матери.
Получается machine learning - это вам не просто так
А карма разве делает какую-то аналитику? У меня она просто транслирует скоры агенств.

Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)

Сабина · Post by **Сабина** » 13 Feb 2016 19:32

Физик-Лирик wrote:
Сабина wrote:
Согласна. Это уже давно элитная порода тех кто бигдата низводить и курощать умеет . Просто сиквельщики и базовики это bare minimum
С этого места про низводителей и укрощателей поподробнее пожалуйста.

Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледно

Физик-Лирик · Post by **Физик-Лирик** » 13 Feb 2016 23:29

Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)

На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.

Сабина wrote: Для этого надо поработать на этих технологиях и в соотвествующем коллективе, где собрались люди с разным уровнем знаний. Поверьте крутой сиквельщик и базовик без скажем интуиции функционального программирования или понимания как работет дистрибутивный процессинг,мультитреддинг может смотреться весьма бледно

Трудно не согласиться.

Сабина · Post by **Сабина** » 17 Feb 2016 05:51

Кстати - вот мой самый любимый machine learning example

Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта

Вот это я понимаю - big data i machine learning

Screen Shot 2016-02-16 at 8.53.12 PM.png

Физик-Лирик · Post by **Физик-Лирик** » 17 Feb 2016 15:14

Видео пока не посмотрел, но думаю используют Market Basket Analysis и/или Recommenders. Если так, то чистый Machine Learning.

Сабина · Post by **Сабина** » 18 Feb 2016 17:01

Физик-Лирик wrote:
Сабина wrote: Так я про то и пишу, что долго не понимала почему они мне скор выдают на порядки ниже чем все агенства. Оказывается у них свой метод подсчета - аналитический (согласно рекламе)
На мой взгляд все эти методы лишены смысла, если не ясно, что они выражают. Во-первых, счет должен выражать вероятность некоторого события, например, банкротства или пропуска платежи (или единица минус эта вероятность), например счет 0.1 (или 0.9) имеет смысл. Когда я вижу счет как трехзначное число, абсолютно не ясно, как его интерпретировать. Во-вторых, если мой счет с 0.1 понизился до 0.05 (или с 0.9 повысился до 0.95) я понимаю процесс. Если мой счет повысился от одного трехзначного числа к другому, мне даже не ясно, является ли шкала линейной. Похоже любовь к большим цифрам завулировала всю идею счета.

Мне кажется у них ( например Кредит Кармы и Минта) разный подход к теме:). Ну а у кредитных бюро вообще третий и поэтому полярно разные результаты. Минт он вообще слегка "тупой" в том смысле что полагается толькл на картину мира которую вы ему создали ( сводит балансы только между теми счетами что вы там завели). И там может запросто получится что например во время перефинансирования у вас заведенный в Минте моргидж закрыт, а нового лендеоа вы еще не знаете. В итоге ваш networth прыгает до 800 и credit score тоже примерно туда же

. Параллельно агенства грустно репортят ваши 750 уже полгода как. А Кредит Карма кмк немного пооперативнее агенств и быстрее реагирует на увеличение кредитного баланса и запросы , то есть она к полученной от всех агенств информации добааляет еще какие то свои собственные данные и у них скор уже может быть 720 запросто. Зато стоит выплатить баланс - и они первыми вверх побежали.
Я где то так себе обьясняю эту разницу, помлелние года два вроде все совпадает

Wolverene · Post by **Wolverene** » 18 Feb 2016 19:57

А кто подскажет с чего начать учиться знаниям о нейронных сетях? А то да - есть тот же caffe.berkeleyvision.org, http://www.tensorflow.org" onclick="window.open(this.href);return false; - но это подразумевает уже имеющийся базис. А вот что почитать для начала по теории, чтобы не было устаревшим относительно текущих реалий? Если кто занимается, буду очень благодарен за ссылки...

Deckel · Post by **Deckel** » 18 Feb 2016 20:09

Hastie - Elements of Statistical Learning. И вторая там его книжка есть.

Deckel · Post by **Deckel** » 19 Feb 2016 01:45

А, да, моя книжка о Machine learning в общем, а не только о нейронных сетях.

blanko27 · Post by **blanko27** » 19 Feb 2016 02:56

Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.

Из ревью на эту книгу

don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first

Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать.

Физик-Лирик · Post by **Физик-Лирик** » 19 Feb 2016 03:23

blanko27 wrote:
Deckel wrote:Hastie - Elements of Statistical Learning. И вторая там его книжка есть.
Из ревью на эту книгу
don't bother reading this book if you aren't willing to learn at least the basics of linear algebra first
Я думаю, что это очень верный совет: мне пришлось с "refreshment" курса по линейной алгебре начать.

Плюс констрейнт оптимизейшен

, дуал проблем. А так, книга очень хорошая, одна из моих настольных. Вторую ещё не читал, но планирую купить.

Физик-Лирик · Post by **Физик-Лирик** » 19 Feb 2016 14:50

Что ещё интересного появилось почитать за последнее время? Я стараюсь следить, но может что и упустил.

Kolbasoff · Post by **Kolbasoff** » 21 Feb 2016 01:19

Снежная Королева wrote:Я копаю в ширину, Extreme Value Theory, special stochastic processes. Из практического хочу освоить shiny и делать dashboards в виде web apps, а то весь front end в Excel, я его ненавижу.

Так вы Мастера в математике получили или в процессе?

DropAndDrag · Post by **DropAndDrag** » 21 Feb 2016 03:24

Сабина wrote:Кстати - вот мой самый любимый machine learning example
Все работает на AWS Kinesis ( альтернатива Kafke)
Компания Sushiro - use case is described in video - https://www.youtube.com/watch?v=lkRoQlh ... 121.052322" onclick="window.open(this.href);return false;

Суть в том что они помещают sensor на каждую sushi тарелку and keep track of what was on plate, when plate was taken off the carousel, etc etc.
В обшем 100% держат руку на пульсе рынка своего продукта

Вот это я понимаю - big data i machine learning

Screen Shot 2016-02-16 at 8.53.12 PM.png

если это БД, то я тогда балерина

пипец, да и только

Привет

Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again

Re: Machine Learning again