Посоветуйте книгу по Machine Learning

User avatar
GarikToo
Уже с Приветом
Posts: 24386
Joined: 03 Jan 2007 08:32
Location: Львов->Израиль->Убей Эрия

Re: Посоветуйте книгу по Machine Learning

Post by GarikToo »

crypto5 wrote:
GarikToo wrote:Вот наткнулся в И-нете на такой вот ролик:

http://www.youtube.com/watch?v=qq8GefuNARQ

Есть ли программы/тулзы которые могут делать подобное с input data v десятки и сотни миллионов строк?
К means кластеринг 100 млн записей маленькой размерности на 10 кластеров думаю простая задача, в любой mathematica, R, mathlab, weka есть пакет. Если все таки возникнут проблемы памяти/производительности, то можно еще https://cwiki.apache.org/MAHOUT/k-means-clustering.html посмотреть.

ok. если предположим возьмем R. немогли бы вы привести пример как это делать?
Оливье готовлю, холодец варю, посуду мою, пылесоса не боюсь. Скупой.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Посоветуйте книгу по Machine Learning

Post by crypto5 »

В гугле полно ссылок. Вот например: http://en.wikibooks.org/wiki/Data_Minin ... ng/K-Means
In vino Veritas!
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Посоветуйте книгу по Machine Learning

Post by scorpion »

crypto5 wrote:К means кластеринг 100 млн записей маленькой размерности на 10 кластеров...
Качество результата может быть не фонтан...
crypto5 wrote:можно еще https://cwiki.apache.org/MAHOUT/k-means-clustering.html посмотреть.
GarikToo, покрутите Mahout, набор для кластеризации там вполне и под себя можно подкрутить, несложно.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Посоветуйте книгу по Machine Learning

Post by crypto5 »

scorpion wrote:
crypto5 wrote:К means кластеринг 100 млн записей маленькой размерности на 10 кластеров...
Качество результата может быть не фонтан...
Ну так на видео которым впечатлился Гарик именно это помоему и делают только на значительно меньших данных.
А как вы качество определяете? И какие альтернативы если не секрет?
In vino Veritas!
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Посоветуйте книгу по Machine Learning

Post by scorpion »

crypto5 wrote:А как вы качество определяете?
На глазок по ситуации (типа куда отнести сегодня Apple, в группу Granny с Fuji или iPod с iPad) :-), intracluster & intercluster distance, самое простое, что можно на коленке сделать.
crypto5 wrote:И какие альтернативы если не секрет?
Из доступного, что крутили коллеги - Cluto.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Посоветуйте книгу по Machine Learning

Post by crypto5 »

scorpion wrote:
crypto5 wrote:А как вы качество определяете?
На глазок по ситуации (типа куда отнести сегодня Apple, в группу Granny с Fuji или iPod с iPad) :-), intracluster & intercluster distance, самое простое, что можно на коленке сделать.
Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?
crypto5 wrote:И какие альтернативы если не секрет?
Из доступного, что крутили коллеги - Cluto.
Посмотрим, но думается там все старые добрые алгоритмы из страницы вики выше..
In vino Veritas!
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Посоветуйте книгу по Machine Learning

Post by scorpion »

crypto5 wrote:Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?
С вашими-то мощностями в большом G какие проблемы? :D У меня небольшой девелоперский кластер из приблизительно сотни узлов управлялся за ночь с несколькими миллионами векторов размерностью в несколько миллионов каждый и серьезного "трюкачества", увы, не было, ну, может кроме "супер-секретного" домашнего алгоритма подсчета дистанции, поскольку и Минковский с Co, и Танимото работали с нашими наборами некачественно :%) Хотелось копнуть глубже и чему-нибудь поучиться еще, но проект отобрали, сказав, что и так уже хорошо... :cry:
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Посоветуйте книгу по Machine Learning

Post by crypto5 »

scorpion wrote:
crypto5 wrote:Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?
С вашими-то мощностями в большом G какие проблемы? :D У меня небольшой девелоперский кластер из приблизительно сотни узлов управлялся за ночь с несколькими миллионами векторов размерностью в несколько миллионов каждый и серьезного "трюкачества", увы, не было, ну, может кроме "супер-секретного" домашнего алгоритма подсчета дистанции, поскольку и Минковский с Co, и Танимото работали с нашими наборами некачественно :%) Хотелось копнуть глубже и чему-нибудь поучиться еще, но проект отобрали, сказав, что и так уже хорошо... :cry:
Я этим делом интересуюсь на домашнем десктопе и лаптопе ))
Я имею в виду то как вы валидируете ваши результаты, к примеру с словом apple очевидно что и fuji и ipod вполне могут попасть в один кластер с центром в слове apple, и совсем неочевидно как с помощью ваших методов определить такие случаи .
Глазами проверять тоже не выход, т.к. на больших данных вы можете overfit модель под ваши искувственные тесты.
In vino Veritas!
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Посоветуйте книгу по Machine Learning

Post by scorpion »

crypto5 wrote:Я этим делом интересуюсь на домашнем десктопе и лаптопе ))
Pardon me :-)
crypto5 wrote:Я имею в виду то как вы валидируете ваши результаты, к примеру с словом apple очевидно что и fuji и ipod вполне могут попасть в один кластер с центром в слове apple
Универсального решения, если честно, я не достиг - где должен быть "juice" в яблоках фруктах или поделках Яблока, для меня осталось за кадром. Была задача предоставить максимальное количество сигналов для весьма специфического набора данных, чтобы упростить труд аналистов, т.е. анализировалось насколько кластеры плотные и насколько близко они друг к другу, в случае каких-то аномалий, народ "тупо" гонял данные в Hive и т.п. и вылавливал то, чего не хватало.
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Посоветуйте книгу по Machine Learning

Post by flip_flop »

Мне вот стало интересно - кластерный анализ самодостаточен, почему его методы стали подаваться "под соусом" [machine learning]? Тот же [k-means] алгоритм, например. Просто из-за [buzz words]? Кластерный анализ: [data in] -> [clusters out], где тут обучение, которое имеет место быть в генетических алгоритмах или нейронных сетях (при надлежащем обучении)?
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Посоветуйте книгу по Machine Learning

Post by crypto5 »

Можно например сказать что обучаются параметры модели которые в дальнейшем можно использовать опять..
In vino Veritas!
bearmf
Уже с Приветом
Posts: 364
Joined: 04 Jan 2011 21:05
Location: Moscow -> NYC

Re: Посоветуйте книгу по Machine Learning

Post by bearmf »

Есть понятие unsupervised learning, которое включает в себя кластерный анализ, PCA итд.

Supervised learning отличается тем, что есть "эксперт", который может каждый пример классифицировать, или дать верное значение зависимой переменной, либо в данных это значение/класс уже есть. Но такая возможность есть не всегда.
User avatar
flip_flop
Уже с Приветом
Posts: 4375
Joined: 20 Jun 2001 09:01

Re: Посоветуйте книгу по Machine Learning

Post by flip_flop »

Никто не спорит с тем, что есть обучение без управляющего и есть обучение с управляющим, равно как и с тем, что можно подогнать параметры модели под одни множества данных и использовать затем модель на других множествах данных. Вопрос в том, является ли метод подгонки модели (сам по себе) обучением. Например, каким боком к этому относиться [k-means] алгоритм, который является очень простым итеративным алгоритмом и был сформулирован в 1957 году. Можно, с натяжкой, утверждать, что итеративное определение средних и итеративное уточнение кластеров и есть "обучение", но тогда любой итеративный метод (в том числе изобретенный столетиями раньше компьютеров) также следует отнести к [machine learning]. Кмк, налицо смешение [machine learning] и иснтрументария [machine learning], который сам по себе не относится к [machine learning], но заимствован из статистики.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Посоветуйте книгу по Machine Learning

Post by Сабина »

http://www.coderanch.com/forums/f-112/Jython-Python

в частности ... http://www.coderanch.com/t/583760/Jytho ... Harrington
This week, we're delighted to have Peter Harrington helping to answer questions about the new book Machine Learning in Action.

The promotion starts Tuesday, June 12th 2012 and will end on Friday, June 15th 2012.

We'll be selecting four random posters in this forum to win a free copy of the book provided by the publisher, Manning Publications Co..

Please see the Book Promotion page to ensure your best chances at winning!

Posts in this welcome thread are not eligible for the drawing, and should be reserved for welcoming the author. Questions posted in this topic are subject to removal.
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Работа и Карьера в IT”