Посоветуйте книгу по Machine Learning

GarikToo · Post by **GarikToo** » 23 May 2012 04:16

crypto5 wrote:
GarikToo wrote:Вот наткнулся в И-нете на такой вот ролик:

http://www.youtube.com/watch?v=qq8GefuNARQ

Есть ли программы/тулзы которые могут делать подобное с input data v десятки и сотни миллионов строк?
К means кластеринг 100 млн записей маленькой размерности на 10 кластеров думаю простая задача, в любой mathematica, R, mathlab, weka есть пакет. Если все таки возникнут проблемы памяти/производительности, то можно еще https://cwiki.apache.org/MAHOUT/k-means-clustering.html посмотреть.

ok. если предположим возьмем R. немогли бы вы привести пример как это делать?

crypto5 · Post by **crypto5** » 23 May 2012 04:23

В гугле полно ссылок. Вот например: http://en.wikibooks.org/wiki/Data_Minin ... ng/K-Means

scorpion · Post by **scorpion** » 23 May 2012 04:32

crypto5 wrote:К means кластеринг 100 млн записей маленькой размерности на 10 кластеров...

Качество результата может быть не фонтан...

crypto5 wrote:можно еще https://cwiki.apache.org/MAHOUT/k-means-clustering.html посмотреть.

GarikToo, покрутите Mahout, набор для кластеризации там вполне и под себя можно подкрутить, несложно.

crypto5 · Post by **crypto5** » 23 May 2012 04:35

scorpion wrote:
crypto5 wrote:К means кластеринг 100 млн записей маленькой размерности на 10 кластеров...
Качество результата может быть не фонтан...

Ну так на видео которым впечатлился Гарик именно это помоему и делают только на значительно меньших данных.
А как вы качество определяете? И какие альтернативы если не секрет?

scorpion · Post by **scorpion** » 23 May 2012 05:13

crypto5 wrote:А как вы качество определяете?

На глазок по ситуации (типа куда отнести сегодня Apple, в группу Granny с Fuji или iPod с iPad)

, intracluster & intercluster distance, самое простое, что можно на коленке сделать.

crypto5 wrote:И какие альтернативы если не секрет?

Из доступного, что крутили коллеги - Cluto.

crypto5 · Post by **crypto5** » 23 May 2012 05:26

scorpion wrote:
crypto5 wrote:А как вы качество определяете?
На глазок по ситуации (типа куда отнести сегодня Apple, в группу Granny с Fuji или iPod с iPad) , intracluster & intercluster distance, самое простое, что можно на коленке сделать.

Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?

crypto5 wrote:И какие альтернативы если не секрет?
Из доступного, что крутили коллеги - Cluto.

Посмотрим, но думается там все старые добрые алгоритмы из страницы вики выше..

scorpion · Post by **scorpion** » 23 May 2012 06:06

crypto5 wrote:Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?

С вашими-то мощностями в большом G какие проблемы?

У меня небольшой девелоперский кластер из приблизительно сотни узлов управлялся за ночь с несколькими миллионами векторов размерностью в несколько миллионов каждый и серьезного "трюкачества", увы, не было, ну, может кроме "супер-секретного" домашнего алгоритма подсчета дистанции, поскольку и Минковский с Co, и Танимото работали с нашими наборами некачественно

Хотелось копнуть глубже и чему-нибудь поучиться еще, но проект отобрали, сказав, что и так уже хорошо...

crypto5 · Post by **crypto5** » 23 May 2012 06:14

scorpion wrote:
crypto5 wrote:Это все будет с большим трудом работать на 100 млн записях? Или вы знаете какие то трюки?
С вашими-то мощностями в большом G какие проблемы? У меня небольшой девелоперский кластер из приблизительно сотни узлов управлялся за ночь с несколькими миллионами векторов размерностью в несколько миллионов каждый и серьезного "трюкачества", увы, не было, ну, может кроме "супер-секретного" домашнего алгоритма подсчета дистанции, поскольку и Минковский с Co, и Танимото работали с нашими наборами некачественно Хотелось копнуть глубже и чему-нибудь поучиться еще, но проект отобрали, сказав, что и так уже хорошо...

Я этим делом интересуюсь на домашнем десктопе и лаптопе ))
Я имею в виду то как вы валидируете ваши результаты, к примеру с словом apple очевидно что и fuji и ipod вполне могут попасть в один кластер с центром в слове apple, и совсем неочевидно как с помощью ваших методов определить такие случаи .
Глазами проверять тоже не выход, т.к. на больших данных вы можете overfit модель под ваши искувственные тесты.

scorpion · Post by **scorpion** » 23 May 2012 06:37

crypto5 wrote:Я этим делом интересуюсь на домашнем десктопе и лаптопе ))

Pardon me

crypto5 wrote:Я имею в виду то как вы валидируете ваши результаты, к примеру с словом apple очевидно что и fuji и ipod вполне могут попасть в один кластер с центром в слове apple

Универсального решения, если честно, я не достиг - где должен быть "juice" в яблоках фруктах или поделках Яблока, для меня осталось за кадром. Была задача предоставить максимальное количество сигналов для весьма специфического набора данных, чтобы упростить труд аналистов, т.е. анализировалось насколько кластеры плотные и насколько близко они друг к другу, в случае каких-то аномалий, народ "тупо" гонял данные в Hive и т.п. и вылавливал то, чего не хватало.

flip_flop · Post by **flip_flop** » 23 May 2012 08:33

Мне вот стало интересно - кластерный анализ самодостаточен, почему его методы стали подаваться "под соусом" [machine learning]? Тот же [k-means] алгоритм, например. Просто из-за [buzz words]? Кластерный анализ: [data in] -> [clusters out], где тут обучение, которое имеет место быть в генетических алгоритмах или нейронных сетях (при надлежащем обучении)?

crypto5 · Post by **crypto5** » 23 May 2012 17:17

Можно например сказать что обучаются параметры модели которые в дальнейшем можно использовать опять..

bearmf · Post by **bearmf** » 23 May 2012 21:00

Есть понятие unsupervised learning, которое включает в себя кластерный анализ, PCA итд.

Supervised learning отличается тем, что есть "эксперт", который может каждый пример классифицировать, или дать верное значение зависимой переменной, либо в данных это значение/класс уже есть. Но такая возможность есть не всегда.

flip_flop · Post by **flip_flop** » 24 May 2012 19:21

Никто не спорит с тем, что есть обучение без управляющего и есть обучение с управляющим, равно как и с тем, что можно подогнать параметры модели под одни множества данных и использовать затем модель на других множествах данных. Вопрос в том, является ли метод подгонки модели (сам по себе) обучением. Например, каким боком к этому относиться [k-means] алгоритм, который является очень простым итеративным алгоритмом и был сформулирован в 1957 году. Можно, с натяжкой, утверждать, что итеративное определение средних и итеративное уточнение кластеров и есть "обучение", но тогда любой итеративный метод (в том числе изобретенный столетиями раньше компьютеров) также следует отнести к [machine learning]. Кмк, налицо смешение [machine learning] и иснтрументария [machine learning], который сам по себе не относится к [machine learning], но заимствован из статистики.

Сабина · Post by **Сабина** » 13 Jun 2012 04:31

http://www.coderanch.com/forums/f-112/Jython-Python

в частности ... http://www.coderanch.com/t/583760/Jytho ... Harrington

This week, we're delighted to have Peter Harrington helping to answer questions about the new book Machine Learning in Action.

The promotion starts Tuesday, June 12th 2012 and will end on Friday, June 15th 2012.

We'll be selecting four random posters in this forum to win a free copy of the book provided by the publisher, Manning Publications Co..

Please see the Book Promotion page to ensure your best chances at winning!

Posts in this welcome thread are not eligible for the drawing, and should be reserved for welcoming the author. Questions posted in this topic are subject to removal.

Привет

Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning

Re: Посоветуйте книгу по Machine Learning