crypto5 wrote:К means кластеринг 100 млн записей маленькой размерности на 10 кластеров думаю простая задача, в любой mathematica, R, mathlab, weka есть пакет. Если все таки возникнут проблемы памяти/производительности, то можно еще https://cwiki.apache.org/MAHOUT/k-means-clustering.html посмотреть.GarikToo wrote:Вот наткнулся в И-нете на такой вот ролик:
http://www.youtube.com/watch?v=qq8GefuNARQ
Есть ли программы/тулзы которые могут делать подобное с input data v десятки и сотни миллионов строк?
ok. если предположим возьмем R. немогли бы вы привести пример как это делать?