Cassandra or MongoDB ?

mskmel · Post by **mskmel** » 07 May 2014 03:58

crypto5 wrote:Есть шанс что на самом деле бигдата нужна меньшему количеству компаний чем есть стартапов в этой области

"И хоть один, но прорастёт!"

crypto5 wrote:Могут и не полезть, если окажется что бизнесу биг дата не так уж и нужна и он не готов за нее платить много денег.

Традиционные коммерческие RDBMS стоят совершенно неприличных денег когда необходимо обрабатывать много данных быстро. Деньги там становятся относительно приличными когда бизнес очень большой (site license), но для начинающих такие цены недоступны, потому и смотрят в технологии БигДаты. Какие-нить кликопродаватели\считатели не потянут 10-15млн на экзадату и это разработка еще не началась.

Я работал на нескольких проектах где исторически сложилось так что был sharding на Oracle, потому что когда начиналось создание софта, стабильных относительно бесплатных СУБД не было, а в один сервер это банально "не влазило". В одном из проектов использовался Постгрес, но там тяжело было провалить сам проект именно из-за БД, так как участвовал один из разработчиков самого Постгрес, да и потеря части данных или погрешность расчетов допускались

Это я к тому что спрос в таком подходе был, есть и он никуда не денется. hadoop + hbase позволяют избавиться от самостоятельной разработки слоя распараллеливания обработки и хранения данных.

crypto5 wrote:Я знаю уже одну немаленькую компанию которая пыталась подымать систему на hadoop + hbase, а потом переписала все обратно на mysql.

Это не значит что hadoop + hbase плохи. Это значит что им больше походил или они лучше знали mysql.

crypto5 wrote:особенно с ростом мощности серверов

Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".

flip_flop · Post by **flip_flop** » 07 May 2014 04:31

mskmel wrote: Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".

Безотносительно этих ваших жёлтых слоников, позволю себе усомниться в данных. В Intel® Xeon® Processor E7-4890 v2 максимальная пропускная способность в пике - 85 GB/s на один процессор. В реальной работе есть некоторые потери, но если потери больше 30 % на тестах типа Stream Triad, то за это разработчиков контроллера памяти надо расстреливать на месте, из рогатки. Итак, для 4-х сокетной конфигурации имеем оценку 85*0.7*4~=240 GB/s. Что и показывают тесты: 246 GB/s ( Four-socket benchmarks )

crypto5 · Post by **crypto5** » 07 May 2014 05:01

mskmel wrote:
crypto5 wrote:Я знаю уже одну немаленькую компанию которая пыталась подымать систему на hadoop + hbase, а потом переписала все обратно на mysql.
Это не значит что hadoop + hbase плохи. Это значит что им больше походил или они лучше знали mysql.

Да нет, для обычного бизнеса как раз hadoop + hbase не имеют кучу функциональности, вроде транзакций, контроля целостности данных, хранимых процедур, тригеров и возможности писать развесистые запросы

crypto5 wrote:особенно с ростом мощности серверов
Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".

Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.

mskmel · Post by **mskmel** » 07 May 2014 05:45

crypto5 wrote:Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.

Я не знаю за сколько он это прососёт, сам не запускал ни разу:
Этой статье 5 лет
Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
https://developer.yahoo.com/blogs/hadoo ... 2-422.html

flip_flop wrote:но если потери больше 30 % на тестах типа Stream Triad, то за это разработчиков контроллера памяти надо расстреливать на месте, из рогатки.

Извиняюсь за неккоректную инфу. Не туда глянул, не то написал. Был введен в заблуждение нашими схожими цифрами в приложении на E5 v2.

Интересно почему сам IBM заявил "90 GB/s Memory bandwidth per chip" , но при этом четыре чипа дали всего в 1.5 раза больше?

crypto5 · Post by **crypto5** » 07 May 2014 05:51

mskmel wrote:
crypto5 wrote:Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.
Я не знаю за сколько он это прососёт, сам не запускал ни разу:
Этой статье 5 лет
Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
https://developer.yahoo.com/blogs/hadoo ... 2-422.html

Ну они наверное дя этого эксперимента хадуп как то расхачили, они пишут в статье что что-то с heartbeat мутили. А вот что пишут обычные юзера: "So usually for 20 node cluster submitting job to process 3GB(200 splits) of data takes about 30sec and actual execution about 1m." http://stackoverflow.com/questions/1136 ... in-general

flip_flop · Post by **flip_flop** » 07 May 2014 06:14

mskmel wrote: Извиняюсь за неккоректную инфу. Не туда глянул, не то написал. Был введен в заблуждение нашими схожими цифрами в приложении на E5 v2.

Да нет проблем

Интересно почему сам IBM заявил "90 GB/s Memory bandwidth per chip" , но при этом четыре чипа дали всего в 1.5 раза больше?

Вообще-то 68 GB/s (IBM Power 750), но потери в 50% действительно странные. Тем не менее, цифры от самого IBM.

P.S. Результат зависит от компиллятора. Поигрался на моей старенькой односокетной рабочей станции с медленной памятью (DDR3-1333) и получил для gcc чуть более 50%: 24 GB/s vs 42.7 GB/s max, тогда как для icc - ожидаемые 75%: 32 GB/s vs 42.7 GB/s max. Как-нибудь поиграюсь на самодельном серверe с Е5-26хх v2

Dmitry67 · Post by **Dmitry67** » 07 May 2014 07:44

Интересно как IBM c мейнфреймами, не икается от хадупа?

Сабина · Post by **Сабина** » 07 May 2014 15:58

Dmitry67 wrote:Интересно как IBM c мейнфреймами, не икается от хадупа?

Ну так он же scalable на практически любые мощи, а цель как я понимаю "чтоб вообще не выкидывать"

Сабина · Post by **Сабина** » 07 May 2014 16:01

crypto5 wrote:
Сабина wrote:Стартапы и маленкие пусть отвалятся , зато большие полезут
http://www.theregister.co.uk/2014/05/02/docker_hadoop/
Могут и не полезть, если окажется что бизнесу биг дата не так уж и нужна и он не готов за нее платить много денег.

Совершенно верно, но сейчас бОльшая их часть еще и не совалась и только просыпается. Реальных задач для хадупа я считаю куда больше. На самом деле мне очень охота заполучить доступ к виделматериалам той конференции Strata, думаю сложидась бы более точная картина что у чему, но увы вчера дороговато было даже с 50% скидкой

metaller · Post by **metaller** » 07 May 2014 16:46

mskmel wrote:Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды?

Знатоки, поправьте меня плз если заблуждаюсь.
IMHO тут две совершенно разные задачи :
1) аналитического характера - просканировать все данные и выдать отчёт. Hadoop как раз для того, чтобы делать это параллельно на всех нодах кластера. Но тут не идёт речь об ответе за единицы секунд. Речь идёт об уменьшении времени анализа с недель/суток до приемлимых часов/минут.
2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.

Сабина · Post by **Сабина** » 07 May 2014 17:30

Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.

flip_flop · Post by **flip_flop** » 07 May 2014 17:38

metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.

Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?

valchkou · Post by **valchkou** » 08 May 2014 01:07

flip_flop wrote:
metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?

Cassandra

Albert_al · Post by **Albert_al** » 08 May 2014 01:54

Сабина wrote:На самом деле мне очень охота заполучить доступ к виделматериалам той конференции Strata, но увы вчера дороговато было даже с 50% скидкой

Послал ПМ, еше не поздно

Сабина · Post by **Сабина** » 08 May 2014 04:06

Albert_al wrote: Послал ПМ, еше не поздно, предлагаю разделит цену

Спасибо, ответила

flip_flop · Post by **flip_flop** » 08 May 2014 05:41

valchkou wrote:
flip_flop wrote:
metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?
Cassandra

Я так понял это для Кассандры недавно сделали, вроде опции от DataStax ?

valchkou · Post by **valchkou** » 08 May 2014 16:59

flip_flop wrote: Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?

Я так понял это для Кассандры недавно сделали, вроде опции от DataStax ?

даже без опций, кассандра будет работать как distributed in memory database, при определенных манипуляциях.
p.s. заранее извиняюсь если это не то о чем вы спрашивали

phpBB [video]

ALV00 · Post by **ALV00** » 09 May 2014 03:07

Сабина wrote:Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.

Да, это сейчас такая очередная великая мысля у яйцеголовых: загрузить огромное количество г-на в мэп редьюс и получить на выходе конфетку. Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится

http://www.datascienceassn.org/sites/de ... 20Data.pdf

Zorkus · Post by **Zorkus** » 09 May 2014 03:43

ALV00 wrote:
Сабина wrote:Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.
Да, это сейчас такая очередная великая мысля у яйцеголовых: загрузить огромное количество г-на в мэп редьюс и получить на выходе конфетку. Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится
http://www.datascienceassn.org/sites/de ... 20Data.pdf

А можно уточнить, кого вы называете "яйцеголовые"?

ALV00 · Post by **ALV00** » 09 May 2014 05:55

Zorkus wrote: А можно уточнить, кого вы называете "яйцеголовые"?

Мы с вами

flip_flop · Post by **flip_flop** » 09 May 2014 08:58

ALV00 wrote:Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится

Воот! Яйцеголовые - двигатели прогресса, дайте нам спрос, а мы вам - железо на йото-масштаб. А чего там грузить, конфетки там или другие субстанции - не суть важно, количество перейдёт в качество. Хлоп, и всё написанное в исторический период займёт сущую ерунду в йото-масштабе. Можно будет переходить к регистрации вариантов того, что будет написано до конца текущего тысячелетия.

Сабина - продолжайте глаголом жечь сердца яйцеголовых! Большому сердцу - большие данные!

Dmitry67 · Post by **Dmitry67** » 09 May 2014 11:12

Я кстати использую map reduce. Закидываю удочки куче девушек (мар) потом смотрю где выгорит (reduce)

АццкоМото · Post by **АццкоМото** » 09 May 2014 15:00

Тут нужно делать не reduce, a enlarge!

Сабина · Post by **Сабина** » 09 May 2014 17:46

АццкоМото wrote:Тут нужно делать не reduce, a enlarge!

А вот тут да - смешно

Правда с разделом снова промах

Сабина · Post by **Сабина** » 10 May 2014 05:52

В Hive есть кубы, ролапы. Интересно а Кассандра и Монго делают подобное?

Привет

Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?

Re: Cassandra or MongoDB ?