Cassandra or MongoDB ?

mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Cassandra or MongoDB ?

Post by mskmel »

crypto5 wrote:Есть шанс что на самом деле бигдата нужна меньшему количеству компаний чем есть стартапов в этой области
"И хоть один, но прорастёт!" :D
crypto5 wrote:Могут и не полезть, если окажется что бизнесу биг дата не так уж и нужна и он не готов за нее платить много денег.
Традиционные коммерческие RDBMS стоят совершенно неприличных денег когда необходимо обрабатывать много данных быстро. Деньги там становятся относительно приличными когда бизнес очень большой (site license), но для начинающих такие цены недоступны, потому и смотрят в технологии БигДаты. Какие-нить кликопродаватели\считатели не потянут 10-15млн на экзадату и это разработка еще не началась.

Я работал на нескольких проектах где исторически сложилось так что был sharding на Oracle, потому что когда начиналось создание софта, стабильных относительно бесплатных СУБД не было, а в один сервер это банально "не влазило". В одном из проектов использовался Постгрес, но там тяжело было провалить сам проект именно из-за БД, так как участвовал один из разработчиков самого Постгрес, да и потеря части данных или погрешность расчетов допускались :) Это я к тому что спрос в таком подходе был, есть и он никуда не денется. hadoop + hbase позволяют избавиться от самостоятельной разработки слоя распараллеливания обработки и хранения данных.
crypto5 wrote:Я знаю уже одну немаленькую компанию которая пыталась подымать систему на hadoop + hbase, а потом переписала все обратно на mysql.
Это не значит что hadoop + hbase плохи. Это значит что им больше походил или они лучше знали mysql.
crypto5 wrote:особенно с ростом мощности серверов
Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

mskmel wrote: Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".
Безотносительно этих ваших жёлтых слоников, позволю себе усомниться в данных. В Intel® Xeon® Processor E7-4890 v2 максимальная пропускная способность в пике - 85 GB/s на один процессор. В реальной работе есть некоторые потери, но если потери больше 30 % на тестах типа Stream Triad, то за это разработчиков контроллера памяти надо расстреливать на месте, из рогатки. Итак, для 4-х сокетной конфигурации имеем оценку 85*0.7*4~=240 GB/s. Что и показывают тесты: 246 GB/s ( Four-socket benchmarks )
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Cassandra or MongoDB ?

Post by crypto5 »

mskmel wrote:
crypto5 wrote:Я знаю уже одну немаленькую компанию которая пыталась подымать систему на hadoop + hbase, а потом переписала все обратно на mysql.
Это не значит что hadoop + hbase плохи. Это значит что им больше походил или они лучше знали mysql.
Да нет, для обычного бизнеса как раз hadoop + hbase не имеют кучу функциональности, вроде транзакций, контроля целостности данных, хранимых процедур, тригеров и возможности писать развесистые запросы
crypto5 wrote:особенно с ростом мощности серверов
Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".
Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.
In vino Veritas!
mskmel
Уже с Приветом
Posts: 946
Joined: 24 Sep 2013 05:58
Location: US\GA

Re: Cassandra or MongoDB ?

Post by mskmel »

crypto5 wrote:Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.
Я не знаю за сколько он это прососёт, сам не запускал ни разу:
Этой статье 5 лет
Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
https://developer.yahoo.com/blogs/hadoo ... 2-422.html
flip_flop wrote:но если потери больше 30 % на тестах типа Stream Triad, то за это разработчиков контроллера памяти надо расстреливать на месте, из рогатки.
Извиняюсь за неккоректную инфу. Не туда глянул, не то написал. Был введен в заблуждение нашими схожими цифрами в приложении на E5 v2. :oops:
Интересно почему сам IBM заявил "90 GB/s Memory bandwidth per chip" , но при этом четыре чипа дали всего в 1.5 раза больше?
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Cassandra or MongoDB ?

Post by crypto5 »

mskmel wrote:
crypto5 wrote:Вы еще забыли сказать что хадуп сам ну никак террабайт за 40 секунд не просканит, там запуск MR занимает минуты. А в случае РДБМС террабайт наверняка не нужно будет сканить, потому что обычно уже заведены правильные индексы и views.
Я не знаю за сколько он это прососёт, сам не запускал ни разу:
Этой статье 5 лет
Hadoop Sorts a Petabyte in 16.25 Hours and a Terabyte in 62 Seconds
https://developer.yahoo.com/blogs/hadoo ... 2-422.html
Ну они наверное дя этого эксперимента хадуп как то расхачили, они пишут в статье что что-то с heartbeat мутили. А вот что пишут обычные юзера: "So usually for 20 node cluster submitting job to process 3GB(200 splits) of data takes about 30sec and actual execution about 1m." http://stackoverflow.com/questions/1136 ... in-general
In vino Veritas!
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

mskmel wrote: Извиняюсь за неккоректную инфу. Не туда глянул, не то написал. Был введен в заблуждение нашими схожими цифрами в приложении на E5 v2. :oops:
Да нет проблем :fr:
Интересно почему сам IBM заявил "90 GB/s Memory bandwidth per chip" , но при этом четыре чипа дали всего в 1.5 раза больше?
Вообще-то 68 GB/s (IBM Power 750), но потери в 50% действительно странные. Тем не менее, цифры от самого IBM.

P.S. Результат зависит от компиллятора. Поигрался на моей старенькой односокетной рабочей станции с медленной памятью (DDR3-1333) и получил для gcc чуть более 50%: 24 GB/s vs 42.7 GB/s max, тогда как для icc - ожидаемые 75%: 32 GB/s vs 42.7 GB/s max. Как-нибудь поиграюсь на самодельном серверe с Е5-26хх v2
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Cassandra or MongoDB ?

Post by Dmitry67 »

Интересно как IBM c мейнфреймами, не икается от хадупа?
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Dmitry67 wrote:Интересно как IBM c мейнфреймами, не икается от хадупа?
Ну так он же scalable на практически любые мощи, а цель как я понимаю "чтоб вообще не выкидывать"
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

crypto5 wrote:
Сабина wrote:Стартапы и маленкие пусть отвалятся :), зато большие полезут
http://www.theregister.co.uk/2014/05/02/docker_hadoop/
Могут и не полезть, если окажется что бизнесу биг дата не так уж и нужна и он не готов за нее платить много денег.
Совершенно верно, но сейчас бОльшая их часть еще и не совалась и только просыпается. Реальных задач для хадупа я считаю куда больше. На самом деле мне очень охота заполучить доступ к виделматериалам той конференции Strata, думаю сложидась бы более точная картина что у чему, но увы вчера дороговато было даже с 50% скидкой
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

mskmel wrote:Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды?
Знатоки, поправьте меня плз если заблуждаюсь.
IMHO тут две совершенно разные задачи :
1) аналитического характера - просканировать все данные и выдать отчёт. Hadoop как раз для того, чтобы делать это параллельно на всех нодах кластера. Но тут не идёт речь об ответе за единицы секунд. Речь идёт об уменьшении времени анализа с недель/суток до приемлимых часов/минут.
2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Cassandra or MongoDB ?

Post by valchkou »

flip_flop wrote:
metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?
Cassandra
User avatar
Albert_al
Уже с Приветом
Posts: 2305
Joined: 14 Apr 1999 09:01
Location: Ural->CA

Re: Cassandra or MongoDB ?

Post by Albert_al »

Сабина wrote:На самом деле мне очень охота заполучить доступ к виделматериалам той конференции Strata, но увы вчера дороговато было даже с 50% скидкой
Послал ПМ, еше не поздно
Last edited by Albert_al on 08 May 2014 05:42, edited 1 time in total.
Alcohol, Tobacco, Firearms, and Explosives. The makings of a great weekend in West Virginia!
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Albert_al wrote: Послал ПМ, еше не поздно, предлагаю разделит цену
Спасибо, ответила
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

valchkou wrote:
flip_flop wrote:
metaller wrote: 2) если нужно быстро (доли секунд) искать значения по ключу, и таких запросов приходят сотни/тысячи в cекунду, тогда cluster key-value store, например Cassandra.
Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?
Cassandra
Я так понял это для Кассандры недавно сделали, вроде опции от DataStax ?
User avatar
valchkou
Уже с Приветом
Posts: 4195
Joined: 27 Apr 2011 03:43
Location: Сергели ->Chicago

Re: Cassandra or MongoDB ?

Post by valchkou »

flip_flop wrote: Для такой производительности, видимо, надо использовать in memory database на high-performance кластере, с RDMA. Есть чего-нибудь такого от программисткой братии?

Я так понял это для Кассандры недавно сделали, вроде опции от DataStax ?
даже без опций, кассандра будет работать как distributed in memory database, при определенных манипуляциях.
p.s. заранее извиняюсь если это не то о чем вы спрашивали
phpBB [video]
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Cassandra or MongoDB ?

Post by ALV00 »

Сабина wrote:Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.
Да, это сейчас такая очередная великая мысля у яйцеголовых: загрузить огромное количество г-на в мэп редьюс и получить на выходе конфетку. Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится :mrgreen:
http://www.datascienceassn.org/sites/de ... 20Data.pdf
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: Cassandra or MongoDB ?

Post by Zorkus »

ALV00 wrote:
Сабина wrote:Сейчас еше идет нехилая обработка и просвещение масс на предмет что можнo извлечь из данных, в частнотсти тех которые возможно в настояшем выкидываются - и по етой причине тоже все больше компаний спешат запрыгнуть на поезд.
Да, это сейчас такая очередная великая мысля у яйцеголовых: загрузить огромное количество г-на в мэп редьюс и получить на выходе конфетку. Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится :mrgreen:
http://www.datascienceassn.org/sites/de ... 20Data.pdf
А можно уточнить, кого вы называете "яйцеголовые"?
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Cassandra or MongoDB ?

Post by ALV00 »

Zorkus wrote: А можно уточнить, кого вы называете "яйцеголовые"?
Мы с вами :roll:
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

ALV00 wrote:Главное, г-на надо как можно больше: петабайты, екзабайты, йотабайты. Тогда что-нибудь обязательно получится :mrgreen:
Воот! Яйцеголовые - двигатели прогресса, дайте нам спрос, а мы вам - железо на йото-масштаб. А чего там грузить, конфетки там или другие субстанции - не суть важно, количество перейдёт в качество. Хлоп, и всё написанное в исторический период займёт сущую ерунду в йото-масштабе. Можно будет переходить к регистрации вариантов того, что будет написано до конца текущего тысячелетия.

Сабина - продолжайте глаголом жечь сердца яйцеголовых! Большому сердцу - большие данные!
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Cassandra or MongoDB ?

Post by Dmitry67 »

Я кстати использую map reduce. Закидываю удочки куче девушек (мар) потом смотрю где выгорит (reduce)
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
User avatar
АццкоМото
Уже с Приветом
Posts: 15276
Joined: 01 Mar 2007 05:18
Location: VVO->ORD->DFW->SFO->DFW->PDX

Re: Cassandra or MongoDB ?

Post by АццкоМото »

Тут нужно делать не reduce, a enlarge!
Мат на форуме запрещен, блдж!
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

АццкоМото wrote:Тут нужно делать не reduce, a enlarge!
А вот тут да - смешно :good:
Правда с разделом снова промах
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

В Hive есть кубы, ролапы. Интересно а Кассандра и Монго делают подобное?
https://www.youtube.com/watch?v=wOwblaKmyVw

Return to “Вопросы и новости IT”