Cassandra or MongoDB ?

User avatar
Леонид Ильич Брежнев
Уже с Приветом
Posts: 8632
Joined: 22 Mar 2011 01:40

Re: Cassandra or MongoDB ?

Post by Леонид Ильич Брежнев »

Вы же вроде классы там какие-то брали .... кассандру с нуля на чуть ли не ЕС-1010 ставили, и такие вопросы задаете ....
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

Леонид Ильич Брежнев wrote:Вы же вроде классы там какие-то брали .... кассандру с нуля на чуть ли не ЕС-1010 ставили, и такие вопросы задаете ....
Присоединяюсь к народному возмущению. Мух от котлет надо таки отделять :umnik1:
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

metaller wrote:
Леонид Ильич Брежнев wrote:Вы же вроде классы там какие-то брали .... кассандру с нуля на чуть ли не ЕС-1010 ставили, и такие вопросы задаете ....
Присоединяюсь к народному возмущению. Мух от котлет надо таки отделять :umnik1:
А кто тут мухи и кто котлеты ? Я то в отличии от вас прошла только две сессии по кассандре :umnik1:
В хайве и то стали все делать по полной только с какой-то 10-й версии. Монго вы ругали как недоделку. Что я такого спросила крамольного :) ?
То что Ильичу все равно что именно на ЕС - Cassandra или JBoss я уже и не затрагиваю :D
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

Сабина wrote:А кто тут мухи и кто котлеты ?
Мухи - database management engines, например Apache Cassandra и MongoDB.
Котлета - Apache Hive. Apache Hive is a data warehouse infrastructure built on top of Hadoop for providing data summarization, query, and analysis. Ключевое слово "on top". Насколько я знаю Hive выполняет MapReduce batches, которые могут быть применимы и к Hadoop и к Cassandra и к MongoDB. Есть ещё и другие котлеты, например Apache Pig, Apache Spark.
Сабина wrote:То что Ильичу все равно что именно на ЕС
Пожалуйста проявите уважение к дорогому Леониду Ильичу !
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Не знала что Хайв работает поверху кассандры, может конечно скажут когда дойдем до ее обзора в рамках хадупного класса, но я уже и сейчас копну с вашей легкой руки :great:
Ну да мейк сенс про Монго, все эти функции для json-ов.
Ильча уважаю много за что и в IT и в ремонте домов, но тока когда он начинает со мной разговаривать тоном "девочка, у тебя есть на колготках карманы для семечек" уважением сменяется легкой досадой и даже гневом я бы сказала :)
Pig мне показался весьма примитивным, им разьве пользуются еще ?
Spark наверное хорошая вещь но увы в рамках класса не рассматривается, потом придется изучить. Сегодня вечером flume and scoop, правда придется пропустить изза missrussian sf, надеюсь осилю сама потом
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

Сабина wrote:Не знала что Хайв работает поверху кассандры
Точнее сказать Hive работает поверх чего угодно, что может выполнять MapReduce. Cassandra - может.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Cassandra or MongoDB ?

Post by crypto5 »

metaller wrote:
Сабина wrote:Не знала что Хайв работает поверху кассандры
Точнее сказать Hive работает поверх чего угодно, что может выполнять MapReduce. Cassandra - может.
map reduce там выполняет только хадуп, кассандра его выполнять не может, она просто может служить источником данных для хадупа.
In vino Veritas!
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

crypto5 wrote:map reduce там выполняет только хадуп, кассандра его выполнять не может, она просто может служить источником данных для хадупа.
Точно, спасибо что поправил. Прийдётся hadoop учить ...
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

Пытаясь разобраться в ворохе BigData технологий наткнулся на интересные аналогии :
1) Apache Cassandra - не только distributed key-value store, но и более эффективная замена HDFS.
2) Apache Spark - более эффективная замена Apache Hadoop.
3) Shark (shark.cs.berkeley.edu) - более эффективная замена Apache Hive.

То есть Shark+Spark+Cassandra выглядит наиболее производительным решением для BigData analytics на сегодня.
Знатоки, пожалуйста поправьте, если напутал и/или ошибся.
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Cassandra or MongoDB ?

Post by crypto5 »

По первому пункту сильно неочевидно.
Спарк и шарк не очень распространенные проекты, могущие содержат кучу граблей.
In vino Veritas!
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: Cassandra or MongoDB ?

Post by Zorkus »

metaller wrote:Пытаясь разобраться в ворохе BigData технологий наткнулся на интересные аналогии :
1) Apache Cassandra - не только distributed key-value store, но и более эффективная замена HDFS.
2) Apache Spark - более эффективная замена Apache Hadoop.
3) Shark (shark.cs.berkeley.edu) - более эффективная замена Apache Hive.

То есть Shark+Spark+Cassandra выглядит наиболее производительным решением для BigData analytics на сегодня.
Знатоки, пожалуйста поправьте, если напутал и/или ошибся.
Я не силен в Кассандре, сразу скажу, но не думаю, что это "замена HDFS", совсем нет. Кассандра это не файловая система. С остальным - спарк хорошая замена для hadoop map-reduce для небольших "не-батчевых" джобов, соответственно шарк - замена хайва. Для in-memory и более быстрых вопросов Spark конечно удобнее, но с т.з. именно замены - остается вопрос производительности, который я уже задавал, собственно.

С т.з. зрения замены вопрос про собственно масштируемость. На сайте кассандра есть (вероятно, устаревшая?) информация, что "The largest known Cassandra cluster has over 300 TB of data in over 400 machines." В презентации Нетфликса 2012 года была информация, что они хранят суммарно 65 терабайт в кассандре (в то время как фейсбук хранил 100 петабайт в HDFS в том же году). Аналогично со спарком, крупнейший кластер спарка был 300 серверов, вроде, который приводили тут в ссылках. Крупнейшие кластеры hadoop mapreduce все же на два порядка побольше.
User avatar
Dmitry67
Уже с Приветом
Posts: 28294
Joined: 29 Aug 2000 09:01
Location: SPB --> Gloucester, MA, US --> SPB --> Paris

Re: Cassandra or MongoDB ?

Post by Dmitry67 »

А интересно, есть ли map/reduce для CUDA вычислений?
Имеется в виду, конечно же, не тривиальный случай типа bitcoins или seti@home, где все идеально парралелится, а реалистические сценарии.
Зарегистрированный нацпредатель, удостоверение N 19719876044787 от 22.09.2014
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Cassandra or MongoDB ?

Post by ALV00 »

Dmitry67 wrote:А интересно, есть ли map/reduce для CUDA вычислений?
Имеется в виду, конечно же, не тривиальный случай типа bitcoins или seti@home, где все идеально парралелится, а реалистические сценарии.
Map/reduce хорош для тех задач, которые сводятся к задаче сортировки (и группировки). Для произвольных программ это далеко не всегда так.
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Re: Cassandra or MongoDB ?

Post by flip_flop »

Мне тоже не совсем понятно что имелось в виду. Подобная модель распределённых вычислений предложена в мириадах статей до гугловской. Есть подобный термин - scatter/gather и даже инструкции/команды gather/scatter для Xeon Phi архитектуры. Я так понимаю, что операции Map/Reduce характерны тем, что встроены в синтаксис, принуждают распределлённость, и явно используют key/value для сортировки/обработки. Можно, наверное, делать сортировку внутри GPGPU/accelerators, но нужно ли? Можно использовать GPGPU/accelerators внутри кластеров распределённых баз данных, но это нечто другое.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Нашла пару хороших статеек по теме, точнее даже шире темы :)
Может кому пригодиться

http://kkovacs.eu/cassandra-vs-mongodb- ... b-vs-redis
http://cattell.net/datastores/Datastores.pdf

И еще картинка впечатляющая
https://www.youtube.com/watch?v=wOwblaKmyVw
Roy
Уже с Приветом
Posts: 1234
Joined: 24 Nov 1999 10:01
Location: Seattle

Re: Cassandra or MongoDB ?

Post by Roy »

Очень рекомендую почитаtь про lambda architecture:

http://lambda-architecture.net/

И книгу на ней основанную:
Big Data - Principles and best practices of scalable realtime data systems http://manning.com/marz/

Там упор делается не на конкретную NoSQL технологию, а на общую архитектуру проекта, как связывать различные технологии вместе, недостатки и преимущества разных подходов и т.д. Очень хорошо мозги прочищает и развивает кругозор. Особенно учитывая, сколько разных open source NoSQL технологий в последнее время появилось.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

Roy wrote:Очень рекомендую почитаtь про lambda architecture:

http://lambda-architecture.net/

И книгу на ней основанную:
Big Data - Principles and best practices of scalable realtime data systems http://manning.com/marz/

Там упор делается не на конкретную NoSQL технологию, а на общую архитектуру проекта, как связывать различные технологии вместе, недостатки и преимущества разных подходов и т.д. Очень хорошо мозги прочищает и развивает кругозор. Особенно учитывая, сколько разных open source NoSQL технологий в последнее время появилось.
Спасибо, какой отличный ресурс, мне тоже нравятся такого плана книги для полного представления практической полезности технологии.
Я буквально вчера была на HTML5 и подивилась использованию MR для оптимизации async requests. Там Kyle Simpson из Getify излагал про promises и как их применение оптимизировать так чтобы async requests обрабатывались в наиболее sync manner. Мне понравилось такое очень практическое применения functional и MR для современного веба
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Мальчик-Одуванчик
Уже с Приветом
Posts: 15526
Joined: 27 Sep 2007 22:53

Re: Cassandra or MongoDB ?

Post by Мальчик-Одуванчик »

Есть раздел дискретной математики, именуемый "лямбда-исчисление".
Понятие лямбда-функции тоже достаточно прозрачное.
Не совсем понятно как лямбда-архитектура состыковывается со всем этим.
reality
Уже с Приветом
Posts: 256
Joined: 14 Jul 2011 09:07
Location: SaintP -> NYC

Re: Cassandra or MongoDB ?

Post by reality »

Мальчик-Одуванчик wrote:Есть раздел дискретной математики, именуемый "лямбда-исчисление".
Понятие лямбда-функции тоже достаточно прозрачное.
Не совсем понятно как лямбда-архитектура состыковывается со всем этим.
Абсолютно никак, просто красивое слово, и архитектура сама тоже кстати очень инересная
Песня
Уже с Приветом
Posts: 4054
Joined: 11 Apr 2002 09:01
Location: WA

Re: Cassandra or MongoDB ?

Post by Песня »

Мальчик-Одуванчик wrote:Есть раздел дискретной математики, именуемый "лямбда-исчисление".
Понятие лямбда-функции тоже достаточно прозрачное.
Не совсем понятно как лямбда-архитектура состыковывается со всем этим.
Вот тут есть некоторое обьяснение:

http://stackoverflow.com/questions/1540 ... -this-name
In my opinion two of the core principals of Lambada Architecture are
  • Embrace data immutability
    All queries can be formulated as pure functions(without side effects) on your entire data set
These properties of immutability and pure functions are the core tenets of functional programming which in turn has its origins in Alonzo Church's Lambda Calculus. Because of this Nathan Marz must have named this architecture Lambda Architecture.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

А есть тут у нас кто с реалтным опытом миграции с MS SQL Server - а скажем на Mongo DB ?
Осуществимая задача ? Геморройная ? Куда читать ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
metaller
Уже с Приветом
Posts: 4532
Joined: 06 Jul 2011 12:22
Location: Oak Harbor, WA

Re: Cassandra or MongoDB ?

Post by metaller »

Сабина wrote:А есть тут у нас кто с реалтным опытом миграции с MS SQL Server - а скажем на Mongo DB ?
Осуществимая задача ? Геморройная ? Куда читать ?
Сабина, Вы шутите ? MongoDB для одних задач, а реляционные БД - для других. В чём смысл такой миграции ?
Я не хочу оплачивать ничьи аборты, велферы или детсады. Каждый должен сам принимать решения и нести за них ответственность.
Easbayguy
Уже с Приветом
Posts: 10632
Joined: 17 Jul 2003 22:11

Re: Cassandra or MongoDB ?

Post by Easbayguy »

metaller wrote:
Сабина wrote:А есть тут у нас кто с реалтным опытом миграции с MS SQL Server - а скажем на Mongo DB ?
Осуществимая задача ? Геморройная ? Куда читать ?
Сабина, Вы шутите ? MongoDB для одних задач, а реляционные БД - для других. В чём смысл такой миграции ?
Новая работа?
Пх'нглуи мглв'нафх Ктулху Р'лайх угахнагл фхтагн
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Cassandra or MongoDB ?

Post by Сабина »

metaller wrote:
Сабина wrote:А есть тут у нас кто с реалтным опытом миграции с MS SQL Server - а скажем на Mongo DB ?
Осуществимая задача ? Геморройная ? Куда читать ?
Сабина, Вы шутите ? MongoDB для одних задач, а реляционные БД - для других. В чём смысл такой миграции ?
Вы хотите сказать что все MongoDB заполняются данными с нуля и никаких средств переноса данных нет?
Какие бы разные задачи не были до появления noSQL DBs таких альтернатив не было. А с появлением, если Mongo DB подходить больше, как то надо переносить.

Это что по вашему ?
http://info.mongodb.com/rs/mongodb/imag ... ration.pdf
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
ALV00
Уже с Приветом
Posts: 1494
Joined: 08 Mar 2002 10:01
Location: NJ

Re: Cassandra or MongoDB ?

Post by ALV00 »

Читая http://www.cattell.net/datastores/Datastores.pdf
The NoSQL systems described here generally do not
provide ACID transactional properties: updates are
eventually propagated, but there are limited guarantees
on the consistency of reads. Some authors suggest a
“BASE” acronym in contrast to the “ACID” acronym:
• BASE = Basically Available, Soft state,
Eventually consistent
• ACID = Atomicity, Consistency, Isolation, and
Durability
...
Many developers will be willing to abandon
globally-ACID transactions in order to gain
scalability, availability, and other advantages. The
popularity of NoSQL systems has already
demonstrated this. Customers tolerate airline
over-booking, and orders that are rejected when
items in an online shopping cart are sold out
before the order is finalized. The world is not
globally consistent.
Ага, смирились . Вон Носик на говно изошел когда его Аэрофлот овербукнул.

Что то мне это напоминает. Нет системной поддержки целостности, ручной докат и откат транзакций, необходимость думать, записались ли последние данные и разошлись ли по нодам, чтобы не получалась кака в отчетах. Это называется, здравствуй, старина Клиппер, моя мятежная юность! Все эти радости ручного управления данными и ощущения себя частью системы RDBMS.
A relational DBMS makes “expensive” (multinode
multi-table) operations “too easy”. NoSQL
systems make them impossible or obviously
expensive for programmers.
Класс! Ездить на автомобиле это “too easy”. Это несправедливо. Извольте своими ножками ощутить как это obviously expensive перемещаться по грешной земле.

Интересные времена настают. Юзеры будут все больше сталкиваться с овербукингом и пропаданием вещей из корзинки в онлайн магазинах. Пользователи банков будут наслаждаться «Basically Available, Soft state, Eventually consistent» банковскими счетами. Бухгалтерия – несходящимися балансами. Програмеров и админов тоже ждет масса интересной работы со всем этим наступающим хаосом.

Return to “Вопросы и новости IT”