"И хоть один, но прорастёт!"crypto5 wrote:Есть шанс что на самом деле бигдата нужна меньшему количеству компаний чем есть стартапов в этой области
Традиционные коммерческие RDBMS стоят совершенно неприличных денег когда необходимо обрабатывать много данных быстро. Деньги там становятся относительно приличными когда бизнес очень большой (site license), но для начинающих такие цены недоступны, потому и смотрят в технологии БигДаты. Какие-нить кликопродаватели\считатели не потянут 10-15млн на экзадату и это разработка еще не началась.crypto5 wrote:Могут и не полезть, если окажется что бизнесу биг дата не так уж и нужна и он не готов за нее платить много денег.
Я работал на нескольких проектах где исторически сложилось так что был sharding на Oracle, потому что когда начиналось создание софта, стабильных относительно бесплатных СУБД не было, а в один сервер это банально "не влазило". В одном из проектов использовался Постгрес, но там тяжело было провалить сам проект именно из-за БД, так как участвовал один из разработчиков самого Постгрес, да и потеря части данных или погрешность расчетов допускались Это я к тому что спрос в таком подходе был, есть и он никуда не денется. hadoop + hbase позволяют избавиться от самостоятельной разработки слоя распараллеливания обработки и хранения данных.
Это не значит что hadoop + hbase плохи. Это значит что им больше походил или они лучше знали mysql.crypto5 wrote:Я знаю уже одну немаленькую компанию которая пыталась подымать систему на hadoop + hbase, а потом переписала все обратно на mysql.
Мощность конечно же растёт, но есть ограничение по пропускной способности памяти, у самых современных E7 v2 она в пределах 100GB\sec синтетики в идеальных условиях и заметно меньше в реальной жизни, в т.ч. из-за NUMA, т.е. 25-30GB\sec это в среднем достижимый результат (в конце странички). Даже для полностью InMemory DB для сканирования всего 1ТБ уйдет целых 40 секунд. А если клиентов не 1, а если надо ответ за 1-3 секунды? Значит надо больше серверов, значит надо создавать нечто, что будет принимать запросы, распределять их по имеющимся серверам, потом собирать результаты в кучу и отдавать наружу. Ничего не напоминает? Получается что не надо иметь именно петабайты данных чтобы hadoop стал актуален, вполне достаточно чтобы результат был нужен "очень быстро".crypto5 wrote:особенно с ростом мощности серверов