Redshift ? Anybody?

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Redshift ? Anybody?

Post by Сабина »

subj
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Redshift ? Anybody?

Post by geek7 »

Сабина wrote:subj
в чем собственно вопрос?
у нас на него посматривали, но пока не начнут поддерживать on-prem. HSM в продакшене все равно нельзя.. а так на замену greenplum присматривали.
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

geek7 wrote:
Сабина wrote:subj
в чем собственно вопрос?
у нас на него посматривали, но пока не начнут поддерживать on-prem. HSM в продакшене все равно нельзя.. а так на замену greenplum присматривали.
Забавная штука интересная, но уж очень нетрадиционная. Прямо сейчас хочу понять как на уровне connection pool можно увеличить number of concurrent queries. Вижу как это делают на сессию примитвным set to higher, потом set to lower под конец операции. А мне бы надо чтобы было глобально для всего конекшен пула
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: Redshift ? Anybody?

Post by Dweller »

сыроват redshift, недавно надо было транспонировать датасет т.е. сделать из рекордов колонки а там нет такой возможности
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Dweller wrote:сыроват redshift, недавно надо было транспонировать датасет т.е. сделать из рекордов колонки а там нет такой возможности
comma separate with copy command
https://www.youtube.com/watch?v=wOwblaKmyVw
az44
Posts: 10
Joined: 12 Dec 2004 22:36

Re: Redshift ? Anybody?

Post by az44 »

Вот неплохой обзор Redshift: https://www.xplenty.com/blog/2015/03/am ... view-2015/" onclick="window.open(this.href);return false;

Пишут что подтормаживает на joins. А с ростом количества запросов производительность проседает нелинейно.
Мы смотрели на Redshift но не решились. С заливкой real-time stream данных были проблемы.

Сабина, у Вас какой опыт вырисовывается?
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

az44 wrote:Вот неплохой обзор Redshift: https://www.xplenty.com/blog/2015/03/am ... view-2015/" onclick="window.open(this.href);return false;

Пишут что подтормаживает на joins. А с ростом количества запросов производительность проседает нелинейно.
Мы смотрели на Redshift но не решились. С заливкой real-time stream данных были проблемы.

Сабина, у Вас какой опыт вырисовывается?
- очень важно дизайнить таблицы правильно, тут знания rdbms можно сразу выкинуть и читать про то как данные распределяются в кластере - distribution key, sort key.
- то же самое query tuning. Он вроде и Postgres с одной стороны, но с другой совсем нет. Например where Id in (1,2,3,) работает на порядки медленнее having id in (...). "Between" в where clause вообще тормозной , лучше два binary conditions (>,<) и так далее
- Он делает чудеса если нужно прогнать аналитический квери а таблице в миллионы рекордов, работает также быстро как если попросить select * where I'd =1 :). Но если надо запускать кучу small queries concurrency практически никакая, max connections in connection pool 40, причем recommended 15). Там есть query queues которыми по идее можно манипулировать и default concurrency в queue вообще 5. Манипуляции тоже небезопасны - ими по сути отнимается ресурс у другого клиента ( because you are allocating more memory). Я все недоумевала что вот тебе и scaling, но это все таки Classic warehouse solution, на нем отлично гонять долгие аналитические отчёты. А для тех же вебтранзакций Dynamo DB куда больше подходит
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

az44 wrote:Вот неплохой обзор Redshift: https://www.xplenty.com/blog/2015/03/am ... view-2015/" onclick="window.open(this.href);return false;

Пишут что подтормаживает на joins. А с ростом количества запросов производительность проседает нелинейно.
Мы смотрели на Redshift но не решились. С заливкой real-time stream данных были проблемы.

Сабина, у Вас какой опыт вырисовывается?

Чем заливали ? Спарком ?
Мы тут все на Kinesis посматриваем. В этом видео где то с 35-й минуты пример реальной архитектуры old and new, цифры впечатляют. Плюс там все хорошо в связке работает consumer, producer library, вся ingestion pipeline настроена как скрипка. Первые 35 минут - технические детали всех этих библиотек и pipeline в целом.

https://www.youtube.com/watch?v=JFfvD2cw2IE" onclick="window.open(this.href);return false;
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Dweller
Уже с Приветом
Posts: 12262
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: Redshift ? Anybody?

Post by Dweller »

Сабина wrote:
Dweller wrote:сыроват redshift, недавно надо было транспонировать датасет т.е. сделать из рекордов колонки а там нет такой возможности
comma separate with copy command
т.е. за пределами обычного синтаксиса? с помощью примочек?
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Dweller wrote:
Сабина wrote:
Dweller wrote:сыроват redshift, недавно надо было транспонировать датасет т.е. сделать из рекордов колонки а там нет такой возможности
comma separate with copy command
т.е. за пределами обычного синтаксиса? с помощью примочек?
Нет вроде, обычная copy command, которой все делают импорт, просто опцию добавояешь delimiter ","
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Леонид Ильич Брежнев
Уже с Приветом
Posts: 8632
Joined: 22 Mar 2011 01:40

Re: Redshift ? Anybody?

Post by Леонид Ильич Брежнев »

Сабина wrote:C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
С джоинтами у всех практически плохо, кроме RDBMS.
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Леонид Ильич Брежнев wrote:
Сабина wrote:C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
С джоинтами у всех практически плохо, кроме RDBMS.
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
А куда в Редшифте запихнули Ходуп ?
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Леонид Ильич Брежнев wrote:
Сабина wrote:C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
С джоинтами у всех практически плохо, кроме RDBMS.
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
А куда в Редшифте запихнули Ходуп ?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
John Smith
Уже с Приветом
Posts: 1680
Joined: 04 Oct 2006 23:30
Location: Las Vegas

Re: Redshift ? Anybody?

Post by John Smith »

Сабина wrote:
Леонид Ильич Брежнев wrote:
Сабина wrote:C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
С джоинтами у всех практически плохо, кроме RDBMS.
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
А куда в Редшифте запихнули Ходуп ?
нет его там, а то бы все ползало, как в Hive
User avatar
Леонид Ильич Брежнев
Уже с Приветом
Posts: 8632
Joined: 22 Mar 2011 01:40

Re: Redshift ? Anybody?

Post by Леонид Ильич Брежнев »

Не, Redshift пошустрее будет чем Hive: http://nerds.airbnb.com/redshift-performance-cost/" onclick="window.open(this.href);return false;

Sabina: Дело, не в конкретном хадупе, дело в в том что его пихают и куда надо и куда не надо.
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Redshift ? Anybody?

Post by geek7 »

Сабина wrote:
Леонид Ильич Брежнев wrote:
Сабина wrote:C джойнами там пипец - медленные, хотя может можно подкрутить keys но у меня мало совсем опыта
С джоинтами у всех практически плохо, кроме RDBMS.
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
А куда в Редшифте запихнули Ходуп ?
Я думаю это ворчание вообще а не про Редшифт.
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Redshift ? Anybody?

Post by geek7 »

Леонид Ильич Брежнев wrote:Не, Redshift пошустрее будет чем Hive: http://nerds.airbnb.com/redshift-performance-cost/" onclick="window.open(this.href);return false;

Sabina: Дело, не в конкретном хадупе, дело в в том что его пихают и куда надо и куда не надо.
В смысле разные бигдаты используют там, где они нафиг не нужны и RDBMS будет самое то?
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Леонид Ильич Брежнев wrote:Не, Redshift пошустрее будет чем Hive: http://nerds.airbnb.com/redshift-performance-cost/" onclick="window.open(this.href);return false;

Sabina: Дело, не в конкретном хадупе, дело в в том что его пихают и куда надо и куда не надо.
Понятно, то есть ваша Ильичёвская паранойя. Если есть чего бы не пихать ? Предсьавьте к вам бы кто нибудь подошёл и сказал "а наука иди обратно на 32 бита, тебе 64 для твоих задач совершенно не нужно ?
Редшифт забавный энимал, ничего не скажу . Плюсов пока больше чем минусов.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

geek7 wrote:
Леонид Ильич Брежнев wrote:Не, Redshift пошустрее будет чем Hive: http://nerds.airbnb.com/redshift-performance-cost/" onclick="window.open(this.href);return false;

Sabina: Дело, не в конкретном хадупе, дело в в том что его пихают и куда надо и куда не надо.
В смысле разные бигдаты используют там, где они нафиг не нужны и RDBMS будет самое то?
Просто наверное стоит отличать Hadoop и собственно other HDFS based technologies. Да и Big data настолько больше чем просто не RDBMS. А вообще вы на больной мозоль наступили, я про это могу часами
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Redshift ? Anybody?

Post by geek7 »

Сабина wrote:Предсьавьте к вам бы кто нибудь подошёл и сказал "а наука иди обратно на 32 бита, тебе 64 для твоих задач совершенно не нужно ?
а почему нет? другое дело что в большинстве случаев возится с это 32, это 64 менее выгодно чем делать все на 64
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

geek7 wrote:
Сабина wrote:Предсьавьте к вам бы кто нибудь подошёл и сказал "а наука иди обратно на 32 бита, тебе 64 для твоих задач совершенно не нужно ?
а почему нет? другое дело что в большинстве случаев возится с это 32, это 64 менее выгодно чем делать все на 64
Во многих конторах где я работала была другая pain - они пытались гнаться за конкурентами и продакт приходит в один день и говорит а сейчас мне надо чтобы у меня ... ( дальше идёт какой нибудь requirement из серии almost real time event processing). После чего получается что данные надо собирать и анализировать не раз в день, а раз в пять минут. А у них все небыстрое и немасштабируемое.
Поэтому новые компании, особенно стартапы, сразу строят с расчетом на это. Да, может прямо сейчас вам хватает того что есть, а может завтра уже нет. Я этот стартап джойнила, думала да у них вон и Kafka и EMR cluster и Spark. И тут же под мой первый проект оказалось что существующая архитектура "не тянет". От этого и желание запрыгнут на вагон latest and greatest поскорее. А EMR cluster( аналогия про "64 бита" :) этот вон пожалуйста сидит ждёт в облаке. Чего бы сразу туда не поставить все чем мордоваться и лепить какой нибудь процессинг на Postgres чтобы завтра все переделывать?
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
Леонид Ильич Брежнев
Уже с Приветом
Posts: 8632
Joined: 22 Mar 2011 01:40

Re: Redshift ? Anybody?

Post by Леонид Ильич Брежнев »

Сабина wrote:Понятно, то есть ваша Ильичёвская паранойя. Если есть чего бы не пихать ?
Вы простите, инженер или просто builder собственного резюме? :pain1: :pain1: :pain1:
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: Redshift ? Anybody?

Post by Сабина »

Леонид Ильич Брежнев wrote:
Сабина wrote:Понятно, то есть ваша Ильичёвская паранойя. Если есть чего бы не пихать ?
Вы простите, инженер или просто builder собственного резюме? :pain1: :pain1: :pain1:
По изначально вами сказанной фразе очень трудно уловить свзяь со мной лично и с моим резюме в частности :mrgreen: . Но если что Хадупа у меня там нету
И моду взяли, пихать ходуп везде, даже там где простейший grep будет работать.
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
geek7
Уже с Приветом
Posts: 20297
Joined: 01 Dec 2003 23:16
Location: Russia->USA

Re: Redshift ? Anybody?

Post by geek7 »

Сабина wrote:
geek7 wrote:
Сабина wrote:Предсьавьте к вам бы кто нибудь подошёл и сказал "а наука иди обратно на 32 бита, тебе 64 для твоих задач совершенно не нужно ?
а почему нет? другое дело что в большинстве случаев возится с это 32, это 64 менее выгодно чем делать все на 64
Во многих конторах где я работала была другая pain - они пытались гнаться за конкурентами и продакт приходит в один день и говорит а сейчас мне надо чтобы у меня ... ( дальше идёт какой нибудь requirement из серии almost real time event processing). После чего получается что данные надо собирать и анализировать не раз в день, а раз в пять минут. А у них все небыстрое и немасштабируемое.
Поэтому новые компании, особенно стартапы, сразу строят с расчетом на это. Да, может прямо сейчас вам хватает того что есть, а может завтра уже нет. Я этот стартап джойнила, думала да у них вон и Kafka и EMR cluster и Spark. И тут же под мой первый проект оказалось что существующая архитектура "не тянет". От этого и желание запрыгнут на вагон latest and greatest поскорее. А EMR cluster( аналогия про "64 бита" :) этот вон пожалуйста сидит ждёт в облаке. Чего бы сразу туда не поставить все чем мордоваться и лепить какой нибудь процессинг на Postgres чтобы завтра все переделывать?
RDBMS не синоним небыстрое и не масштабируемое, вр многих случаях есть достаточный запас масштабируемости или вынести нужно очень небольшой кусок схемы.
а то для чего изначально выбрали Postgres действительно оптимально решать EMR или таки это и есть то для чего редшифт понадобился?
Говори что думаешь, думай что говоришь!
Маразм крепчал и скрепы гнулись

Return to “Вопросы и новости IT”