Стало интересно как оно на деле у тех кто делает "даталейки" ?
У меня есть позиция по вопросу , но вижу что на деле сколько людей, столько и мнений. Если ответите и есть время написать почему, хотя бы одним предложением было бы здорово.
Для данного случая рассмотрим упрощенную конструкцию для сбора:
dataSource -> datacollector (1) -> kafka -> consumer(2) -> HDFS/S3 -> ETL(3) -> fast persistent storage for adhoc queries -> online app(4)
dataSource -> datacollector (1) -> kafka -> consumer(2) -> HDFS/S3 -> offline reports(5)
Datalake and deduplication
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Datalake and deduplication
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: Datalake and deduplication
О класс, хоть кто-то еще проголосовал, значит не совсем бред спрашиваю То есть все таки ETL для других ?
Я понимаю что это специфичная вещь, но все равно любопытно было. Скажем мы с rest enpodint данные собираем. Когда один и тот же json response получаешь, такой мессадж нафиг не надо хранить и процессить, то есть (1) кмк имеет смысл тоже.
Я понимаю что это специфичная вещь, но все равно любопытно было. Скажем мы с rest enpodint данные собираем. Когда один и тот же json response получаешь, такой мессадж нафиг не надо хранить и процессить, то есть (1) кмк имеет смысл тоже.
https://www.youtube.com/watch?v=wOwblaKmyVw