10 hot Hadoop start ups

Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

10 hot Hadoop start ups

Post by Сабина »

https://www.youtube.com/watch?v=wOwblaKmyVw
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
User avatar
Sergunka
Уже с Приветом
Posts: 34124
Joined: 03 Dec 2000 10:01
Location: Vladivostok->San Francisco->Los Angeles->San Francisco

Re: 10 hot Hadoop start ups

Post by Sergunka »

Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
"A patriot must always be ready to defend his country against his government." Edward Abbey
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/

Еще у меня теперь термин любимый shared nothing architecture :D
Last edited by Сабина on 23 Apr 2014 16:13, edited 1 time in total.
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Apache Spark

http://gigaom.com/2014/02/27/as-mapredu ... l-project/
Apache Spark, an in-memory data-processing framework, is now a top-level Apache project. That’s an important step for Spark’s stability as it increasingly replaces MapReduce in next-generation big data applications.

Spark has already garnered a large and vocal community of users and contributors because it’s faster than MapReduce (in memory and on disk) and easier to program. This means it’s well suited for next-generation big data applications that might require lower-latency queries, real-time processing or iterative computations on the same data (i.e., machine learning). Spark’s creators from the University of California, Berkeley, have created a company called Databricks to commercialize the technology.

Spark is technically a standalone project, but it was always designed to work with the Hadoop Distributed File System. It can run directly on HDFS, inside MapReduce and, thanks to YARN, it can now run alongside MapReduce jobs on the same cluster. In fact, Hadoop pioneer Cloudera is now providing enterprise support for customers that want to use Spark.
http://blog.revolutionanalytics.com/201 ... spark.html
https://www.youtube.com/watch?v=wOwblaKmyVw
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

На самом деле impressive
For those not familiar with Spark, it is a big data platform written in Scala and designed to run very fast. Stoica wasn’t much more forthcoming on details during a recent phone call, but he did explain the promise of Spark as compared with Hadoop MapReduce. Essentially, he said, it’s up to 100 times faster if your dataset can fit in memory, but it’s built to be significantly faster even on disk. It’s also architected differently than MapReduce in ways that make it ideal for machine learning algorithms and data mining workloads, where users might want to iterate on on existing results or repeatedly query a dataset with low latency.
Image

Автор создал компанию - http://databricks.com/spark/
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Физик-Лирик wrote:Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.
Вы уже были у Винсента?
Мне кажется по прикладным вопросам у него может быть то что вам интересно
http://www.analyticbridge.com/
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Интересный сайт. Особенно про зарплаты. :D
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Физик-Лирик wrote:Интересный сайт. Особенно про зарплаты. :D
Да Винсент любитель пописать о возвышенном. У него работает девелопер румын за 30К в год... из Румынии
https://www.youtube.com/watch?v=wOwblaKmyVw
User avatar
dotcom
Уже с Приветом
Posts: 9035
Joined: 25 Oct 2011 19:02
Location: SVO->ORD->SFO

Re: 10 hot Hadoop start ups

Post by dotcom »

Сабина wrote:На самом деле impressive
Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов. :D
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Сабина wrote:Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/

Еще у меня теперь термин любимый shared nothing architecture :D
Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNA :(
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

dotcom wrote:
Сабина wrote:На самом деле impressive
Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов. :D
Спарк это круто, но пока вопрос такой - существуют кластеры хадупа в 50 тысяч нодов и больше уже, полагаю. Какой размер самого крупного кластера спарка - трудно сказать. В Яхе был на 80-100 нодов вроде год или два назад. Есть ли кластеры спарка скажем в 1к нодов? Не следил, не знаю.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Zorkus wrote:
Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Физик-Лирик wrote:
Zorkus wrote:
Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать :-)
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).
http://www.r-bloggers.com/search/hadoop - ?

R это в принципе серьезный анализ.
Сабина
Уже с Приветом
Posts: 19041
Joined: 11 Jan 2012 09:25
Location: CA

Re: 10 hot Hadoop start ups

Post by Сабина »

Zorkus wrote:
Еще у меня теперь термин любимый shared nothing architecture :D
Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNA :(
Это было про MapReduce
https://www.youtube.com/watch?v=wOwblaKmyVw
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduce :)
Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote: R - это не анализ, а software.
Буквоеды в топике? :-)
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote: R - это не анализ, а software.
Буквоеды в топике? :-)
математики :D
А, ну тогда ладно, а я то аж напрягся 8) А вы правда математик, настоящий?
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote: R - это не анализ, а software.
Буквоеды в топике? :-)
математики :D
А, ну тогда ладно, а я то аж напрягся 8) А вы правда математик, настоящий?
Дайте определение "настоящего математика" :wink:
Мне, если честно, так лень..
Zorkus
Уже с Приветом
Posts: 6969
Joined: 26 Feb 2011 17:40

Re: 10 hot Hadoop start ups

Post by Zorkus »

Снежная Королева wrote:Ну тогда отвечать я не буду
Ладно, проявлю мужество и поборю свою лень. Ну вы например учились на мехмате, или какой-то другой специальности? :-) Раз уж вопрос встал.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: 10 hot Hadoop start ups

Post by Физик-Лирик »

Zorkus wrote:
Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduce :)
Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.
Возможно зависит от точек зрения. Для меня аналитика - это именно применение методов, а не их портирование, т.е работа состоит в том, чтобы проанализировать задачу и дать ее математическую/статистическуы трактовку и применить уже написанные методы ее решения. Опять-таки я ссылаюсь на статистический анализ и машинное обучение, прогнозирование. Программировать сами алгоритмы и тем более их параллелить/дистрибьютить - задача программиста (хорошо, математик-аналитик даст "указания", если надо). Да и портировать надо не концепции, а писать новые программы. Все "формулы" давно известны. Надо их просто "запрограммировать/задистрибьютить". Чисто девелоперская функция.
Что касается махаутирования, как я уже упомнал выше, библиотека неплохая, но там далеко не все есть, если сравнивать с другими стат. пакетами.
Снежная Королева wrote:
Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
PivotalR смотрели?

At the time of writing (June 2013), the version of PivotalR on CRAN is 0.1.8, and it implements 5 wrapper functions: linear regression, logistic
regression, ARIMA, elastic net regularization, and the data table summary function.
Нет, не слышал о таком звере. Надо будет посмотреть. Правда вышеперечисленных функциий явно недостаточно для анализа данных и построения моделей.

Return to “Работа и Карьера в IT”