10 hot Hadoop start ups

Сабина · Post by **Сабина** » 23 Apr 2014 01:48

http://www.cio.com/article/751572/10_Ho ... omyId=3002

Zorkus · Post by **Zorkus** » 23 Apr 2014 07:20

Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать

Физик-Лирик · Post by **Физик-Лирик** » 23 Apr 2014 13:45

Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать

А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?

Sergunka · Post by **Sergunka** » 23 Apr 2014 15:24

Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?

+2

Присоединяюсь к вопросу.

Сабина · Post by **Сабина** » 23 Apr 2014 15:49

Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/

Еще у меня теперь термин любимый shared nothing architecture

Сабина · Post by **Сабина** » 23 Apr 2014 16:05

Apache Spark

http://gigaom.com/2014/02/27/as-mapredu ... l-project/

Apache Spark, an in-memory data-processing framework, is now a top-level Apache project. That’s an important step for Spark’s stability as it increasingly replaces MapReduce in next-generation big data applications.

Spark has already garnered a large and vocal community of users and contributors because it’s faster than MapReduce (in memory and on disk) and easier to program. This means it’s well suited for next-generation big data applications that might require lower-latency queries, real-time processing or iterative computations on the same data (i.e., machine learning). Spark’s creators from the University of California, Berkeley, have created a company called Databricks to commercialize the technology.

Spark is technically a standalone project, but it was always designed to work with the Hadoop Distributed File System. It can run directly on HDFS, inside MapReduce and, thanks to YARN, it can now run alongside MapReduce jobs on the same cluster. In fact, Hadoop pioneer Cloudera is now providing enterprise support for customers that want to use Spark.

http://blog.revolutionanalytics.com/201 ... spark.html

Сабина · Post by **Сабина** » 23 Apr 2014 17:47

На самом деле impressive

For those not familiar with Spark, it is a big data platform written in Scala and designed to run very fast. Stoica wasn’t much more forthcoming on details during a recent phone call, but he did explain the promise of Spark as compared with Hadoop MapReduce. Essentially, he said, it’s up to 100 times faster if your dataset can fit in memory, but it’s built to be significantly faster even on disk. It’s also architected differently than MapReduce in ways that make it ideal for machine learning algorithms and data mining workloads, where users might want to iterate on on existing results or repeatedly query a dataset with low latency.

Автор создал компанию - http://databricks.com/spark/

Физик-Лирик · Post by **Физик-Лирик** » 23 Apr 2014 17:51

Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.

Сабина · Post by **Сабина** » 23 Apr 2014 17:54

Физик-Лирик wrote:Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.

Вы уже были у Винсента?
Мне кажется по прикладным вопросам у него может быть то что вам интересно
http://www.analyticbridge.com/

Физик-Лирик · Post by **Физик-Лирик** » 23 Apr 2014 18:40

Интересный сайт. Особенно про зарплаты.

Сабина · Post by **Сабина** » 23 Apr 2014 18:46

Физик-Лирик wrote:Интересный сайт. Особенно про зарплаты.

Да Винсент любитель пописать о возвышенном. У него работает девелопер румын за 30К в год... из Румынии

Post by **dotcom** » 23 Apr 2014 19:17

Сабина wrote:На самом деле impressive

Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов.

Zorkus · Post by **Zorkus** » 23 Apr 2014 23:19

Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.

Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.

Zorkus · Post by **Zorkus** » 23 Apr 2014 23:20

Сабина wrote:Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/

Еще у меня теперь термин любимый shared nothing architecture

Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNA

Zorkus · Post by **Zorkus** » 23 Apr 2014 23:25

dotcom wrote:
Сабина wrote:На самом деле impressive
Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов.

Спарк это круто, но пока вопрос такой - существуют кластеры хадупа в 50 тысяч нодов и больше уже, полагаю. Какой размер самого крупного кластера спарка - трудно сказать. В Яхе был на 80-100 нодов вроде год или два назад. Есть ли кластеры спарка скажем в 1к нодов? Не следил, не знаю.

Физик-Лирик · Post by **Физик-Лирик** » 24 Apr 2014 00:00

Zorkus wrote:
Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.

По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).

Zorkus · Post by **Zorkus** » 24 Apr 2014 00:20

Физик-Лирик wrote:
Zorkus wrote:
Sergunka wrote:
Физик-Лирик wrote:
Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.

Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
А что конкретно имеется в виду под big data analytics ?
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
+2

Присоединяюсь к вопросу.
Я термины определяю неформально, но четко.

Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.

В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).

http://www.r-bloggers.com/search/hadoop - ?

R это в принципе серьезный анализ.

Сабина · Post by **Сабина** » 24 Apr 2014 00:40

Zorkus wrote:
Еще у меня теперь термин любимый shared nothing architecture
Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNA

Это было про MapReduce

Физик-Лирик · Post by **Физик-Лирик** » 24 Apr 2014 02:15

R это в принципе серьезный анализ.

Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.

Zorkus · Post by **Zorkus** » 24 Apr 2014 04:42

Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.

Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduce

Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.

Zorkus · Post by **Zorkus** » 24 Apr 2014 05:51

Снежная Королева wrote: R - это не анализ, а software.

Буквоеды в топике?

Zorkus · Post by **Zorkus** » 24 Apr 2014 06:02

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote: R - это не анализ, а software.
Буквоеды в топике?
математики

А, ну тогда ладно, а я то аж напрягся

А вы правда математик, настоящий?

Zorkus · Post by **Zorkus** » 24 Apr 2014 06:57

Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote:
Zorkus wrote:
Снежная Королева wrote: R - это не анализ, а software.
Буквоеды в топике?
математики
А, ну тогда ладно, а я то аж напрягся А вы правда математик, настоящий?
Дайте определение "настоящего математика"

Мне, если честно, так лень..

Zorkus · Post by **Zorkus** » 24 Apr 2014 07:06

Снежная Королева wrote:Ну тогда отвечать я не буду

Ладно, проявлю мужество и поборю свою лень. Ну вы например учились на мехмате, или какой-то другой специальности?

Раз уж вопрос встал.

Физик-Лирик · Post by **Физик-Лирик** » 24 Apr 2014 13:21

Zorkus wrote:
Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduce
Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.

Возможно зависит от точек зрения. Для меня аналитика - это именно применение методов, а не их портирование, т.е работа состоит в том, чтобы проанализировать задачу и дать ее математическую/статистическуы трактовку и применить уже написанные методы ее решения. Опять-таки я ссылаюсь на статистический анализ и машинное обучение, прогнозирование. Программировать сами алгоритмы и тем более их параллелить/дистрибьютить - задача программиста (хорошо, математик-аналитик даст "указания", если надо). Да и портировать надо не концепции, а писать новые программы. Все "формулы" давно известны. Надо их просто "запрограммировать/задистрибьютить". Чисто девелоперская функция.
Что касается махаутирования, как я уже упомнал выше, библиотека неплохая, но там далеко не все есть, если сравнивать с другими стат. пакетами.

Снежная Королева wrote:
Физик-Лирик wrote:
R это в принципе серьезный анализ.
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.
PivotalR смотрели?

At the time of writing (June 2013), the version of PivotalR on CRAN is 0.1.8, and it implements 5 wrapper functions: linear regression, logistic
regression, ARIMA, elastic net regularization, and the data table summary function.

Нет, не слышал о таком звере. Надо будет посмотреть. Правда вышеперечисленных функциий явно недостаточно для анализа данных и построения моделей.

Привет

10 hot Hadoop start ups

10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups

Re: 10 hot Hadoop start ups