10 hot Hadoop start ups
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
10 hot Hadoop start ups
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
А что конкретно имеется в виду под big data analytics ?Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
-
- Уже с Приветом
- Posts: 34124
- Joined: 03 Dec 2000 10:01
- Location: Vladivostok->San Francisco->Los Angeles->San Francisco
Re: 10 hot Hadoop start ups
+2Физик-Лирик wrote:А что конкретно имеется в виду под big data analytics ?Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
Присоединяюсь к вопросу.
"A patriot must always be ready to defend his country against his government." Edward Abbey
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/
Еще у меня теперь термин любимый shared nothing architecture
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/
Еще у меня теперь термин любимый shared nothing architecture
Last edited by Сабина on 23 Apr 2014 16:13, edited 1 time in total.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
Apache Spark
http://gigaom.com/2014/02/27/as-mapredu ... l-project/
http://gigaom.com/2014/02/27/as-mapredu ... l-project/
http://blog.revolutionanalytics.com/201 ... spark.htmlApache Spark, an in-memory data-processing framework, is now a top-level Apache project. That’s an important step for Spark’s stability as it increasingly replaces MapReduce in next-generation big data applications.
Spark has already garnered a large and vocal community of users and contributors because it’s faster than MapReduce (in memory and on disk) and easier to program. This means it’s well suited for next-generation big data applications that might require lower-latency queries, real-time processing or iterative computations on the same data (i.e., machine learning). Spark’s creators from the University of California, Berkeley, have created a company called Databricks to commercialize the technology.
Spark is technically a standalone project, but it was always designed to work with the Hadoop Distributed File System. It can run directly on HDFS, inside MapReduce and, thanks to YARN, it can now run alongside MapReduce jobs on the same cluster. In fact, Hadoop pioneer Cloudera is now providing enterprise support for customers that want to use Spark.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
На самом деле impressive
Автор создал компанию - http://databricks.com/spark/
For those not familiar with Spark, it is a big data platform written in Scala and designed to run very fast. Stoica wasn’t much more forthcoming on details during a recent phone call, but he did explain the promise of Spark as compared with Hadoop MapReduce. Essentially, he said, it’s up to 100 times faster if your dataset can fit in memory, but it’s built to be significantly faster even on disk. It’s also architected differently than MapReduce in ways that make it ideal for machine learning algorithms and data mining workloads, where users might want to iterate on on existing results or repeatedly query a dataset with low latency.
Автор создал компанию - http://databricks.com/spark/
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
Вы уже были у Винсента?Физик-Лирик wrote:Я не совсем понял, являются ли два последних поста ответом на вопрос об аналитике или нет. На всякий случай поясню, что мне интересно. Прежде всего под аналитикой я имею в виду методы по "принятию решений" на основе анализа данных. Это разного рода статистические методы и методы машинного обучения (как супервайзед так и не супервйзед). Собственно вопрос в том, а где они эти методы? Можно "махаутировать", там неплохая библиотека, но далеко не все (мягко говоря) есть. Что-нибудь еще? Если посмотреть на "традционные" языки и пакеты, то они не работают с большими данными. Не совсем так, конечно. Есть дополнительные пакеты у Р, но ведь надо алгоритмы под большие данные затачивать, а не просто "мэпредьюсить". Да и замена "мэпредьюсирования" на обработку "в памяти" (это я о последнем линке) - это совсем другая задача, к аналитике дело не имеющее. Что еще есть в наличии? Пчелы ды свиньи - дело хорошее, но не аналитика. Они хороши для подготовки данных. Ну и куда податься бедным аналитикам? Похоже назад в физику.
Мне кажется по прикладным вопросам у него может быть то что вам интересно
http://www.analyticbridge.com/
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Интересный сайт. Особенно про зарплаты.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
Да Винсент любитель пописать о возвышенном. У него работает девелопер румын за 30К в год... из РумынииФизик-Лирик wrote:Интересный сайт. Особенно про зарплаты.
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 9035
- Joined: 25 Oct 2011 19:02
- Location: SVO->ORD->SFO
Re: 10 hot Hadoop start ups
Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов.Сабина wrote:На самом деле impressive
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Я термины определяю неформально, но четко.Sergunka wrote:+2Физик-Лирик wrote:А что конкретно имеется в виду под big data analytics ?Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
Присоединяюсь к вопросу.
Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.
В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNAСабина wrote:Да мы же тока что обсуждали тул новый от апача. И клаудеру и монго с хадупом. Если никто не притащит линк - поищу
Ну и пока вот еще до кучи, хадуп наступиет широкой лапой факт
http://gigaom.com/2014/02/15/5-things-e ... ut-hadoop/
Еще у меня теперь термин любимый shared nothing architecture
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Спарк это круто, но пока вопрос такой - существуют кластеры хадупа в 50 тысяч нодов и больше уже, полагаю. Какой размер самого крупного кластера спарка - трудно сказать. В Яхе был на 80-100 нодов вроде год или два назад. Есть ли кластеры спарка скажем в 1к нодов? Не следил, не знаю.dotcom wrote:Только PR у него, мягко говоря, не в тему. Spark - это real-time платформа. Конечно, существующие MR системы пересекаются по функционалу, но их по умолчанию не оптимизируют для работы с in-memory данными. Но Иан, конечно, крут. Второй раз уже создал стартап на рабской силе студентов и аспирантов.Сабина wrote:На самом деле impressive
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).Zorkus wrote:Я термины определяю неформально, но четко.Sergunka wrote:+2Физик-Лирик wrote:А что конкретно имеется в виду под big data analytics ?Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
Присоединяюсь к вопросу.
Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.
В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
http://www.r-bloggers.com/search/hadoop - ?Физик-Лирик wrote:По мне так это все не аналитика. Графики, конечно, хорошо, но где тут анализ? Безусловно, термин, который мы обсуждаем, сейчас используется очень широко и ко всем случаям жизни. У меня уже сложилось мнение, что все элементы типа собирания и преобразования данных сейчас неплохо развиты. Написание своих собственных мэпредьюсов позволяeт некий анализ. К сожалению я не вижу большого количества библиотек имеено для настоящего статистического анализа (я имею в виду большие данные, конечно).Zorkus wrote:Я термины определяю неформально, но четко.Sergunka wrote:+2Физик-Лирик wrote:А что конкретно имеется в виду под big data analytics ?Zorkus wrote:Два тренда, короче, что очевидно - big data analytics и hadoop in cloud/as a service. Предсказуемо.
Видимо, клаудера и хортонворкс более не считаюся стартапами, поэтому в эти списки стали менее известные игроки теперь попадать
Популярный термин в наши дни, но хотелось бы некой конкретики. Какие реально средства сейчас имеются для аналитики (я имею в виду именно аналитику, а не ETL)?
Присоединяюсь к вопросу.
Для меня "биг дата аналитикс" - это когда компания типа Pentaho, Tableau, MicroStrategy берет jdbc driver для хайва, и подключает его к своим десктопным, вебевским или мобильным инструментам для анализа и визуализации. Или же добавляет в свой визуальный конструктор workflow новые элементы - run MR job, HDFS action (copy/move file etc). Интегрирует эти экшены с всякими графиками - типа - построить график time series, по данным вытащенным из кассандры.
В отличие от инфраструктурных компаний, типа DataStax, DataBricks/AMPLab, Cloudera, HortonWorks etc. Который пишут нижележащий стек.
R это в принципе серьезный анализ.
-
- Уже с Приветом
- Posts: 19041
- Joined: 11 Jan 2012 09:25
- Location: CA
Re: 10 hot Hadoop start ups
Это было про MapReduceZorkus wrote:Хадуп, правда, это в общем случае к сожалению ни в коем разе не SNAЕще у меня теперь термин любимый shared nothing architecture
https://www.youtube.com/watch?v=wOwblaKmyVw
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.R это в принципе серьезный анализ.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduceФизик-Лирик wrote:Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.R это в принципе серьезный анализ.
Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Буквоеды в топике?Снежная Королева wrote: R - это не анализ, а software.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
А, ну тогда ладно, а я то аж напрягся А вы правда математик, настоящий?Снежная Королева wrote:математикиZorkus wrote:Буквоеды в топике?Снежная Королева wrote: R - это не анализ, а software.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Мне, если честно, так лень..Снежная Королева wrote:Дайте определение "настоящего математика"Zorkus wrote:А, ну тогда ладно, а я то аж напрягся А вы правда математик, настоящий?Снежная Королева wrote:математикиZorkus wrote:Буквоеды в топике?Снежная Королева wrote: R - это не анализ, а software.
-
- Уже с Приветом
- Posts: 6969
- Joined: 26 Feb 2011 17:40
Re: 10 hot Hadoop start ups
Ладно, проявлю мужество и поборю свою лень. Ну вы например учились на мехмате, или какой-то другой специальности? Раз уж вопрос встал.Снежная Королева wrote:Ну тогда отвечать я не буду
-
- Уже с Приветом
- Posts: 5104
- Joined: 19 Oct 2004 01:46
Re: 10 hot Hadoop start ups
Возможно зависит от точек зрения. Для меня аналитика - это именно применение методов, а не их портирование, т.е работа состоит в том, чтобы проанализировать задачу и дать ее математическую/статистическуы трактовку и применить уже написанные методы ее решения. Опять-таки я ссылаюсь на статистический анализ и машинное обучение, прогнозирование. Программировать сами алгоритмы и тем более их параллелить/дистрибьютить - задача программиста (хорошо, математик-аналитик даст "указания", если надо). Да и портировать надо не концепции, а писать новые программы. Все "формулы" давно известны. Надо их просто "запрограммировать/задистрибьютить". Чисто девелоперская функция.Zorkus wrote:Хехе. Ну вот для этого и нужна биг дата аналитикс, в том числе - портировать алгоритмы и концепции из R, MatLab и Экселя на MapReduceФизик-Лирик wrote:Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.R это в принципе серьезный анализ.
Кое-какие вещи и алгоритмы собственно уже в стеке есть - Mahout например.
Что касается махаутирования, как я уже упомнал выше, библиотека неплохая, но там далеко не все есть, если сравнивать с другими стат. пакетами.
Нет, не слышал о таком звере. Надо будет посмотреть. Правда вышеперечисленных функциий явно недостаточно для анализа данных и построения моделей.Снежная Королева wrote:PivotalR смотрели?Физик-Лирик wrote:Безусловно. Вопрос в том, как его использовать для анализа больших данных. Надо ведь распараллеливать алгоритмы (не все, кончно, можно распараллелить в силу природы самих алгоритмов). Например, градиентные методы нельзя (поэтому логичекую регрессию нельзя дистрибьютить), а деревья можно. Мэпредьюсить можни на любом языке, подерживающм стриминг. Но что, самому алгоритмы писать/программировать что ли? Хочу, чтобы на блюдичке принесли.R это в принципе серьезный анализ.
At the time of writing (June 2013), the version of PivotalR on CRAN is 0.1.8, and it implements 5 wrapper functions: linear regression, logistic
regression, ARIMA, elastic net regularization, and the data table summary function.