Python Pandas vs R
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Python Pandas vs R
Такой вопрос: имеет ли смысл переходить с R на Питон с пандами? Я потратил время на изучение R, набрал кучу шаблонов и привык к синтаксису. Но у R есть значительные недостатки: 1) iterations are discouraged; 2) кроме анализа данных на R ничего сделать нельзя. Питон же универсален. В нем можно организовать не только анализ, но и сбор данных с разветвлениями для различных сценариев.
-
- Уже с Приветом
- Posts: 1349
- Joined: 28 Nov 2008 17:50
Re: Python Pandas vs R
сейчас модно их вместе на каком-нибудь databriks cloud юзать через spark фреймворк.perasperaadastra wrote:Такой вопрос: имеет ли смысл переходить с R на Питон с пандами? Я потратил время на изучение R, набрал кучу шаблонов и привык к синтаксису. Но у R есть значительные недостатки: 1) iterations are discouraged; 2) кроме анализа данных на R ничего сделать нельзя. Питон же универсален. В нем можно организовать не только анализ, но и сбор данных с разветвлениями для различных сценариев.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
В моих задачах (где анализ данных вспомогателен, хотя и важен) я никогда не пользовался R, лет эдак за 30. Обходился Матлабом, недавно перешёл на Питон с Pandas + другие пакеты (типа DOE, Pareto, etc.). Сейчас осваиваю Julia для HPC. Мне не совсем понятна область предпочтительного применения R, ну кроме исторических мотивов (типа: учили же, все настоящие статистики используют, и т.д.).
Питон - да, наиболее универсален.
Питон - да, наиболее универсален.
-
- Уже с Приветом
- Posts: 63430
- Joined: 03 Nov 2004 05:31
- Location: RU -> Toronto, ON
Re: Python Pandas vs R
Круто
Not everyone believes what I believe but my beliefs do not require them to.
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Python Pandas vs R
Я вас понимаю. Сам смотрю на Питон/Панды с сомнением. Хоть я и не часто пользуюсь R, но уже привык. На Пандах нужно начинать с нуля. Но именно потому, что нечасто пользуюсь R, я и задумываюсь о переходе на Питон, пока есть возможность..Снежная Королева wrote: в R я лично делаю все. Начиная от ETL pipeline и заканчивая web development. Меня жизнь заставила очень хорошо выучить R, и все остальное теперь раздражает.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Наверное так, но с малым уточнением - для статистиков/даталогов академиков, а не академиков вообще. Я в бытность свою академиком, абсолютно всё делал в Матлабе. Включая вполне развитый тоолбокс для статистики. Сейчас многие академики перешли на Питон с соответствующими пакетами. Но статистики твёрдо остаются верны R - языком, написанном статистиками для статистиков.Снежная Королева wrote:Удобство R для академиков в том, что абсолютно все можно делать в одном R-Studio, начиная от сбора данных, анализа, моделей и написания научных статей и книг. И всегда можно быть уверенным, что если вышла статья на интересующую тему, то будет пакет в R написан, в не в Питоне. И все вокруг будут знать R.
Если вам надо для работы в индустрии, то можно и Питон.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Странно. Но, как бы то ни было, Питон имеет гораааздо большую базу пользователей, в той же академии.Снежная Королева wrote:R также в social sciences популярен.
Для академии/студентов у Mathworks сущствнные скидки. У меня был вполне обеспеченный факультет и мне и подороже покупали, если надо было.Матлаб для академии как то странно, учитывая стоимость пакетов.
Мне вполне хватало стандартных возможностей statistical toolbox. Ну не для разработчиков - переделывателей R а для практических задач. Интерфейс с С/С++ реализован через MEX, есть ещё компиллятор и генераторы С кода. Но сами функции тоолбоксов проприетарные и закрытые, это да.Про развитый toolbox для статистики, не делайте мне смешно. Я сейчас делаю очень простой research thesis, беру существующую библиотеку, смотрю source code (C), переписываю и добавляю фичи и назад компилирую эту же библиотеку, но уже с перламутровыми пуговицами. Я теперь R developer В матлабе такое в принципе невозможно, т.к. proprietary software.
А вообще - и R и Python и Matlab - ветхое старьё Скоро взлетит Julia.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Есть ещё много других open source, не толко Python. Octave, Scilab, Julia, etc.Снежная Королева wrote:Неудивительно, потому что R - open source Только Python может сравниться, тоже open source.flip_flop wrote:Но статистики твёрдо остаются верны R - языком, написанном статистиками для статистиков.
To же самое верно и для Python и для Julia ( в ней наиболее элегантно) и для многих других.Matlab, SAS, SPSS для резерча вообще не подходят. Fortran, и особенно C (сейчас чаще C++ ) почти везде используется Для резерва, но только как встроенные функции в обёртке R пакетов. Чтобы не нарушать экосистему.
-
- Уже с Приветом
- Posts: 7691
- Joined: 03 Oct 2014 06:12
Re: Python Pandas vs R
Снежная Королева wrote:Я сейчас делаю очень простой research thesis, беру существующую библиотеку, смотрю source code (C), переписываю и добавляю фичи и назад компилирую эту же библиотеку, но уже с перламутровыми пуговицами. Я теперь R developer
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Python Pandas vs R
Или эмир, или ишак...flip_flop wrote:А вообще - и R и Python и Matlab - ветхое старьё Скоро взлетит Julia.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Python Pandas vs R
А вот что такое SAS? На вебсайте там много разных продуктов... Там есть что-то, что заменяет R с его библиотеками?
-
- Уже с Приветом
- Posts: 17496
- Joined: 25 Jan 2005 00:59
Re: Python Pandas vs R
Я могу только сказать что мой непосредственный начальник натренированный на SAS и его дразнят R-товарищи что он отстал от времени. И к тому же SAS - дорогой, как и MATLABperasperaadastra wrote:А вот что такое SAS? На вебсайте там много разных продуктов... Там есть что-то, что заменяет R с его библиотеками?
-
- Уже с Приветом
- Posts: 17496
- Joined: 25 Jan 2005 00:59
Re: Python Pandas vs R
Сермяжная Правда.Снежная Королева wrote:На самом деле все это неважно. Что команда ваша использует, то и вы будете использовать.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Совет perasperaadastra, как я понимаю ? Глобальный такой "вообще" совет. "Нет, вы поезжайте, поезжайте в Киев, и спросите о Паниковском"Снежная Королева wrote:И вообще.
Прочитайте reddit/datascience post
"I hire data scientists - this is the stuff this forum doesn't discuss enough...:"
После этого прочитайте все посты kindasortadata.
This has changed my life
Reddit имеет несколько сомнительную репутацию.
Можно своими словами, для не датологов, но где-то рядом, которые читать вышеотмеченное не будут, но интересуются?
Если про то, что знание предметной области является первичным и выбор средств вторичен - это понятно.
-
- Уже с Приветом
- Posts: 17496
- Joined: 25 Jan 2005 00:59
Re: Python Pandas vs R
Кстаит, у меня вопрос к знатокам. Просто интересно. А почему везде натыкаюсь что Питон вроде как гораздо универсальнее чем R и т.п. А как в реальной жизни, так везде только на R натыкаюсь. просто совпадение или что-то может обьяснить это явление (типа Питон моднее и не все еще переметнулись или что-то в этом роде)...
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Python Pandas vs R
Ну, тут такое дело, я к науке данных не имею отношения. Для меня это все вторичные навыки. Если нужна серьезная работа, то это пойдет с специалистам. А мне просто нужно иногда вытянуть и проанализировать по-быстрому параметры производственного процесса, например. Ну и прочие вещи, по-мелочевке. Поэтому я не ограничен в выборе инструмента (R vs Py/Pandas). Но хотелось бы выбрать правильно с точки зрения наибольшей отдачи в будущем. Просто будет обидно, если я ограничусь R, а в будущем Панды (или что-нибудь другое) станут такими популярными, что R станет очень нишевым инструментом, как Фортран в наши дни.
-
- Уже с Приветом
- Posts: 20128
- Joined: 21 Feb 2009 22:55
- Location: Лох Онтарио
Re: Python Pandas vs R
Спасибо за ссылки, почитаю.Снежная Королева wrote:И вообще.
Прочитайте reddit/datascience post
"I hire data scientists - this is the stuff this forum doesn't discuss enough...:"
После этого прочитайте все посты kindasortadata.
This has changed my life
Тут такое дело... я к науке данных не имею отношения. Для меня это все вторичные навыки. Если нужна серьезная работа, то это пойдет с специалистам. А мне просто нужно иногда вытянуть и проанализировать по-быстрому параметры производственного процесса, например. Ну и прочие вещи, по-мелочевке. Поэтому я не ограничен в выборе инструмента (R vs Py/Pandas). Но хотелось бы выбрать правильно с точки зрения наибольшей отдачи в будущем. Просто будет обидно, если я ограничусь R, а в будущем Панды (или что-нибудь другое) станут такими популярными, что R станет очень нишевым инструментом, как Фортран в наши дни.Снежная Королева wrote:На самом деле все это неважно. Что команда ваша использует, то и вы будете использовать.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Слишком категоричное утверждение.Снежная Королева wrote:В "проанализировать по-быстрому clean data" у R нет конкурентов.
И противоречит " неважно какой язык/tool, от слова совсем. Важно как хорошо вы его знаете, чтобы get the job done fast". Я бы ещё добавил - важно как хорошо вы знаете предметную область, анализ данных, и статистику с теорвером и численными методами.
---
"Любое обобщение опасно. И это тоже" [Дюма мл.]
"Есть ложь, наглая ложь, и статистика" [Дизраэли]
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Тут я согласен, целиком и полностью, репутацию ни первого ни второго не переоцениваюСнежная Королева wrote: Reddit Data science репутация не хуже чем Привет.
Совсем ( не от слова совсем, как модно сейчас говорить, а просто совсем) не знаком с SAS. Впрочем, как и с R. Что, кмк, не мешает использовать инструмент статистики и анализа данных (как вспомогательный инструмент, на звание даталога не претендую). Доктор, есть шансы выжить?SAS используется только в крупных компаниях и government. Powerful and gets the job done. Totally uncool, но хорошо оплачивается.
-
- Уже с Приветом
- Posts: 549
- Joined: 07 Jan 2016 13:04
Re: Python Pandas vs R
Для себя выбрал R, хотя сравнить его могу только с питоном. Сравнительные преимущества для меня:
- Датафреймы в R-studio нагляднее, чем в пандас. Я не нажимая дополнительных кнопок могу посмотреть корректно-ли загрузились данные. Если таблица большая, то в пандас нужно проделывать дополнительные пассы руками. В R просто слайдеры.
- Факторизация в R датафреймах это пожалуй один из важнейших для меня плюсов, как это не смешно. Просто при работе мне не нужно помнить, что 2 - это вторник, а 1 - это мужчина. Особенно это важно, когда нужно вернуться к данным после длительного перерыва.
- Различные статистические тесты сразу выводят мини-отчет в консоль и мне не нужно медитировать над тем какой из методов дернуть, чтоб узнать RSS или R-квадрат.
- Хелп у R более вменяемый.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Потому что хочу понять область предпочтения R. Ну и просто поговоритьСнежная Королева wrote:Зачем вы тогда вступаете в разговор?flip_flop wrote: Совсем ( не от слова совсем, как модно сейчас говорить, а просто совсем) не знаком с SAS. Впрочем, как и с R.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Евона как лихо Екселем припечатали Мы тут, как бы, о Питоне всё таки. Ну и о других подобных высокоуровневых языках и средствах.Снежная Королева wrote:Разве не понятно, что подразумевается "при прочих равных условиях", т.е. Если вы одинаково хорошо знаете R / Python / whatever?flip_flop wrote:Слишком категоричное утверждение.Снежная Королева wrote:В "проанализировать по-быстрому clean data" у R нет конкурентов.
И противоречит " неважно какой язык/tool, от слова совсем. Важно как хорошо вы его знаете, чтобы get the job done fast".
По моему понятно, что если вы не знаете R, а знаете Excel, то наилучший tool для вас - это Excel.
-
- Уже с Приветом
- Posts: 5106
- Joined: 19 Oct 2004 01:46
Re: Python Pandas vs R
На мой взгляд, все зависит от области применения. Тут упоминали универсальность Питона. А в чем универсальность? В том, что он ОО язык. В этом смысле R другой.
Если же говорить об аналитике тогда они одинаковы (я, кстати, предпочитаю R). Не понятно, почему из всех библиотек автор вынес в заглавие только pandas (наверное, просто места мало). Все-таки, универсальный набор аналитика включает и другие библиотеки. Если сравнивать работу с дейта фреймами, думаю, Питон универсальнее. Для машинного обучения и "математимки" ... я предпочитаю R, хотя Питон такой же мощный. Мне "не нравится", что надо делать перекодировки категорийных переменных, тогда как в R это делается автоматически.
Автору топика. Я бы посоветовал освоить Питон, если Вы собираетесь искать работу. Немало контор делают аналитику именно на нем. Если Вы этого делать пока не собираетесь, а учить нет времени, я бы не стал связываться. Выучите Вы его за несколько недель. Ещё несколько недель практиковаться. Однако, если будите продолжать работать с R Вы забудете Питон через пару месяцев. В крайней случае, выучите, когда надо будет. Если "языковой" опыт хороший, освоите быстро. Лучше учить фундаментальные вещи.
Ещё совет. Если действительно что-то и учить сейчас, тогда Спарк. Здесь Вы можете взять тот же Питон или Скалу (я на Скале работаю). В последних релизах (1.6 и выше) Спарк поддерживает дейта фреймы (только работайте уже с новой библиотекой). Аналогия тесная. Либо Спарк на R. Нужны сейчас дистрибутивы технологии. Либо работайте на R с водой. В общем, есть что учить.
Если же говорить об аналитике тогда они одинаковы (я, кстати, предпочитаю R). Не понятно, почему из всех библиотек автор вынес в заглавие только pandas (наверное, просто места мало). Все-таки, универсальный набор аналитика включает и другие библиотеки. Если сравнивать работу с дейта фреймами, думаю, Питон универсальнее. Для машинного обучения и "математимки" ... я предпочитаю R, хотя Питон такой же мощный. Мне "не нравится", что надо делать перекодировки категорийных переменных, тогда как в R это делается автоматически.
Автору топика. Я бы посоветовал освоить Питон, если Вы собираетесь искать работу. Немало контор делают аналитику именно на нем. Если Вы этого делать пока не собираетесь, а учить нет времени, я бы не стал связываться. Выучите Вы его за несколько недель. Ещё несколько недель практиковаться. Однако, если будите продолжать работать с R Вы забудете Питон через пару месяцев. В крайней случае, выучите, когда надо будет. Если "языковой" опыт хороший, освоите быстро. Лучше учить фундаментальные вещи.
Ещё совет. Если действительно что-то и учить сейчас, тогда Спарк. Здесь Вы можете взять тот же Питон или Скалу (я на Скале работаю). В последних релизах (1.6 и выше) Спарк поддерживает дейта фреймы (только работайте уже с новой библиотекой). Аналогия тесная. Либо Спарк на R. Нужны сейчас дистрибутивы технологии. Либо работайте на R с водой. В общем, есть что учить.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Re: Python Pandas vs R
Нет, не в том что он ОО. Он вообще-то multi-paradigm.Физик-Лирик wrote:На мой взгляд, все зависит от области применения. Тут упоминали универсальность Питона. А в чем универсальность? В том, что он ОО язык. В этом смысле R другой.
Если R написан статистиками для статистиков, то Python - by computer scientists for computer scientists. В нём легко и удпбно делать всякую всячину - и TCP/IP сокеты программироовать, и парсинг удобный, и масса других гитик. По числу и качеству "обёрток" для deep learning питону нет равных, кмк.
Вот нашёл сравнение, которое расставляет многое по полкам, кмк. Лично мне вот это понравилось:
The closer you are to statistics, research, and data science, the more you might prefer R.
The closer you are to working in engineering environment, the more you might prefer Python.