IT горячка в Сиэттле, эпизод 2

Notghin
Уже с Приветом
Posts: 659
Joined: 23 Jan 2020 01:06

Re: IT горячка в Сиэттле, эпизод 2

Post by Notghin »

Нет смысла брать старье. Берите RTX2060/RTX2070/RTX2080 в зависимости от бюджета.
Chessplayer
Уже с Приветом
Posts: 345
Joined: 27 Nov 2007 05:33

Re: IT горячка в Сиэттле, эпизод 2

Post by Chessplayer »

Notghin wrote: 13 Mar 2020 17:25 Нет смысла брать старье. Берите RTX2060/RTX2070/RTX2080 в зависимости от бюджета.
вы бы хоть на их спеки посмотрели, прежде чем советы давать
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Post by Dweller »

blak_box wrote: 13 Mar 2020 16:23 Топикстартер, Вы на работу-то вышли?
конечно! все ок, сегодня первый пейчек, работаю из дома :)
удалось съесть наш классный компанейский обед только один раз в первый день ориентации :(
потом отменили завтраки, потом запаковали обеды в нефотогеничные take-out boxes, а потом уже и обеды отменили и перевели всех на дом
сибас.jpeg
поркбелли.jpeg
You do not have the required permissions to view the files attached to this post.
ystar
Уже с Приветом
Posts: 1029
Joined: 27 Apr 2014 17:13
Location: USA

Re: IT горячка в Сиэттле, эпизод 2

Post by ystar »

это так в амазоне кормят?
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Post by Dweller »

ystar wrote: 14 Mar 2020 05:01 это так в амазоне кормят?
:mrgreen:
я бы сфотографировал как кормят в амазоне, но у меня там во время интервью не было времени на это, во-первых небольшая очередь, во-вторых банально не возникало такого желания :)
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Dweller wrote: 14 Mar 2020 06:26 ...
Хотелось бы спросить что этот график значит с точки зрения моделирования для машинного программирования.
Андрей Нг при начале какого-либо проекта советует быстренько сляпать простую модель в течении 24 часов. А потом уже смотреть в каком направлении работать и улучшать.
Поэтому я выбрал самую простейшую модель. Сделал пару скриптов на Питоне, которые собирают бесплатные данные с биржи Насдак за последние 10+ лет. Выбрал всего лишь одномерные входные данные для начала (понятно что будет бесполезная для практического использования модель). Сделал в Октаве нормализацию параметров и подсчеты. Потом буду усложнять систему добавлением других входных параметров.
На данный момент входная переменная Х - это разница в значениях Насдака между вчерашними значениями при закрытии биржы и позавчерашними. Значение Y которое буду предсказывать - это сегодняшний показатель сентиментального индекса IEE (грубо - соотношение быков и медведей на рынке). Конечная цель: Забить данные за вчера и позавчера, модель должна предсказать поведение на сегодня.
Получилось таких 2 инетерсных графика.
Соотвественно, есть вопрос, что рассказывает график с красными крестиками. Прямая линия модели - это понятный косяк, показывает, что надо полиномы делать с такими параметрами. Но если добавить другие параметры, то картина может измениться в корне. Соотвественно диагностирование модели на второй картинке бесполезно на данных для кросс валидации, так как модель негодная.

Но вот что значит, если так кучно крестики в кучку сбились в форме носа (напоминает гауссовское распределние)? Значит ли это, что параметры совсем левые? Андрей в лекциях про такое поведение совсем ничего не говорит.
You do not have the required permissions to view the files attached to this post.
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Post by Dweller »

а хор его знает, график похож на шапочку для рождественского гномика :mrgreen:

Мне первое задание дали на новой работе поковыряться в говне автоматизировать пайплайн, так что пока не до дата саенса :) welcome to ML ops
Chessplayer
Уже с Приветом
Posts: 345
Joined: 27 Nov 2007 05:33

Re: IT горячка в Сиэттле, эпизод 2

Post by Chessplayer »

А в каком диапазоне ISEE может меняться? Диапазон изменения индекса Nasdaq как-то маловат. Или тут уже все отнормировано? Выглядит как будто одна переменная слабо зависит от другой. Корреляцию между ними считали?
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Chessplayer wrote: 18 Mar 2020 22:23 А в каком диапазоне ISEE может меняться? Диапазон изменения индекса Nasdaq как-то маловат. Или тут уже все отнормировано? Выглядит как будто одна переменная слабо зависит от другой. Корреляцию между ними считали?
Все векторы отнормированны таким образом:

Code: Select all

mu = mean(X);
X_norm = bsxfun(@minus, X, mu);
sigma = std(X_norm);
X_norm = bsxfun(@rdivide, X_norm, sigma);
Кстати, на второй картинке я забыл отнормировать набор данных для кросс-валидации :oops: Вот исправленная картинка ниже. Зависимость ошибки от увеличения количества примеров из набора для тренировки. Ошибка большая и почти одинакова при добавлении элементов в train set. Согласно лекциям Андрюшки это у нас high bias, то есть, слишком простая модель. Нужно усложнять.
Насчет корреляции, я не считал. Интуитивно, она есть, но слабенькая. Похоже параболой предскажет хоть что-то.
Буду добавлять параметры постепенно. Жаль, что первая картинка уже не получится в многомерном варианте.
You do not have the required permissions to view the files attached to this post.
alex_127
Уже с Приветом
Posts: 7723
Joined: 29 Mar 2000 10:01
Location: Kirkland,WA

Re: IT горячка в Сиэттле, эпизод 2

Post by alex_127 »

ystar wrote: 14 Mar 2020 05:01 это так в амазоне кормят?
в амазоне есть бесплатый чай и кофе. да, и ёще - кофе без кофеина.
и воды сколько влезет - никто не ограничивает. еды нет.
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Dweller wrote: 18 Mar 2020 21:31 а хор его знает, график похож на шапочку для рождественского гномика :mrgreen:

Мне первое задание дали на новой работе поковыряться в говне автоматизировать пайплайн, так что пока не до дата саенса :) welcome to ML ops
Понятно. Почитал про ML Ops. Написали что только 22% компаний успешную модель выпускают. У остальных не получается… Кстати, к летнему релизу буду ML модель делать в своей компании с автоматизированным пайплайном. Тоже буду Ops со строчкой в резюме :)
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.
Вот трехмерный пример, который я запрогроммировал:

Code: Select all

from sympy import symbols
from sympy.polys.monomials import itermonomials
from sympy.polys.orderings import monomial_key
from sympy.abc import x, y, z, h
import numpy

t = sorted(itermonomials([x, y, z], 2), key=monomial_key('grlex', [y, x, z]))
print(t)
for i in range(len(t)):
    expr = t[i]
    v = expr.evalf(subs={x: 1, y:2, z:3})
    str1 = 'expr = %s, computed value = %1.2f' % (expr, v)
    print(str1)
Вот что выводит на экран:

Code: Select all

[1, z, x, y, z**2, x*z, x**2, y*z, x*y, y**2]
expr = 1, computed value = 1.00
expr = z, computed value = 3.00
expr = x, computed value = 1.00
expr = y, computed value = 2.00
expr = z**2, computed value = 9.00
expr = x*z, computed value = 3.00
expr = x**2, computed value = 1.00
expr = y*z, computed value = 6.00
expr = x*y, computed value = 2.00
expr = y**2, computed value = 4.00
Соотвественно нужно вызывать функцию itermonomials с массивом переменных и сделать так, чтобы expr.evalf принимала значения переменных динамически (как массив?).
Это мне нужно затем, чтобы уйти от линейной регрессии, используя полную автоматизацию по увеличению/уменьшения размерности. Типа, захотел дополнительный параметр добавить в модель, добавил и компьютер новые параметры сгенерировал для полинома нужной степени.
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Я почти закончил курс ML. Осталось всего лишь 3 недели обучения из 11. В связи с этим смотрю как правильней применить вновь приобретенные знания. Зашел на сайт фрилансеров апворк и смотрю есть предложения коротких контрактов для удаленки по этой теме. Даже по $100 в час предлагают для работы по 10 часов в неделю! В связи с этим хочу спросить.
Уважаемые «машинисты», не могли бы подкинуть примеры профайлов и образцов из резюме как правильно себя преподать потенциальному работодателю. С правильным набором слов, чтобы заказчик сильно не зависал от незнакомых терминов. Буду благодарен любой информации. Спасибо.
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Ну вот я и эксперт, как утверждает Андрей Нг :)
You do not have the required permissions to view the files attached to this post.
Chessplayer
Уже с Приветом
Posts: 345
Joined: 27 Nov 2007 05:33

Re: IT горячка в Сиэттле, эпизод 2

Post by Chessplayer »

Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Спасибо!
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Chessplayer wrote: 29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж. Также зарождаются идеи монетизации знаний через ML путем сканирования вебсайтов, типа, Амазона. Но в последнем случае одному будет тяжеловато реализовывать этот пайплайн. На все свободное время тратить буду. А через пару месяцев можно и за DL взяться.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: IT горячка в Сиэттле, эпизод 2

Post by Физик-Лирик »

IvanGrozniy wrote: 19 Mar 2020 19:34 Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.
Извиняюсь, но не понятно, в чем состоит задача. Я с библиотекой не знаком, но сама постановка задачи не ясна.
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: IT горячка в Сиэттле, эпизод 2

Post by Физик-Лирик »

Chessplayer wrote: 29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
И в чем состоит это "вгрызание"? В качестве десерта пред основным блюдом вопрос, а почему он вообще работает? В случае одного слоя - теорема об универсальной аппроксимации. А в многослойном случае? Каково теоретическое обоснование?
Физик-Лирик
Уже с Приветом
Posts: 5104
Joined: 19 Oct 2004 01:46

Re: IT горячка в Сиэттле, эпизод 2

Post by Физик-Лирик »

IvanGrozniy wrote: 29 Mar 2020 13:39
Chessplayer wrote: 29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж.
Основная математическая модель рынка - геометрическое Броуновское движение. Оно является эмпирическим следствием того, что логарифм отношения цен акций дву дней - белый шум. Вопрос, как исходя из вышеприведенных данных кае будите моделировать да еще и ленейными моделями?
tessob
Уже с Приветом
Posts: 545
Joined: 07 Jan 2016 13:04

Re: IT горячка в Сиэттле, эпизод 2

Post by tessob »

Физик-Лирик wrote: 29 Mar 2020 16:18логарифм отношения цен акций дву дней - белый шум
:shock:
Чо сразу с козырей-то!?

Вообще, если интересно, то можете глянуть на Elliott Wave Theory. Если не в курсе, то там апологеты опираются на предположение о том, что рынок имеет фрактальную циклическую природу. При этом не смотря на сугубую псевдонаучность теории, она ничем не уступает любой другой, в том числе и сугубо математическим алгоритмическим моделям, что уже интересно.
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Физик-Лирик wrote: 29 Mar 2020 16:18
IvanGrozniy wrote: 29 Mar 2020 13:39
Chessplayer wrote: 29 Mar 2020 06:34 Поздравляю! Не останавливайтесь на достигнутом - вгрызайтесь в Deep Learning !
Спасибо!
Deep Learning курс хочется поучить, но после этого ML курса мне хочется закрепить изученное и сделать 3-4 модели относительно рынка ценных бумаг для своих нужд инвестирования. А именно, linear regression с полиномами для предсказания больших процентов прибыли, потом сделать logistical regression модель и закрепить нейронной сетью предсказания поведения бирж.
Основная математическая модель рынка - геометрическое Броуновское движение. Оно является эмпирическим следствием того, что логарифм отношения цен акций дву дней - белый шум. Вопрос, как исходя из вышеприведенных данных кае будите моделировать да еще и ленейными моделями?
Если опытный инвестор может предсказать за месяц-два падение рынка базируясь на доступных индикаторах, которое мы наблюдаем сейчас, то приближенная модель тоже самое может сделать. Я не пытаюсь «основную модель» рынка создать. Это работа для хэджфандов, в которых крутятся миллиарды долларов. Дейтрейдерством я не занимаюсь и мне достаточно того, чтобы предсказать грядущую через месяц коррекцию или обвал.
User avatar
IvanGrozniy
Уже с Приветом
Posts: 10379
Joined: 04 Feb 2004 14:14
Location: Edgewater, NJ

Re: IT горячка в Сиэттле, эпизод 2

Post by IvanGrozniy »

Физик-Лирик wrote: 29 Mar 2020 16:09
IvanGrozniy wrote: 19 Mar 2020 19:34 Вопрос тем, кто использует научную библиотеку для Питона под названием "sympy".
Цель - получить части полинома заданной степени (в данном случае 3), когда в уравнении больше одной переменной. Нашел билиотеку sympy, но хотелось бы все-таки динамически задавать количество переменных/размерность. На данный момент приходится оперировать странным для нас программистов изобретением из модуля sympy.abc, когда хардкодишь x, y, z и т.д. В общем хочу функцию написать, которая принимает размерность, степень уравнения и значения для всех перменных. На выходе массив со значениями от каждого токена полиномного уравнения.
Извиняюсь, но не понятно, в чем состоит задача. Я с библиотекой не знаком, но сама постановка задачи не ясна.
В машинном обучение есть такая методика, как искусственное наращивание степени полинома многих переменных, чтобы линейная модель превращалась в квадратичную и выше. Для этого нужно добавления переменных в степенях. Затем можно оценить, какая степень лучше подойдет. Например, смоделировали уравнение зависимости цены дома от площади. Получилось уравнение y = a*x + b. Смотрим график. Слишком большие дома уже не растут в цене линейно, а допустим растут в цене полиномом второй степени. Что делаем? Добавляем вторую переменную x2 = x* x. Теперь можно найти другое линейное уравнение, которое будет продуктом переменой х второй и первой степени. Получится y = c * x1 + d*X2 + w, где x1 эта переменная площади, x2 - это квадрат площади. Таким образом можно натягивать модели под определенные нужды. Кстати, в моем простом примере на пред странице можно модель улучшить параболой, вместо указанной прямой. Теперь если представить, что я собрал не одну переменную, а 2-3, а то и больше, то чтобы увеличить степень полинома, нужно все пермножать очень долго. Как раз на помощь и приходит библиотечка. Только мне бы хотелось задавать количество входных переменных динамически и получать ответ в таком же стиле. То есть зада 3-х мерную переменную на входе и желаемую степень на выходе, то алгоритм выдал уже не три колонки, а, скажем 9 с уже перемноженными числами. Следом прошу 3-ую степень. Потом могу добавить дополнительную колонку-размерность. Теперь нужно 4 переменных в степени производить. И т.д. Кстати , я снимаю свой вопрос - нашел исходники указанной библиотеки на Питоне и разобрался как самому все запрограммировать в циклах.
Chessplayer
Уже с Приветом
Posts: 345
Joined: 27 Nov 2007 05:33

Re: IT горячка в Сиэттле, эпизод 2

Post by Chessplayer »

Физик-Лирик wrote: 29 Mar 2020 16:13 И в чем состоит это "вгрызание"? В качестве десерта пред основным блюдом вопрос, а почему он вообще работает? В случае одного слоя - теорема об универсальной аппроксимации. А в многослойном случае? Каково теоретическое обоснование?
За теоретическим обоснованием это вы к Владимиру Вапнику обращайтесь. Он за это deep learning как раз критикует. Но эмпирически методы хорошо работают для большого ряда задач компьютерного зрения, распознавания текстов и аудио.
Last edited by Chessplayer on 29 Mar 2020 19:17, edited 1 time in total.
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: IT горячка в Сиэттле, эпизод 2

Post by Dweller »

Я че скажу вам.
Возьмите бесплатный аккаунт на aws, и основываясь на тех блоге какой нибудь солидной компании, сделайте похожий model training pipeline с участием как можно большего числа технологий. Sagemaker, s3, Hdfs, Kafka, spark, etc.
Доложите о результатах через полгода :)

Return to “Работа и Карьера в IT”