Яндекс Лабс в Palo Alto набирает С++ developers

User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Интеррапт wrote:
scorpion wrote:
Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.
Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды элементов и скажут, а ну посчитай что тут и как. Умнее же должно это быть.
Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
In vino Veritas!
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
In vino Veritas!
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Мда... Если все такие интервью - поиграть в угадайку, то спасибо, не нужно :)
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by scorpion »

Komissar wrote:На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать.
Очень даже хочется все сразу считать и быстренько собирать, чтобы, например, autocomplete был супер свежий, т.е. если толпа ломанула и все начали искать ПОЧЕМУНУЖНЫТРУСЫ, то пишуший во второй, например, дюжине ПОЧЕМУНУЖНЫ уже должен видеть подсказку о трусах :-)
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Ljolja »

Интеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливается
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

crypto5 wrote:Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
Например, хранить хештаблицу со счетчиком. Каждый раз когда поступает новый запрос, то он хешируется, идет поиск по хешу (условно - большая хеш таблица) и счетчик запросов для этого хеша увеличивается. Если счетчик достаточно большйо, чтобы попасть в топ 10 самых больших счетчиков - то в эту top 10 таблицу помещается запрос.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
In vino Veritas!
User avatar
stenking
Уже с Приветом
Posts: 14407
Joined: 26 May 2006 02:39

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by stenking »

crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Бога нет.
User avatar
Интеррапт
Уже с Приветом
Posts: 17281
Joined: 07 Sep 2011 10:05
Location: Seattle, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Интеррапт »

stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Вот же хреново, если там окажется только презерватив.
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Ljolja »

Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
т.е. нужно было ответить вопросом на вопрос? :food:
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

stenking wrote:
crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошел :food:
In vino Veritas!
User avatar
stenking
Уже с Приветом
Posts: 14407
Joined: 26 May 2006 02:39

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by stenking »

crypto5 wrote:
Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
Да, это отдельное PhD на тему сколько samples достаточно и в какой случае ))
Бога нет.
User avatar
stenking
Уже с Приветом
Posts: 14407
Joined: 26 May 2006 02:39

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by stenking »

Интеррапт wrote:
stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Вот же хреново, если там окажется только презерватив.
У Крипто который ночью сидит на форуме? Сомневаюсь :)
Бога нет.
scorpion
Уже с Приветом
Posts: 3435
Joined: 16 Dec 2003 06:23
Location: SF Bay Area

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by scorpion »

Ljolja wrote:может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливается
Контора пишет и хранит все и чем больше получается записать, тем лучше :D
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

stenking wrote:
Интеррапт wrote:
stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Вот же хреново, если там окажется только презерватив.
У Крипто который ночью сидит на форуме? Сомневаюсь :)
Это у вас там ночь, а у нас детское время, я сейчас ребенку по второму кругу укладываю ))
In vino Veritas!
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

crypto5 wrote:
Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.
User avatar
dotcom
Уже с Приветом
Posts: 9035
Joined: 25 Oct 2011 19:02
Location: SVO->ORD->SFO

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by dotcom »

Интеррапт wrote: Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды записей и скажут, а ну посчитай что тут и как. Умнее же должно это быть.
Я думаю в данном конкретном случае никто условия не ставил, и от кандидата бонусным ответом был бы рассказ про лингвистическую нормализацию запроса, орфо, лингво, амонический (или как он там называется, когда одно слово может быть глаголом и существительным, например) анализ, марковские последовательности и.т.п. Там до кучи можно нагрузить вопрошащего. :D
Last edited by dotcom on 23 Jan 2014 08:39, edited 3 times in total.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

Berlaga wrote:
crypto5 wrote:
Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.
Помоему вполне вероятен в плане запросов к яндексу. Я даже думаю где то так и есть.
In vino Veritas!
User avatar
Dweller
Уже с Приветом
Posts: 12257
Joined: 20 Dec 2000 10:01
Location: Bellevue, WA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Dweller »

stenking wrote:
crypto5 wrote:
Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
Да, это отдельное PhD на тему сколько samples достаточно и в какой случае ))
Достаточно вполне базовых статистических критериев репрезантивности выборки
Основная мысль которой должен задаться соискатель это "а нафига нам точный ответ", а потом уже "как получить достаточно точный ответ с учетом того что набор самых популярных запросов может меняться каждый день" и "как получить приблизительный ответ как можно быстрее", желательно в реальном времени на, скажем, последних 7-30 днях данных
Berlaga
Уже с Приветом
Posts: 1008
Joined: 24 Mar 2010 21:14
Location: SFBA

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by Berlaga »

crypto5 wrote:
Berlaga wrote:
crypto5 wrote:
Berlaga wrote:Почему в угадайку? Вполне логичный ответ.

Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.
И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.
Помоему вполне вероятен в плане запросов к яндексу. Я даже думаю где то так и есть.
Не поясните более детально?
User avatar
dotcom
Уже с Приветом
Posts: 9035
Joined: 25 Oct 2011 19:02
Location: SVO->ORD->SFO

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by dotcom »

Dweller wrote: Достаточно вполне базовых статистических критериев репрезантивности выборки
Не думаю, что вопрос про это, хотя бонусом, опять же, можно было рассказать про оптимизацию с выборкой. Иначе бы в условии рассказали бы про распределение запросов.
User avatar
stenking
Уже с Приветом
Posts: 14407
Joined: 26 May 2006 02:39

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by stenking »

crypto5 wrote:
stenking wrote:
crypto5 wrote:
Berlaga wrote:
stenking wrote:А если случайно взять скажем миллион samples?
Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошел :food:

Оккк. Хотя в гугле говорят коммунизм но вы оттуда выходите в мир) А в большом мире приняты денежные отношения и кофе просто так вам не дадут уже. Соотвественно у вас есть деньги и кредитка которые как известно наиболее удобно держать в кошельке. Учитывая что в США машин больше чем людей то логично предположить что у вас тоже есть машина. А у машины есть дверь которая открывается каким-то устройством Теория вероятности нам говорит что скорее всего это устройство ключ а не айфон эпп. И ещё у вас есть место для жизни где есть дверь. И там тоже есть замок. И тоже логично предположить что он открывается ключом. А когда ключей больше чем один то они обычно организовываются в связку. Конечно её можно повесить на шею но скорее всего вы её ложите в карман :)
Бога нет.
User avatar
crypto5
Уже с Приветом
Posts: 4637
Joined: 24 Oct 2009 01:38
Location: Chicago ;-) -> SFBA!

Re: Яндекс Лабс в Palo Alto набирает С++ developers

Post by crypto5 »

stenking wrote:
crypto5 wrote:
stenking wrote:
crypto5 wrote:
Berlaga wrote: Bingo! Именно этот ответ и ожидался.
Задача из серии - угадай что у меня в кармане ))
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошел :food:

Оккк. Хотя в гугле говорят коммунизм но вы оттуда выходите в мир. А в большом мире приняты денежные отношения и кофе просто так вам не дадут уже. Соотвественно у вас есть деньги и кредитка которые как известно наиболее удобно держать в кошельке. Учитывая что в США машин больше чем людей то логично предположить что у вас тоже есть машина. А у машины есть дверь которая открывается каким-то устройстов. Теория вероятности нам говорит что скорее всего это устройство ключ а не айфон эпп. И ещё у вас есть место для жизни где есть дверь. И так тоже есть замок. И тоже логично предположить что он открывается ключом. А когда ключей больше чем один то они обычно организовываются в связку. Конечно её можно повесить на шею но скорее всего вы её ложите в карман :)
Все мимо, связка ключей у меня большая - квартира два ключа, спортзал местный, велосипед, машина, телефон тоже большой нексус5, кошелек у меня тоже толстый, поэтому что бы не забивать карманы барахлом я с сумкой через плечо все время хожу, где это все и держу ))
А в кармане держу бейдж иногда ))
In vino Veritas!

Return to “Работа и Карьера в IT”