Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?Интеррапт wrote:Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды элементов и скажут, а ну посчитай что тут и как. Умнее же должно это быть.scorpion wrote:Манипуляции проделываются, но не совсем в реальном времени, т.е. можно считать, что все валится в кучу.Интеррапт wrote:Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Яндекс Лабс в Palo Alto набирает С++ developers
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
In vino Veritas!
-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
In vino Veritas!
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Мда... Если все такие интервью - поиграть в угадайку, то спасибо, не нужноcrypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
-
- Уже с Приветом
- Posts: 3435
- Joined: 16 Dec 2003 06:23
- Location: SF Bay Area
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Очень даже хочется все сразу считать и быстренько собирать, чтобы, например, autocomplete был супер свежий, т.е. если толпа ломанула и все начали искать ПОЧЕМУНУЖНЫТРУСЫ, то пишуший во второй, например, дюжине ПОЧЕМУНУЖНЫ уже должен видеть подсказку о трусахKomissar wrote:На этом вся БЫГ ДАТА и построена, что, как оказалось, вся data integrity, indexing, etc - в 99% никому не нужны, потому все проще сваливать в одну помойку, а уж если потребуется, потом в той помойке что-то конкретное искать.
-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
Re: Яндекс Лабс в Palo Alto набирает С++ developers
может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливаетсяИнтеррапт wrote:А еще вопрос - список хоть отсортирован, уже хеширован и т.п.? Как-то ведь слабо верится, что они просто тупо скидывают все запросы в один, условно говоря файл, без того, чтобы проделывать все эти манипуляции по мере поступления данных?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Например, хранить хештаблицу со счетчиком. Каждый раз когда поступает новый запрос, то он хешируется, идет поиск по хешу (условно - большая хеш таблица) и счетчик запросов для этого хеша увеличивается. Если счетчик достаточно большйо, чтобы попасть в топ 10 самых больших счетчиков - то в эту top 10 таблицу помещается запрос.crypto5 wrote:Ну Ок, а какой бы хеш/индекс вам бы помог в этой задаче?
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
In vino Veritas!
-
- Уже с Приветом
- Posts: 14407
- Joined: 26 May 2006 02:39
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )crypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
Бога нет.
-
- Уже с Приветом
- Posts: 17281
- Joined: 07 Sep 2011 10:05
- Location: Seattle, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Вот же хреново, если там окажется только презерватив.stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
Re: Яндекс Лабс в Palo Alto набирает С++ developers
т.е. нужно было ответить вопросом на вопрос?Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошелstenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )crypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
In vino Veritas!
-
- Уже с Приветом
- Posts: 14407
- Joined: 26 May 2006 02:39
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Да, это отдельное PhD на тему сколько samples достаточно и в какой случае ))crypto5 wrote:Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Бога нет.
-
- Уже с Приветом
- Posts: 14407
- Joined: 26 May 2006 02:39
Re: Яндекс Лабс в Palo Alto набирает С++ developers
У Крипто который ночью сидит на форуме? СомневаюсьИнтеррапт wrote:Вот же хреново, если там окажется только презерватив.stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
Бога нет.
-
- Уже с Приветом
- Posts: 3435
- Joined: 16 Dec 2003 06:23
- Location: SF Bay Area
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Контора пишет и хранит все и чем больше получается записать, тем лучшеLjolja wrote:может они их совсем не хранят, запрос сразу поступает в обработчик и в последуюшем хранится только некот. х характеризуюший запрос, возможно по х даже запрос 100% не восстанавливается
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Это у вас там ночь, а у нас детское время, я сейчас ребенку по второму кругу укладываю ))stenking wrote:У Крипто который ночью сидит на форуме? СомневаюсьИнтеррапт wrote:Вот же хреново, если там окажется только презерватив.stenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )
In vino Veritas!
-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.crypto5 wrote:Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
-
- Уже с Приветом
- Posts: 9035
- Joined: 25 Oct 2011 19:02
- Location: SVO->ORD->SFO
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Я думаю в данном конкретном случае никто условия не ставил, и от кандидата бонусным ответом был бы рассказ про лингвистическую нормализацию запроса, орфо, лингво, амонический (или как он там называется, когда одно слово может быть глаголом и существительным, например) анализ, марковские последовательности и.т.п. Там до кучи можно нагрузить вопрошащего.Интеррапт wrote: Да понятное дело, что можно манипулировать как угодно, пусть даже не в реальном времени. Но определенный препроцессинг можно делать уже на этапе получения данных (пусть даже определенными бакетами). Ну вот вряд-ли просто тупо выкатят тебе миллиарды записей и скажут, а ну посчитай что тут и как. Умнее же должно это быть.
Last edited by dotcom on 23 Jan 2014 08:39, edited 3 times in total.
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Помоему вполне вероятен в плане запросов к яндексу. Я даже думаю где то так и есть.Berlaga wrote:И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.crypto5 wrote:Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
In vino Veritas!
-
- Уже с Приветом
- Posts: 12257
- Joined: 20 Dec 2000 10:01
- Location: Bellevue, WA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Достаточно вполне базовых статистических критериев репрезантивности выборкиstenking wrote:Да, это отдельное PhD на тему сколько samples достаточно и в какой случае ))crypto5 wrote:Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
Основная мысль которой должен задаться соискатель это "а нафига нам точный ответ", а потом уже "как получить достаточно точный ответ с учетом того что набор самых популярных запросов может меняться каждый день" и "как получить приблизительный ответ как можно быстрее", желательно в реальном времени на, скажем, последних 7-30 днях данных
-
- Уже с Приветом
- Posts: 1008
- Joined: 24 Mar 2010 21:14
- Location: SFBA
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Не поясните более детально?crypto5 wrote:Помоему вполне вероятен в плане запросов к яндексу. Я даже думаю где то так и есть.Berlaga wrote:И насколько вероятен такой расклад в условиях задачи? Напоминаю - это реальные данные реального популярного поиковика.crypto5 wrote:Вполне логичный, только например если в датасете окажется скажем 20 запросов с разбросом в 50%, но их общая share будет меньше скажем 0.1%, такой подход уже будет работать с большой погрешностью, и он не выдаст именно 10 самых частых запросов.Berlaga wrote:Почему в угадайку? Вполне логичный ответ.
Ну и другие вопросы из той же серии примерно. Кто соберется - имейте ввиду.
-
- Уже с Приветом
- Posts: 9035
- Joined: 25 Oct 2011 19:02
- Location: SVO->ORD->SFO
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Не думаю, что вопрос про это, хотя бонусом, опять же, можно было рассказать про оптимизацию с выборкой. Иначе бы в условии рассказали бы про распределение запросов.Dweller wrote: Достаточно вполне базовых статистических критериев репрезантивности выборки
-
- Уже с Приветом
- Posts: 14407
- Joined: 26 May 2006 02:39
Re: Яндекс Лабс в Palo Alto набирает С++ developers
crypto5 wrote:Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошелstenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )crypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote:Bingo! Именно этот ответ и ожидался.stenking wrote:А если случайно взять скажем миллион samples?
Оккк. Хотя в гугле говорят коммунизм но вы оттуда выходите в мир) А в большом мире приняты денежные отношения и кофе просто так вам не дадут уже. Соотвественно у вас есть деньги и кредитка которые как известно наиболее удобно держать в кошельке. Учитывая что в США машин больше чем людей то логично предположить что у вас тоже есть машина. А у машины есть дверь которая открывается каким-то устройством Теория вероятности нам говорит что скорее всего это устройство ключ а не айфон эпп. И ещё у вас есть место для жизни где есть дверь. И там тоже есть замок. И тоже логично предположить что он открывается ключом. А когда ключей больше чем один то они обычно организовываются в связку. Конечно её можно повесить на шею но скорее всего вы её ложите в карман
Бога нет.
-
- Уже с Приветом
- Posts: 4637
- Joined: 24 Oct 2009 01:38
- Location: Chicago ;-) -> SFBA!
Re: Яндекс Лабс в Palo Alto набирает С++ developers
Все мимо, связка ключей у меня большая - квартира два ключа, спортзал местный, велосипед, машина, телефон тоже большой нексус5, кошелек у меня тоже толстый, поэтому что бы не забивать карманы барахлом я с сумкой через плечо все время хожу, где это все и держу ))stenking wrote:crypto5 wrote:Пожалуйста расчеты в студию что на вашей, а то опять туман мудрости пошелstenking wrote:Нормальная задача. Теория вероятности на нашей стороне. Ключи, кошелёк и телефон )crypto5 wrote:Задача из серии - угадай что у меня в кармане ))Berlaga wrote: Bingo! Именно этот ответ и ожидался.
Оккк. Хотя в гугле говорят коммунизм но вы оттуда выходите в мир. А в большом мире приняты денежные отношения и кофе просто так вам не дадут уже. Соотвественно у вас есть деньги и кредитка которые как известно наиболее удобно держать в кошельке. Учитывая что в США машин больше чем людей то логично предположить что у вас тоже есть машина. А у машины есть дверь которая открывается каким-то устройстов. Теория вероятности нам говорит что скорее всего это устройство ключ а не айфон эпп. И ещё у вас есть место для жизни где есть дверь. И так тоже есть замок. И тоже логично предположить что он открывается ключом. А когда ключей больше чем один то они обычно организовываются в связку. Конечно её можно повесить на шею но скорее всего вы её ложите в карман
А в кармане держу бейдж иногда ))
In vino Veritas!