распознавание речи и контекст?
-
- Уже с Приветом
- Posts: 1464
- Joined: 05 Aug 2001 09:01
- Location: Ca, Silicon Valley
распознавание речи и контекст?
Не подскажет ли кто какие-нибудь источники на эту тему? или даже уже какие-то разработанные алгоритмы, продукты и так далее... ? Проблема такая - пусть распознавание речи уже существует, но когда человек употребляет в речи числительные (один, два, второй, пятьдесят третий)как система может опознать, о чем идет речь - об автобусе или номере комнаты, и пр. ?
Sincerely,
Tara
Tara
-
- Уже с Приветом
- Posts: 2622
- Joined: 17 Jun 2003 04:41
- Location: Canada
-
- Уже с Приветом
- Posts: 1464
- Joined: 05 Aug 2001 09:01
- Location: Ca, Silicon Valley
извините, если я путанно написала. Конечно, распознать по контексту, что имеется в виду. В данном конкретном случае речь идет о системах типа Smarthouse - т.е. человек управляет "домом" с помощью речи, жестов + дополнительных remote control. задача - в идеале - состоит в том, чтобы это дело управлялось речью. Сказал - переключить на 10-й - система поняла, что это 10-й канал ТВ, сказал - повысить до 70 - включили обогреватель на 70 градусов. Я спрашиваю, занимался ли кто-нибудь этим, и в каком направлении, где посмотреть публикации. Это только лишь neural networks или что-то другое тоже есть на эту тему? Может, какие-нибудь работы, основанные на статистическом подходе?
И хорошо было бы, чтобы народ уже описал эту проблему, - может быть, есть хотя бы списки подобных задач. Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?
И хорошо было бы, чтобы народ уже описал эту проблему, - может быть, есть хотя бы списки подобных задач. Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?
Sincerely,
Tara
Tara
-
- Уже с Приветом
- Posts: 7133
- Joined: 02 Mar 2003 03:28
- Location: 94596
-
- Уже с Приветом
- Posts: 1407
- Joined: 07 Jan 2003 19:51
- Location: НорКа
-
- Уже с Приветом
- Posts: 7133
- Joined: 02 Mar 2003 03:28
- Location: 94596
Слiн wrote:aspirantka wrote:Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?
По команде "70!" переключить в состояние 70 все, что таковое состояние имеет.
А заодно - и всё, что имеет состояние 17
"Как выглядит кусок хлеба, зависит от того, голодны вы или сыты"
-
- Уже с Приветом
- Posts: 11475
- Joined: 20 Nov 2000 10:01
- Location: Escondido, CA
Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.
-
- Уже с Приветом
- Posts: 2239
- Joined: 18 Oct 2003 21:01
- Location: NY
-
- Уже с Приветом
- Posts: 8404
- Joined: 06 Nov 2000 10:01
- Location: SPb -> Silicon Valley, CA, USA
Насколько я знаю (не работаю в этой области уже несколько лет), все что делалось по данной теме было не привязано конкретно к распознаванию речи. То есть, собственно распознавание речи - это превращение аудио потока в текст. Снятие неоднозначностей, контексты и пр. подобные вещи делают уже на тексте. По русски может называться "глубинный синтаксис", "семантический анализ" и т.д. Смотрите также работы по машинному переводу. Если не знаете конкретно, что ищете (название технологии, название методики), обьем работ может быть огромным. Знаю, что коммерческие продукты именно такого направления делала Lernout&Hauspie, не знаю как у них теперь дела.
-
- Уже с Приветом
- Posts: 1407
- Joined: 07 Jan 2003 19:51
- Location: НорКа
Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
.
Ну хорошо, тогда шаг алгоритма нумер 2:
- по команде "чо за [... moderated... ]" вернуть недавно(~1min) переведенные в "70" (ну или "17" ) объекты в пределах помещения, откуда подана команда "чо за..." в предыдущее состояние.
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
Небольшое добавление (к вопросу о терминах):
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
--
Internet (www.google.com) is power
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
--
Internet (www.google.com) is power
-
- Уже с Приветом
- Posts: 990
- Joined: 27 Mar 2002 10:01
- Location: Palo Alto, CA
flip_flop wrote:Небольшое добавление (к вопросу о терминах):
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).
-
- Уже с Приветом
- Posts: 8404
- Joined: 06 Nov 2000 10:01
- Location: SPb -> Silicon Valley, CA, USA
olg2002 wrote:flip_flop wrote:Небольшое добавление (к вопросу о терминах):
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Именно потому что (1) во всех современных системах, известных мне, делается без или почти без (2), результаты не супер хороши.
Проблема в том, что (2 Распознавание смысла) даже без приложения к речи не существует, кроме как в теоретических и очень фрагментарных экспериментальных работах.
А (1) отдельно взятое есть уже в виде промышленных разработок. В буквальном смысле: например в виде чипа, на вход которого подается аудиопоток на каком-то языке, на выходе - текст.
-
- Уже с Приветом
- Posts: 8404
- Joined: 06 Nov 2000 10:01
- Location: SPb -> Silicon Valley, CA, USA
olg2002 wrote:flip_flop wrote:Небольшое добавление (к вопросу о терминах):
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).
Распознавание речи - термин уже устоявшийся, и последние лет 15 обозначает именно (1).
-
- Уже с Приветом
- Posts: 203
- Joined: 26 Oct 2000 09:01
- Location: New York
olg2002 wrote:flip_flop wrote:Небольшое добавление (к вопросу о терминах):
1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).
2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...
Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).
Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам
-
- Уже с Приветом
- Posts: 8404
- Joined: 06 Nov 2000 10:01
- Location: SPb -> Silicon Valley, CA, USA
Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie. Делалось это с помощью грамматики правил, похожих на БНФ (Backus Naur Form) и позволяло записать правила типа: если перед распознанным числительным стоит "raise" - делай "а" (повышай температуру на столько градусов) , если "turn on" - делай "б" (включай такой-то канал телевизора). Проблема в том, что многие языки, в отличие от английского имеют не 2-4, а десятки или даже сотни словоформ (турецкий, японский), которые тоже надо анализировать на падеж, число, лицо, время, наклонение etc.
Поетому, такие простейшие грамматики работают хорошо только на аналитических языках с ограниченным словарем и строгим порядком слов (например basic english). Такая система может Вам неплохо распознавать составные фразы из набора 100 шаблонов со словарем в несколько сотен слов. Что составляет максимум несколько тысяч фраз.
Чтобы не возиться со сложной морфологией, в других языках предпочитают просто распознавать всю фразу целиком, то есть не разбивая ее на сегменты с контекстным анализом. Ибо записать несколько тысяч эталонов проше чем возиться с Турецкой, например, морфологией, на что уйдет не один человеко-год.
Поетому, такие простейшие грамматики работают хорошо только на аналитических языках с ограниченным словарем и строгим порядком слов (например basic english). Такая система может Вам неплохо распознавать составные фразы из набора 100 шаблонов со словарем в несколько сотен слов. Что составляет максимум несколько тысяч фраз.
Чтобы не возиться со сложной морфологией, в других языках предпочитают просто распознавать всю фразу целиком, то есть не разбивая ее на сегменты с контекстным анализом. Ибо записать несколько тысяч эталонов проше чем возиться с Турецкой, например, морфологией, на что уйдет не один человеко-год.
-
- Уже с Приветом
- Posts: 1464
- Joined: 05 Aug 2001 09:01
- Location: Ca, Silicon Valley
Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.
вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.
Sincerely,
Tara
Tara
-
- Уже с Приветом
- Posts: 1464
- Joined: 05 Aug 2001 09:01
- Location: Ca, Silicon Valley
Cougar wrote:olg2002 wrote:flip_flop wrote:Небольшое добавление (к вопросу о терминах):
Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам
как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу" .
Sincerely,
Tara
Tara
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
aspirantka wrote:вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.
Вполне можно обойтись гуглом (www.google.com):
Идем на гугл, выбираем группы (News), далее comp, далее comp.ai и находим две групы:
1) comp.ai.nat-lang
http://groups.google.com/groups?hl=en&l ... i.nat-lang
2) comp.ai.nlang-know-rep
http://groups.google.com/groups?hl=en&l ... g-know-rep
-
- Уже с Приветом
- Posts: 4379
- Joined: 20 Jun 2001 09:01
aspirantka wrote:Cougar wrote:Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам
как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу" .
Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем.
-
- Уже с Приветом
- Posts: 7133
- Joined: 02 Mar 2003 03:28
- Location: 94596
-
- Уже с Приветом
- Posts: 1194
- Joined: 07 Jul 2001 09:01
- Location: Tomsk->Mountain View->Milpitas
-
- Мистер Привет 2015
- Posts: 7606
- Joined: 26 Mar 2002 10:01
- Location: San Diego
Basil wrote:Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie.
Немного не в тему.
У L&H была своя разработка, кажись Voice Express. Потом они купили на корню Dictaphone с их технологиями, потом добавили к этой покупке приобретение Drahgon Systems c их флагманом Dragon Naturally Speaking и стали обладателями довольно интересных технологий и разработчиков. Но это был уже 2000 год и все сооружение начинало неусточиво покачиваться.
Lernout&Hauspie обанкротились в 2001 году, после чего были расчленены на подразделения по направлениям (разпознавание речи, машинный перевод и т.д.) и распроданы по частям. Та часть, которая занималась разпознаванием речи была куплена ScanSoft, которая и сейчас продает Dragon Naturally Speaking. Как я понимаю, они и являются держателями всех этих технологий. (Ну, конечно были и есть и другие игроки на этом рынке. Например, IBM еще в середине 90-х включила в свою OS/2 распознавание речи).
Basil, ваши постинги в Английском Языке и здесь наводят на определенные размышления
olley
-
- Мистер Привет 2015
- Posts: 7606
- Joined: 26 Mar 2002 10:01
- Location: San Diego
-
- Уже с Приветом
- Posts: 203
- Joined: 26 Oct 2000 09:01
- Location: New York
flip_flop wrote:Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем.
>Субьект познания должен на порядок превосходить обьект.
Во-первы я не думаю, что вы думаете что нейронные сети друга Кугара превосходят на порядок нейронные сети Кугара, для того, чтобы друг Кугара понимал Кугара?
Во-вторых:
"Субьект познания должен на порядок превосходить обьект" - Это как-то слишком обще сформулировано, в филосовском стиле типа "все меньше о все большем" так чтобы получилось "ничего обо всем". Можно долго ломать копья по поводу того, так это или нет и каждый останется при своем мнении, а все потому, что "субьект" и "познание" достаточно широкие, филосовские категории для того, чтобы каждый в них видел что-то свое, что делает его правым относительно диаметральной точки зрения оппонента, который тоже прав относительно того, что он понимает под "субьект" и "познание". Это, однако, не означает что оппонеты имеют диаметральные же базовые понятия о "субьект" и "познание". Тут еще и нечеткая логика и вообще вся система понятий (ортогональная если хотите).
Короче говоря, я не согласен . Что значит "познать"? Да бог с ним, с познанием. Мы специалисты предпочитаем "все больше о все меньшем" так, чтобы получилось "все ни о чем". Мы хотим смоделировать, описать, а не понять, ибо по-нашему это и есть понять. Почему нельзя смоделировать? Есть какие-то _принципиальные_ ограничения кроме того,что "Субьект познания должен на порядок превосходить обьект" - что не принципиальное, а филосовское заблуждение. Вы, например, понимаете работу искусственных нейросетей? Все говорят что это черный ящик. А вы знаете, например, что такое фотон? Вы можете утверждать, что человек его познал? Однако и светом пользуемся и в природе не существует когерентного источника света, а лазеры уже давно протарили свой "звездный" путь в современной индустрии. Ну хорошо, а что такое электрон? Его тоже "познали"? А загадку нефти разгадывать надо, чтобы ею пользоваться? А атомная бомба могла бы на земле взорваться без помощи человека? Я просто хочу свести "понимать" к "пользоваться", а вы?
А вот что физики, например, понимают под пониманием:
"Физики верят, что в природе существует структура. Понять - значит сопоставить эту структуру некоей структуре в нашем сознании. В физике такой структурой является математическая структура. Таким образом понять - значит описать на математическом языке." Цитирую по памяти из какой-то книги по квантам (по-моему Дэвид Кнут).