распознавание речи и контекст?

aspirantka
Уже с Приветом
Posts: 1464
Joined: 05 Aug 2001 09:01
Location: Ca, Silicon Valley

распознавание речи и контекст?

Post by aspirantka »

Не подскажет ли кто какие-нибудь источники на эту тему? или даже уже какие-то разработанные алгоритмы, продукты и так далее... ? Проблема такая - пусть распознавание речи уже существует, но когда человек употребляет в речи числительные (один, два, второй, пятьдесят третий)как система может опознать, о чем идет речь - об автобусе или номере комнаты, и пр. ?
Sincerely,
Tara
User avatar
nastya12
Уже с Приветом
Posts: 2622
Joined: 17 Jun 2003 04:41
Location: Canada

Post by nastya12 »

Это шутка? 8O :) Вы очень своеобразно поняли условия задачи(распознавания речи в контексте). Не контекст распознают по содержимому, а содержимое по контексту.
aspirantka
Уже с Приветом
Posts: 1464
Joined: 05 Aug 2001 09:01
Location: Ca, Silicon Valley

Post by aspirantka »

извините, если я путанно написала. Конечно, распознать по контексту, что имеется в виду. В данном конкретном случае речь идет о системах типа Smarthouse - т.е. человек управляет "домом" с помощью речи, жестов + дополнительных remote control. задача - в идеале - состоит в том, чтобы это дело управлялось речью. Сказал - переключить на 10-й - система поняла, что это 10-й канал ТВ, сказал - повысить до 70 - включили обогреватель на 70 градусов. Я спрашиваю, занимался ли кто-нибудь этим, и в каком направлении, где посмотреть публикации. Это только лишь neural networks или что-то другое тоже есть на эту тему? Может, какие-нибудь работы, основанные на статистическом подходе?
И хорошо было бы, чтобы народ уже описал эту проблему, - может быть, есть хотя бы списки подобных задач. Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?
Sincerely,
Tara
User avatar
Каскыр
Уже с Приветом
Posts: 7133
Joined: 02 Mar 2003 03:28
Location: 94596

Post by Каскыр »

--Петька, прибор!
--16, Василь Иваныч!
--Что - 16?!
--А что - прибор?
(С) ;)
"Как выглядит кусок хлеба, зависит от того, голодны вы или сыты"
Слiн
Уже с Приветом
Posts: 1407
Joined: 07 Jan 2003 19:51
Location: НорКа

Post by Слiн »

aspirantka wrote:Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?


По команде "70!" переключить в состояние 70 все, что таковое состояние имеет.
User avatar
Каскыр
Уже с Приветом
Posts: 7133
Joined: 02 Mar 2003 03:28
Location: 94596

Post by Каскыр »

Слiн wrote:
aspirantka wrote:Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?


По команде "70!" переключить в состояние 70 все, что таковое состояние имеет.


А заодно - и всё, что имеет состояние 17 ;)
"Как выглядит кусок хлеба, зависит от того, голодны вы или сыты"
Hamster
Уже с Приветом
Posts: 11475
Joined: 20 Nov 2000 10:01
Location: Escondido, CA

Post by Hamster »

Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.
User avatar
Ollenka
Уже с Приветом
Posts: 2239
Joined: 18 Oct 2003 21:01
Location: NY

Post by Ollenka »

А скажите, это фантастика или жизнь? 8O 8O
User avatar
Basil
Уже с Приветом
Posts: 8404
Joined: 06 Nov 2000 10:01
Location: SPb -> Silicon Valley, CA, USA

Post by Basil »

Насколько я знаю (не работаю в этой области уже несколько лет), все что делалось по данной теме было не привязано конкретно к распознаванию речи. То есть, собственно распознавание речи - это превращение аудио потока в текст. Снятие неоднозначностей, контексты и пр. подобные вещи делают уже на тексте. По русски может называться "глубинный синтаксис", "семантический анализ" и т.д. Смотрите также работы по машинному переводу. Если не знаете конкретно, что ищете (название технологии, название методики), обьем работ может быть огромным. Знаю, что коммерческие продукты именно такого направления делала Lernout&Hauspie, не знаю как у них теперь дела.
Слiн
Уже с Приветом
Posts: 1407
Joined: 07 Jan 2003 19:51
Location: НорКа

Post by Слiн »

Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
.


Ну хорошо, тогда шаг алгоритма нумер 2:

- по команде "чо за [... moderated... ]" вернуть недавно(~1min) переведенные в "70" (ну или "17" ;)) объекты в пределах помещения, откуда подана команда "чо за..." в предыдущее состояние.
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Post by flip_flop »

Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink: (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

--
Internet (www.google.com) is power
User avatar
olg2002
Уже с Приветом
Posts: 990
Joined: 27 Mar 2002 10:01
Location: Palo Alto, CA

Post by olg2002 »

flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink: (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...


Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).
User avatar
Basil
Уже с Приветом
Posts: 8404
Joined: 06 Nov 2000 10:01
Location: SPb -> Silicon Valley, CA, USA

Post by Basil »

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink: (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...


Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.


Именно потому что (1) во всех современных системах, известных мне, делается без или почти без (2), результаты не супер хороши.

Проблема в том, что (2 Распознавание смысла) даже без приложения к речи не существует, кроме как в теоретических и очень фрагментарных экспериментальных работах.

А (1) отдельно взятое есть уже в виде промышленных разработок. В буквальном смысле: например в виде чипа, на вход которого подается аудиопоток на каком-то языке, на выходе - текст.
User avatar
Basil
Уже с Приветом
Posts: 8404
Joined: 06 Nov 2000 10:01
Location: SPb -> Silicon Valley, CA, USA

Post by Basil »

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink: (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...


Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).


Распознавание речи - термин уже устоявшийся, и последние лет 15 обозначает именно (1).
Cougar
Уже с Приветом
Posts: 203
Joined: 26 Oct 2000 09:01
Location: New York

Post by Cougar »

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink: (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...


Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).


Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам :D
User avatar
Basil
Уже с Приветом
Posts: 8404
Joined: 06 Nov 2000 10:01
Location: SPb -> Silicon Valley, CA, USA

Post by Basil »

Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie. Делалось это с помощью грамматики правил, похожих на БНФ (Backus Naur Form) и позволяло записать правила типа: если перед распознанным числительным стоит "raise" - делай "а" (повышай температуру на столько градусов) , если "turn on" - делай "б" (включай такой-то канал телевизора). Проблема в том, что многие языки, в отличие от английского имеют не 2-4, а десятки или даже сотни словоформ (турецкий, японский), которые тоже надо анализировать на падеж, число, лицо, время, наклонение etc.
Поетому, такие простейшие грамматики работают хорошо только на аналитических языках с ограниченным словарем и строгим порядком слов (например basic english). Такая система может Вам неплохо распознавать составные фразы из набора 100 шаблонов со словарем в несколько сотен слов. Что составляет максимум несколько тысяч фраз.

Чтобы не возиться со сложной морфологией, в других языках предпочитают просто распознавать всю фразу целиком, то есть не разбивая ее на сегменты с контекстным анализом. Ибо записать несколько тысяч эталонов проше чем возиться с Турецкой, например, морфологией, на что уйдет не один человеко-год.
aspirantka
Уже с Приветом
Posts: 1464
Joined: 05 Aug 2001 09:01
Location: Ca, Silicon Valley

Post by aspirantka »

Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.


вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.
Sincerely,
Tara
aspirantka
Уже с Приветом
Posts: 1464
Joined: 05 Aug 2001 09:01
Location: Ca, Silicon Valley

Post by aspirantka »

Cougar wrote:
olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам :D


как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу" :).
Sincerely,
Tara
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Post by flip_flop »

aspirantka wrote:вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.

Вполне можно обойтись гуглом (www.google.com):
Идем на гугл, выбираем группы (News), далее comp, далее comp.ai и находим две групы:
1) comp.ai.nat-lang
http://groups.google.com/groups?hl=en&l ... i.nat-lang
2) comp.ai.nlang-know-rep
http://groups.google.com/groups?hl=en&l ... g-know-rep
User avatar
flip_flop
Уже с Приветом
Posts: 4379
Joined: 20 Jun 2001 09:01

Post by flip_flop »

aspirantka wrote:
Cougar wrote:Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам :D


как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу" :).

Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем. :wink:
User avatar
Каскыр
Уже с Приветом
Posts: 7133
Joined: 02 Mar 2003 03:28
Location: 94596

Post by Каскыр »

За разработку методики семантического анализа высказывания с применением женской логики полагается нобелевка. ;)
"Как выглядит кусок хлеба, зависит от того, голодны вы или сыты"
User avatar
DR_35_USA
Уже с Приветом
Posts: 1194
Joined: 07 Jul 2001 09:01
Location: Tomsk->Mountain View->Milpitas

Post by DR_35_USA »

вам хихоньки, а мне на новом проекте voice activated dialing делать на виндах :pain1:
Оно вроде и ни что-либо как, а приведись такое дело так вот тебе и пожалуйста.
User avatar
olley
Мистер Привет 2015
Posts: 7606
Joined: 26 Mar 2002 10:01
Location: San Diego

Post by olley »

Basil wrote:Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie.

Немного не в тему.

У L&H была своя разработка, кажись Voice Express. Потом они купили на корню Dictaphone с их технологиями, потом добавили к этой покупке приобретение Drahgon Systems c их флагманом Dragon Naturally Speaking и стали обладателями довольно интересных технологий и разработчиков. Но это был уже 2000 год и все сооружение начинало неусточиво покачиваться.

Lernout&Hauspie обанкротились в 2001 году, после чего были расчленены на подразделения по направлениям (разпознавание речи, машинный перевод и т.д.) и распроданы по частям. Та часть, которая занималась разпознаванием речи была куплена ScanSoft, которая и сейчас продает Dragon Naturally Speaking. Как я понимаю, они и являются держателями всех этих технологий. (Ну, конечно были и есть и другие игроки на этом рынке. Например, IBM еще в середине 90-х включила в свою OS/2 распознавание речи).

Basil, ваши постинги в Английском Языке и здесь наводят на определенные размышления :wink:
olley
User avatar
olley
Мистер Привет 2015
Posts: 7606
Joined: 26 Mar 2002 10:01
Location: San Diego

Post by olley »

DR_35_USA wrote:вам хихоньки, а мне на новом проекте voice activated dialing делать на виндах :pain1:

Я конечно не спец в этих вещах, но какие проблемы с контекстом могут быть у вас? Разве нельзя взять готовый SDK для распознавания речи и получать голосовой ввод?
olley
Cougar
Уже с Приветом
Posts: 203
Joined: 26 Oct 2000 09:01
Location: New York

Post by Cougar »

flip_flop wrote:Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем. :wink:


>Субьект познания должен на порядок превосходить обьект.
Во-первы я не думаю, что вы думаете что нейронные сети друга Кугара превосходят на порядок нейронные сети Кугара, для того, чтобы друг Кугара понимал Кугара?
Во-вторых:
"Субьект познания должен на порядок превосходить обьект" - Это как-то слишком обще сформулировано, в филосовском стиле типа "все меньше о все большем" так чтобы получилось "ничего обо всем". Можно долго ломать копья по поводу того, так это или нет и каждый останется при своем мнении, а все потому, что "субьект" и "познание" достаточно широкие, филосовские категории для того, чтобы каждый в них видел что-то свое, что делает его правым относительно диаметральной точки зрения оппонента, который тоже прав относительно того, что он понимает под "субьект" и "познание". Это, однако, не означает что оппонеты имеют диаметральные же базовые понятия о "субьект" и "познание". Тут еще и нечеткая логика и вообще вся система понятий (ортогональная если хотите).
Короче говоря, я не согласен ;). Что значит "познать"? Да бог с ним, с познанием. Мы специалисты предпочитаем "все больше о все меньшем" так, чтобы получилось "все ни о чем". Мы хотим смоделировать, описать, а не понять, ибо по-нашему это и есть понять. Почему нельзя смоделировать? Есть какие-то _принципиальные_ ограничения кроме того,что "Субьект познания должен на порядок превосходить обьект" - что не принципиальное, а филосовское заблуждение. Вы, например, понимаете работу искусственных нейросетей? Все говорят что это черный ящик. А вы знаете, например, что такое фотон? Вы можете утверждать, что человек его познал? Однако и светом пользуемся и в природе не существует когерентного источника света, а лазеры уже давно протарили свой "звездный" путь в современной индустрии. Ну хорошо, а что такое электрон? Его тоже "познали"? А загадку нефти разгадывать надо, чтобы ею пользоваться? А атомная бомба могла бы на земле взорваться без помощи человека? Я просто хочу свести "понимать" к "пользоваться", а вы?

А вот что физики, например, понимают под пониманием:
"Физики верят, что в природе существует структура. Понять - значит сопоставить эту структуру некоей структуре в нашем сознании. В физике такой структурой является математическая структура. Таким образом понять - значит описать на математическом языке." Цитирую по памяти из какой-то книги по квантам (по-моему Дэвид Кнут).

Return to “Наука и Жизнь”