распознавание речи и контекст?

aspirantka · Post by **aspirantka** » 17 Dec 2003 19:03

Не подскажет ли кто какие-нибудь источники на эту тему? или даже уже какие-то разработанные алгоритмы, продукты и так далее... ? Проблема такая - пусть распознавание речи уже существует, но когда человек употребляет в речи числительные (один, два, второй, пятьдесят третий)как система может опознать, о чем идет речь - об автобусе или номере комнаты, и пр. ?

nastya12 · Post by **nastya12** » 17 Dec 2003 19:25

Это шутка?

Вы очень своеобразно поняли условия задачи(распознавания речи в контексте). Не контекст распознают по содержимому, а содержимое по контексту.

aspirantka · Post by **aspirantka** » 17 Dec 2003 20:49

извините, если я путанно написала. Конечно, распознать по контексту, что имеется в виду. В данном конкретном случае речь идет о системах типа Smarthouse - т.е. человек управляет "домом" с помощью речи, жестов + дополнительных remote control. задача - в идеале - состоит в том, чтобы это дело управлялось речью. Сказал - переключить на 10-й - система поняла, что это 10-й канал ТВ, сказал - повысить до 70 - включили обогреватель на 70 градусов. Я спрашиваю, занимался ли кто-нибудь этим, и в каком направлении, где посмотреть публикации. Это только лишь neural networks или что-то другое тоже есть на эту тему? Может, какие-нибудь работы, основанные на статистическом подходе?
И хорошо было бы, чтобы народ уже описал эту проблему, - может быть, есть хотя бы списки подобных задач. Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?

Каскыр · Post by **Каскыр** » 18 Dec 2003 00:19

--Петька, прибор!
--16, Василь Иваныч!
--Что - 16?!
--А что - прибор?
(С)

Слiн · Post by **Слiн** » 18 Dec 2003 01:51

aspirantka wrote:Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?

По команде "70!" переключить в состояние 70 все, что таковое состояние имеет.

Каскыр · Post by **Каскыр** » 18 Dec 2003 02:25

Слiн wrote:
aspirantka wrote:Или какие-то примитивные решения? (в смысле, система будет работать, но через пень-колоду) и т.п. ?

По команде "70!" переключить в состояние 70 все, что таковое состояние имеет.

А заодно - и всё, что имеет состояние 17

Hamster · Post by **Hamster** » 18 Dec 2003 02:28

Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.

Ollenka · Post by **Ollenka** » 18 Dec 2003 04:06

А скажите, это фантастика или жизнь?

Basil · Post by **Basil** » 18 Dec 2003 18:38

Насколько я знаю (не работаю в этой области уже несколько лет), все что делалось по данной теме было не привязано конкретно к распознаванию речи. То есть, собственно распознавание речи - это превращение аудио потока в текст. Снятие неоднозначностей, контексты и пр. подобные вещи делают уже на тексте. По русски может называться "глубинный синтаксис", "семантический анализ" и т.д. Смотрите также работы по машинному переводу. Если не знаете конкретно, что ищете (название технологии, название методики), обьем работ может быть огромным. Знаю, что коммерческие продукты именно такого направления делала Lernout&Hauspie, не знаю как у них теперь дела.

Слiн · Post by **Слiн** » 18 Dec 2003 19:16

Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
.

Ну хорошо, тогда шаг алгоритма нумер 2:

- по команде "чо за [... moderated... ]" вернуть недавно(~1min) переведенные в "70" (ну или "17"

) объекты в пределах помещения, откуда подана команда "чо за..." в предыдущее состояние.

flip_flop · Post by **flip_flop** » 18 Dec 2003 20:06

Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах :wink:

(работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

--
Internet (www.google.com) is power

olg2002 · Post by **olg2002** » 18 Dec 2003 20:19

flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).

Basil · Post by **Basil** » 18 Dec 2003 22:12

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.

Именно потому что (1) во всех современных системах, известных мне, делается без или почти без (2), результаты не супер хороши.

Проблема в том, что (2 Распознавание смысла) даже без приложения к речи не существует, кроме как в теоретических и очень фрагментарных экспериментальных работах.

А (1) отдельно взятое есть уже в виде промышленных разработок. В буквальном смысле: например в виде чипа, на вход которого подается аудиопоток на каком-то языке, на выходе - текст.

Basil · Post by **Basil** » 18 Dec 2003 22:15

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).

Распознавание речи - термин уже устоявшийся, и последние лет 15 обозначает именно (1).

Cougar · Post by **Cougar** » 18 Dec 2003 22:21

olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

1. Распознавание речи (speech/voice recognition) - это именно преобразование звуков в текст. По крайней мере 15 лет исследований и разработок. Теперь имеем эти технологии в некоторых сотовых телефонах (работает не очень надежно , но все-таки ...).

2. Распознавание смысла (cognitive & computational linguistics, sense recognition) - преобразование текста в "смысл". Интересная область, учитывая что человеческая логика не является формальной логикой, со всеми вытекающими...

Насколько я понимаю, делать надежно 1, без попыток 2. невозможно.
Поэтому, наверное, мы говорим "распознавание речи" (voice/speech recognition),
а подразумеваем "распознавание речи" (semantics, pragmatics, discourse analysis).

Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам

Basil · Post by **Basil** » 18 Dec 2003 22:36

Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie. Делалось это с помощью грамматики правил, похожих на БНФ (Backus Naur Form) и позволяло записать правила типа: если перед распознанным числительным стоит "raise" - делай "а" (повышай температуру на столько градусов) , если "turn on" - делай "б" (включай такой-то канал телевизора). Проблема в том, что многие языки, в отличие от английского имеют не 2-4, а десятки или даже сотни словоформ (турецкий, японский), которые тоже надо анализировать на падеж, число, лицо, время, наклонение etc.
Поетому, такие простейшие грамматики работают хорошо только на аналитических языках с ограниченным словарем и строгим порядком слов (например basic english). Такая система может Вам неплохо распознавать составные фразы из набора 100 шаблонов со словарем в несколько сотен слов. Что составляет максимум несколько тысяч фраз.

Чтобы не возиться со сложной морфологией, в других языках предпочитают просто распознавать всю фразу целиком, то есть не разбивая ее на сегменты с контекстным анализом. Ибо записать несколько тысяч эталонов проше чем возиться с Турецкой, например, морфологией, на что уйдет не один человеко-год.

aspirantka · Post by **aspirantka** » 20 Dec 2003 01:11

Hamster wrote:Да-да, телевизор на 70 канал, A/C на 70 F, воду в душе ( под которым кто-то моется ) тоже на 70 F ( можно С, будет веселее ), угол наклона кровати к полу 70 градусов.
aspirantka, вам надо найти форум, где тусуются специалисты по AI. Или пойти в университет и поискать статьи по этой теме в базах данных.

вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.

aspirantka · Post by **aspirantka** » 20 Dec 2003 01:13

Cougar wrote:
olg2002 wrote:
flip_flop wrote:Небольшое добавление (к вопросу о терминах):

Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам

как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу"

.

flip_flop · Post by **flip_flop** » 20 Dec 2003 01:51

aspirantka wrote:вот я и думала, что на привете наверняка есть специалисты по AI и они-то форум и подскажут правильный.

Вполне можно обойтись гуглом (www.google.com):
Идем на гугл, выбираем группы (News), далее comp, далее comp.ai и находим две групы:
1) comp.ai.nat-lang
http://groups.google.com/groups?hl=en&l ... i.nat-lang
2) comp.ai.nlang-know-rep
http://groups.google.com/groups?hl=en&l ... g-know-rep

flip_flop · Post by **flip_flop** » 20 Dec 2003 02:01

aspirantka wrote:
Cougar wrote:Good point. Только для того, чтобы правильно такой (semantics, pragmatics, discourse analysis) делать надо к "слушающему" устройству добавить как минимум зрение, обоняние, любовь, ... фактически сделать из этого устройства аналог человека. И даже этого будет недостаточно. Надо добавить семантические особенности "говорящего". Например, когда я говорю: "Я пошел гулять на улицу." - вы поняли о чем я? А вот мой друг знает, что я по бабам

как я поняла, народ как раз и собирается к распознаванию речи добавить распознавание жестов, + какие-либо дополнительные технологии. А, возможно, что нейронные сети могут обучаться понимать, что значит "выйти на улицу" .

Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем. :wink:

Каскыр · Post by **Каскыр** » 20 Dec 2003 02:17

За разработку методики семантического анализа высказывания с применением женской логики полагается нобелевка.

DR_35_USA · Post by **DR_35_USA** » 21 Dec 2003 05:40

вам хихоньки, а мне на новом проекте voice activated dialing делать на виндах :pain1:

olley · Post by **olley** » 22 Dec 2003 20:55

Basil wrote:Кстати именно простейший анализ контекста позволяют (или позволяли делать?) Lernout & Hauspie.

Немного не в тему.

У L&H была своя разработка, кажись Voice Express. Потом они купили на корню Dictaphone с их технологиями, потом добавили к этой покупке приобретение Drahgon Systems c их флагманом Dragon Naturally Speaking и стали обладателями довольно интересных технологий и разработчиков. Но это был уже 2000 год и все сооружение начинало неусточиво покачиваться.

Lernout&Hauspie обанкротились в 2001 году, после чего были расчленены на подразделения по направлениям (разпознавание речи, машинный перевод и т.д.) и распроданы по частям. Та часть, которая занималась разпознаванием речи была куплена ScanSoft, которая и сейчас продает Dragon Naturally Speaking. Как я понимаю, они и являются держателями всех этих технологий. (Ну, конечно были и есть и другие игроки на этом рынке. Например, IBM еще в середине 90-х включила в свою OS/2 распознавание речи).

Basil, ваши постинги в Английском Языке и здесь наводят на определенные размышления :wink:

olley · Post by **olley** » 22 Dec 2003 20:58

DR_35_USA wrote:вам хихоньки, а мне на новом проекте voice activated dialing делать на виндах

Я конечно не спец в этих вещах, но какие проблемы с контекстом могут быть у вас? Разве нельзя взять готовый SDK для распознавания речи и получать голосовой ввод?

Cougar · Post by **Cougar** » 08 Jan 2004 19:46

flip_flop wrote:Нейронные сети друга Кугара (естественные нейронные сети) поймут, искусственные - вряд ли.
Субьект познания должен на порядок превосходить обьект. Поэтомы мы можем с небольшим успехом построить модель нейронных сетей амебы, и предоставить инопланетянам или господу Богу конструировать полноценные модели наших нейронных систем.

>Субьект познания должен на порядок превосходить обьект.
Во-первы я не думаю, что вы думаете что нейронные сети друга Кугара превосходят на порядок нейронные сети Кугара, для того, чтобы друг Кугара понимал Кугара?
Во-вторых:
"Субьект познания должен на порядок превосходить обьект" - Это как-то слишком обще сформулировано, в филосовском стиле типа "все меньше о все большем" так чтобы получилось "ничего обо всем". Можно долго ломать копья по поводу того, так это или нет и каждый останется при своем мнении, а все потому, что "субьект" и "познание" достаточно широкие, филосовские категории для того, чтобы каждый в них видел что-то свое, что делает его правым относительно диаметральной точки зрения оппонента, который тоже прав относительно того, что он понимает под "субьект" и "познание". Это, однако, не означает что оппонеты имеют диаметральные же базовые понятия о "субьект" и "познание". Тут еще и нечеткая логика и вообще вся система понятий (ортогональная если хотите).
Короче говоря, я не согласен

. Что значит "познать"? Да бог с ним, с познанием. Мы специалисты предпочитаем "все больше о все меньшем" так, чтобы получилось "все ни о чем". Мы хотим смоделировать, описать, а не понять, ибо по-нашему это и есть понять. Почему нельзя смоделировать? Есть какие-то _принципиальные_ ограничения кроме того,что "Субьект познания должен на порядок превосходить обьект" - что не принципиальное, а филосовское заблуждение. Вы, например, понимаете работу искусственных нейросетей? Все говорят что это черный ящик. А вы знаете, например, что такое фотон? Вы можете утверждать, что человек его познал? Однако и светом пользуемся и в природе не существует когерентного источника света, а лазеры уже давно протарили свой "звездный" путь в современной индустрии. Ну хорошо, а что такое электрон? Его тоже "познали"? А загадку нефти разгадывать надо, чтобы ею пользоваться? А атомная бомба могла бы на земле взорваться без помощи человека? Я просто хочу свести "понимать" к "пользоваться", а вы?

А вот что физики, например, понимают под пониманием:
"Физики верят, что в природе существует структура. Понять - значит сопоставить эту структуру некоей структуре в нашем сознании. В физике такой структурой является математическая структура. Таким образом понять - значит описать на математическом языке." Цитирую по памяти из какой-то книги по квантам (по-моему Дэвид Кнут).