Обычная дрессировка нейронной сети. Люди используются в качестве эталона. Плюс- и минус- подкрепления. Классика жанра, аж скучно... :)
Тут вопрос не в том, возможно ли это (возможно), а в том, какие вычислительные затраты нуно использовать в пересчете на один разговор в режиме реального времени. Грубо говоря, технология должна выглядеть примерно так:
1. На всех узловых пунктах, по которым трафик проходит в ОБЯЗАТЕЛЬНОМ порядке, стоят модули дублирования трафика.
2. Дублированный трафик отправляется на центры расшифровки, исходя из территориального деления, либо для заграничного трафика - исходя из баланса загрузки серверов.
3. Трафик расшифровывается, попутно осуществляется первичная фильтрация.
4. После первичной фильтрации данные направляются на центры анализа, где осуществляется глубокий контекстный анализ в интересах упомянутых организаций.
5. Вызвавшая интерес байда со всеми сопроводительными данными помещается в базу для последующей разработки.
Как видно, исходя из требований реального масштаба времени, вычислительная мощность центров первичного анализа (региональных) должна соответствовать пропускной способности сети связи, что для телефонных компаний осуществляется проще, а для Интернет - в связи с гибкими возможностями манипулирования трафиком - посложнее. Посему либо у нас в требованиях суперпроизводительный кластер, либо у нас ограниченная сложность нейронной сети распознавания, и соответственно - системно ограниченное качество оного. То есть следует ожидать от региональных центров (при адекватной политике финансирования) ограниченную надежность выходных данных.
Причем следует сказать, что песенная музыка, либо поэзия на фоне разговора, телепередачи и так далее - будут влиять. Дефекты речи либо акцент будет влиять, и здорово. Некачественные микрофоны с искажениями типа "ступенька", ВЧ-свистом и прочим будут влиять. Это, и вообще модные нынче эффекты "окружения" в звуковых картах компьютеров будут влиять. Наконец, такая система не сможет работать с интонированием (эмоциональной составляющей), не сможет (тут потребуется нечто супер-пупер дорогое) сопоставлять тембры говорящего с обычными их тембрами и так далее.
Наконец, древняя как мир игра в са-ка-ма-ка ба-ка-лда-ка будет ложить систему намертво...
Короче - это дорого, это крайне ненадежно, но это позволяет получить массу информации. В подавляющем большинстве своем совершенно ненужной... :)
Journal information