Блог компании «СИТЕК»

Пишем понятные статьи по 1С вам в помощь

#Искусственный интеллект #Информационные технологии

Распознавание речи в 1С. Сравнение с Whisper OpenAI

Привет! Я Елена Загибалова. Работаю в направлении R&D: занимаюсь поиском новых идей и решений для клиентов компании «СИТЕК».

Сегодня я расскажу вам про свой опыт тестирования инструментов для распознавания речи в 1С.

Итак, поехали!

Фирма «1С»  активно работает над задачей распознавания речи. Часть механизмов уже заявлена в платформе 8.3.23. В частности, появились функции голосового набора текста для заполнения ряда реквизитов, а также функция для распознавания речи из аудиофайлов.

Голосовой ввод текста заявлен в «1С:MDM». Выглядит примерно так:


В версии платформы «1С:Предприятие» 8.3.23 появились бесплатные модули и функции для самостоятельной разработки в части распознавания речи, подтягивающие готовые бесплатные модели. Но 1С о unireps не заботится, а описаний особо нет, так что настройка пока выглядит той еще «заморочкой». И как я поняла, не будет отработки синтаксиса, т.е. знаки препинания после распознавания речи не будут расставлены (хотя это не точно – может что-то изменится в будущем).

В саму платформу 1С также добавлена платная обработка для подключения облачного сервиса для распознавания аудиофайлов. На демке обработка выглядит так:


Итак, начнем тестирование распознавания аудиофайлов в 1С.

Вот как должно работать распознавание речи согласно официальной презентации 1С:


Как распознавание отработало на реальном файле:


Можно сделать первые выводы.

Минусы распознавания речи в 1С на тестовом файле:

  1. Не распознается диалог (хотя должен бы). По словам службы техподдержки, ошибка у меня в файле, т.к. в записи, скорее всего, 1 канал, а не в 2. При этом нет средств подсчета количества каналов в обработке от фирмы «1С». И что интересно, другая система распознавания речи диалог таки обнаружила (но об этом позднее).
  2. Нет пунктуации. По заявлению техподдержки, пунктуацию можно получить, загрузив другую экспериментальную модель. Только эта модель у меня почему-то не загружается и просто «вешает» 1С.
  3. Весьма «корявое» (другого слова не подберу) распознавание речи. По моей субъективной оценке, система правильно поняла всего около 50% текста.
  4. Формально заявлена возможность дообучения модели (возможность добавить свои специфичные термины), но проверить это мне не удалось, т.к. по факту не распознана половина текста. Что же мне теперь, весь словарь Даля добавлять?

Плюсы распознавания речи в 1С на тестовом файле:

  1. Решение встроено в 1С (самый очевидный и «жирный» плюс для тех, кто работает в 1С).
  2. Файл длительностью 6 минут распознается за 1 минуту. Для нашего теста этой скорости вполне достаточно.

Писать обработки на языке 1С я не стала, т.к. информации по новым функциям пока очень мало, плюс фирма 1С не сделала каких-то заготовок типа Unireps. И что самое важное – даже платное решение, мягко говоря, не справилось со своей задачей. Я очень сильно удивлюсь, если бесплатная версия работает лучше.

Тестируем дальше. Вот так работает код на Python c использованием бесплатного Whisper от Open AI на том же файле:


Плюсы:

  • есть размеченный диалог;
  • присутствует пунктуация;
  • высокое качество распознавания текста;
  • 6 минут записи с GPU Colab распознаются за 1 минуту (сравнимо со скоростью 1С).

По моей субъективной оценке, в данном случае правильно распознано около 90% текста даже с учетом специфичных терминов. И это не предел! Можно добиться еще лучшего распознавания, подключив более сильные модели (просто они будут дольше работать).

Минусы:

  • для быстродействия обязательно нужен компьютер с GPU (эти же 6 минут записи на CPU распознаются гораздо дольше – целых 25 минут);
  • это просто код в Colab для личных экспериментов – для реальной работы нужно готовое приложение.

Также я пыталась протестировать бесплатные модели VOSK, но у меня с ними как-то не срослось... Тестовый файл просто не распознался, разбираться в причинах не стала. В теории, если бы файл распознался, то там не было бы ни диалога, ни пунктуации, т.к. за это отвечают другие модули.

Делаем выводы

Предложенное фирмой «1С» решение в теории достаточно интересное, но с задачей распознавания конкретного тестового файла объективно не справилось. При этом достаточно хорошо справился бесплатный Whisper. Значит ли, что Whisper «рулит» в принципе? Не факт – нужно больше разных тестов. Плюс сама фирма «1С» признает, что ее технология распознавания речи находится еще на стадии развития, и многое может измениться в будущем.

Также не забываем, что у сервисов распознавания речи достаточно много готовых аналогов: как бесплатных, так и платных. Например, распознавание речи есть и у Яндекса, и у Тинькофф. Если задумываться о выборе решения для распознавания речи, то нужно проводить комплексный анализ всех систем и тестировать их на большем количестве файлов.

С вами была Елена Загибалова из компании «СИТЕК».

Открывайте новое, творите и радуйтесь жизни!)

____________________________________

Автор статьи: Ирина Кафарова – специалист R&D компании «СИТЕК».
Дата публикации статьи 21.09.2023.

Подпишитесь на нашу рассылку
и получите еще больше статей от экспертов по 1С!

По мере публикации статей, но не чаще
одного раза в неделю.

Наши услуги по обслуживанию 1С

Хотите узнать больше или нужна консультация?

Ответим на любые вопросы и посчитаем стоимость внедрения на вашем предприятии

Получить ответ на вопрос Перезвоните мне

Время ответа - в течение 2 рабочих часов.

Или свяжитесь с нами любым удобным для вас способом и мы ответим на все ваши вопросы, расскажем
о возможных решениях ваших задач
8 (800) 700-97-70