Говорит ИИ: что такое голосовые помощники и как их создают?

voiceassistants_cover1png-1
Как Алиса и Siri понимают, что мы им говорим

«Алиса, включи музыку», «Олег, установи лимит на траты», «Siri, поставь будильник»: это то, что мы часто говорим своим голосовым помощникам. Они также готовы помогать бизнесу: отвечать на звонки вместо оператора или продавать квартиры. Вместе с экспертами из компании Just AI и банка «Тинькофф» разбираемся, что происходит на рынке разговорного ИИ.

✌️Бонус в конце: рассказываем, как создать своего чат-бота.

Что происходит на рынке голосовых помощников?

Распространение голосовых помощников началось еще в 2010-х годах, когда на рынок вышли Siri и Google Assistant. Уже тогда ассистенты могли проложить маршрут, поставить будильник или же сделать напоминание.

Мы спросили голосовых помощников, для чего они созданы, но пока они не ответили однозначно:

  • Алиса предполагает, что ее могли придумать два программиста, которые понравились друг другу и создали бета-версию. И честно признаётся, что предпочитает не думать об этом.
  • Сири и Google Assistant выдают строку из Википедии о том, что помощники «помогают выполнять задачи для пользователей на основе полученной информации».
  • Олег теряется и говорит, что не хочет дезинформировать. Поэтому он удалится и вернется, как только удастся разобраться в происходящем.

Почти за десять лет они эволюционировали и стали привычной частью смартфонов и умных домов. По оценкам Just Al, в 2021 году было продано 2,9 миллиона умных колонок и других устройств с голосовыми ассистентами, а общее количество их пользователей составило 52 миллиона человек.

С 2018 по 2021 год российские пользователи купили более 4 миллионов умных колонок, экранов и ТВ-приставок. Лидерство получил Яндекс с Алисой, заняв 70% рынка. Сбер с ассистентами семейства «Салют» получил 21% продаж, а умные колонки «Капсула» с ассистентом Маруся от VK — 9%.

О чем хотят говорить пользователи?

Согласно исследованию Института общественного мнения «Анкетолог», чаще всего пользователи хотят отвлечься или уменьшить количество действий со своей стороны: послушать музыку, узнать информацию или погоду, набрать текст. Кажется, что общение с искусственным интеллектом — чистой воды развлечение, но нет.

Компании создают полезные навыки — это сторонние приложения внутри голосовых помощников, написанные на одном из языков программирования. Например, сама Алиса не умеет заказывать что-то в интернете, но компания «Водаком» создала навык, обратившись к которому, можно заказать воду домой или в офис.

Полезным и имиджевым навыком можно назвать «Больше муррчаний с Whiskas». Он рассказывает пользователям о том, как сделать жизнь домашних кошек лучше. Кстати, позаботились о домашних питомцах более 13 тысяч раз.

Так, на вопрос о том, чем пользователи интересуются чаще всего, Алиса назвала две просьбы: фильмы и котики.

Разговор с Алисой о частых запросах от пользователей

Навык «Краски Tikkurila» подбирает краску по запросу и находит ближайший магазин, где можно ее приобрести, а пиццерия Papa John’s позволяет оформить доставку без связи с оператором. Также с помощью голосовых помощников можно продавать более масштабные вещи, чем пицца: строительная компания «Инград» в Алисе получила 72 заявки на покупку и 2 закрытых сделки по продаже квартир.

По данным банка «Тинькофф», голосовой ассистент помогает решать 40% вопросов от клиентов без помощи оператора. Олега часто просят установить лимиты на траты, пополнить кредитку и посмотреть структуру своих расходов.

На просьбу показать доходы Олег предоставит полную статистику на месяц, а потом предложит выбрать интересующий период:

Разговор с ассистентом банка «Тинькофф»

Как устроена работа помощника и почему он нас понимает?

В кейсе Robovoice по созданию голосового помощника для автомобильной сети робот самостоятельно отвечал на вопросы 23% пользователей. Чтобы достичь такого результата, системе необходимо отделить речь человека от посторонних звуков и сопоставить фрагмент с закодированными сочетаниями звуков.

По словам Ивана Голубева, Solution Owner Just AI, для этого используются две системы распознавания: ASR и NLU. Automatic Speech Recognition (ASR) работает на то, чтобы точно уловить слова человека, несмотря на посторонние шумы. Natural Language Understanding (NLU) делает так, чтобы бот понимал собеседника в правильном контексте, запоминал его предыдущие ответы и не спрашивал дважды.

Обучение помощника может проходить несколькими способами:

  • rule-based-подход, когда есть программа, в которой уже заложены ответы. Бот распознает вопрос и выбирает самый уместный вариант ответа из базы;
  • генеративный подход, когда применяют машинное обучение и алгоритмы, которые, используя знания о языке, могут сгенерировать фразу на основании входящей реплики. Генеративным подходом можно назвать обучение Олега, который работает с помощью VoiceKit — собственной технологии «Тинькофф». Редакторы помогают ему обучаться с помощью открытых источников.

Чаще всего проблема с непониманием заключается в том, что произошел сбой в последовательности работы ASR и NLU. В таком случае просто не получается распознать звуки, и начинается игра в глухой телефон. Посторонние шумы, дефекты речи и акцент только увеличивают вероятность ошибки в распознавании.

Сколько стоит создание ассистента и что для этого нужно уметь?

Пока разработку собственных голосовых помощников могут позволить себе крупные компании. Например, разработка Олега обошлась «Тинькофф» примерно в 50 миллионов рублей и оправдала себя уже в первый месяц, когда позволила сэкономить столько же.

Чтобы разработать своего помощника, стоит определиться с тем, какие проблемы будет решать ИИ и какой результат получат пользователи. Сейчас технологии позволяют разработать как голосового помощника, так и чат-бота. Они оба распознают человеческую речь, но первый может сам выстроить логическую цепочку, а второй отправит автоматизированный ответ.

Если бюджет не позволяет разработать личного Олега, то лучше будет обратиться к экосистеме Сбера или Алисы, которые помогут разработать свой навык на их платформе.

Навыки для Алисы можно создать с помощью платформы Яндекс.Диалоги, а Сбер работает в SmartApp Studio. Тех, кто не умеет программировать, выручит визуальный конструктор от Яндекса или сторонний Dialogflower. На базе Aimylogic можно создать навыки почти для всех известных ассистентов.

По данным Just Al, создание чат-бота займет от недели до 3,5 месяцев и в среднем будет стоить от 250 до 300 тысяч рублей. При том можно заняться разработкой самостоятельно, и тогда придется оплатить лишь лицензию за использование конструктора, которая стоит от 5900 до 59 000 рублей в зависимости от количества пользователей.

Если проект масштабный, то лучше привлечь дополнительных специалистов:

  • проектного менеджера, который будет заниматься разработкой ТЗ и координацией процесса;
  • NLP-разработчика для создания алгоритмов распознавания речи и ее синтеза;
  • UI/UX-аналитика, чтобы проработать пользовательский опыт в продукте и создать для него оболочку;
  • тестировщика для выявления ошибок и сбоев.

Работа строится по следующей схеме. Первым этапом определяются требования и создается ТЗ. На проектировании проводятся анализ и разметка пользовательских данных и создание макетов интерфейса. При разработке нужно будет реализовать бизнес-логику и интеграции. А после этого протестировать навык и запустить его.

На курсе «Профессия Data Scientist» вы можете выбрать специализацию NLP-разработчик и получить нужные знания для создания голосовых навыков.

Разговоры с голосовыми помощниками действительно конфиденциальны?

Почти во всех маркетинговых материалах ассистентов говорится, что те «живут в облаке и становятся умнее». Это создает впечатление, будто процесс обучения проходит без участия человека.

Тем временем Bloomberg провели исследование, в ходе которого выяснили, что у Amazon есть специальный отдел независимых подрядчиков, которые слушают разговоры. Это необходимо для того, чтобы помощник лучше понимал контекст разговора. Так, они могут проверять, поняла ли Алекса, что Тейлор Свифт — певица. Но получают работники лишь малую часть информации для обучения искусственного интеллекта и не видят никаких данных о пользователе, кроме серийного номера устройства.

Система работает так, что голосовой ассистент в умной колонке слушает пользователя постоянно, но записывать данные начинает лишь в тот момент, когда произнесено его имя.

Иван Голубев, Solution Owner Just AI, объяснил, почему не стоит переживать за конфиденциальность:

«Надо понимать, что в момент настройки умной колонки мы соглашаемся на использование и обработку персональных данных. Если с помощью ассистентов мы пользуемся сервисами других компаний, то все они также становятся операторами данных.

Данные хранятся в облаке, вендоры уделяют их защите большое внимание, происходят шифрование и полная деперсонализация. Но для тех, кто хочет обезопасить себя самостоятельно, всегда есть ограничения на уровне самого устройства: можно отключить микрофон и камеру».

В банке «Тинькофф» также рассказали о безопасности ассистента:

«Общение с голосовым ассистентом Олегом от Тинькофф абсолютно конфиденциально и безопасно».

Как приживутся голосовые помощники в бизнесе?

В 2021 году количество пользователей, совершающих онлайн-покупки и обращающихся к компаниям через колонку, достигло 45 миллионов человек, говорится в отчете VoiceBot.

Сейчас крупным компаниям выгодно устанавливать роботов, так как они позволяют хорошо сэкономить. Директор департамента маркетинга ОАО «МТТ» Сергей Маслов объяснил, что Аэрофлот сохранил порядка 31 миллиона рублей на автоматической обработке звонков. Однако пользу это принесет не только большим корпорациям, но и среднему бизнесу, который может сократить до 70% расходов компании. Малый бизнес подключится в последнюю очередь, когда будут проверенные схемы взаимодействия.

Кирилл Петров, управляющий директор Just AI, рассказал, чего стоит ждать на рынке:

«Конечно, инвестировать в разработку собственных голосовых помощников все крупные компании не будут, более вероятный сценарий связан с чат-ботами. Разговорные интерфейсы будут дополнять коммуникации практически во всех каналах, где происходит взаимодействие бизнеса и клиентов. Чат-боты и голосовые помощники все чаще будут встречаться на сайтах, в мобильных приложениях, мессенджерах и социальных сетях».

Бонус от Just Al

Если вы хотите самостоятельно разработать чат-бота, то вот сборник уроков, который все объяснит.

Курсы по теме

(рейтинг: 5, голосов: 2)
Добавить комментарий