Люди в голосе: как вырастить аудиторию «Маруси» в 25 раз?
January 18, 2024
preview

Команда дизайнеров голосовых интерфейсов KODE ведет ТГ-канал Hey Voice. Там мы рассказываем о VUI-технологиях, а помогает нам в этом Маша Кудряшова, лидер компетенции по проектированию навыков в ботах сервисной поддержки клиентов Сбера. В прошлом году Маша выпустила классное интервью с одним из авторов Маруси. Хотим поделиться им с вами.

В AI и VUI происходит много всего интересного, а причина этому не только технологии, но и люди. Талантливые, умные, смелые. Мы решили, что говорить о нашей сфере без рассказа о людях невозможно, и поэтому запускаем рубрику «Люди в голосе».

Сегодня публикуем интервью с Анатолием Кульбацким, потрясающим человеком и профессионалом, экс-директором департамента умных продуктов VK (в 2020-2023), который в условиях пандемии и ситуации «после февраля 2022 года» вырастил аудиторию «Маруси» с 400 000 до 10 000 000 MAU.

Расскажи про свой путь в голос и в умные устройства?

С ASR я начал работать во время работы в «Везёт». У нас тогда более 70% всех заказов такси проходили через колл-центр, и мы задавались вопросом, как это оптимизировать и переводить в приложение (заказ такси через КЦ стоил в 7 раз дороже). Ускорение операторов, улучшение интерфейса, подсказки, автозаполнение. Но всё равно в этом процессе оставался человек.

Применив открытые голосовые технологии для распознавания адресов, мы поняли, что они несовершенны. Пользователь мог сказать «Заберите меня у Магнита на такой-то улице», и оператор лучше справлялся с таким запросом. Стало очевидно, что есть проблемы с качеством, нужны инвестиции для развития VUI-проектов.

Тогда голос остался для меня интересной штукой, но не до конца понятной. Поэтому, когда в 2020 году мне предложили пойти в «Марусю», голос был одним из факторов выбора.

Кроме этого, меня вдохновляла команда и вызовы, которые предстояло преодолеть. Маруся на тот момент была совсем маленькой: около 400 000 MAU и только-только в продаже появилась первая колонка. Конкурентами были Алиса, Google и Siri – топовые ребята, с которыми интересно поработать на одном рынке.

Какой путь ты прошёл с «Марусей»?

Первый трек – изменение моей ответственности. Первый год я был СРО «Маруси», отвечал только за ассистента, потом мне передали колонки. Еще через полгода я стал отвечать за всю «Марусю»: продукт, разработка, маркетинг и продажи. Второй трек – это погружение в «кроличью нору» технологий. Болталка «Маруси» в 2020 году началась с таблички с ответами, а в конце 2022 года уже появились генеративные модели. Одновременно выкристаллизовалось понимание, где ассистент будет полезен, а где он так и не сможет подсобрать retention. В 2022 году мы запустили колонку Neo, которая, насколько я знаю, хорошо себя чувствует на рынке.

Какие вызовы пришлось преодолеть?

Самый сложный – как расти по качеству быстрее, чем по аудитории. Количество пользователей Маруси превысило 10 МЛН в месяц, это рост более, чем в 25 раз. Аудитория ассистента была сосредоточена в четырёх поверхностях: приложениях VK, Почта Mail.Ru, «Маруся» и в колонках. Большие поверхности с разными паттернами и запросами, и важно, чтобы качество ассистента росло.

Это похоже на историю, когда ты отправляешься в путешествие, а автомобиль тебе надо собирать на ходу.

Мы не стремились к идеальному кейсу, шли через MVP и смотрели влияние на retention. Детальный же разбор был в больших навыках, где скапливаются пользователи и трафик. Например, в Музыке огромное разнообразие кейсов. Поисковые запросы, детский режим, семейный режим. Мы собирали ключевые запросы, изучали, что мешает больше потреблять, делали регулярный ассессмент качества и многое другое. «Свежесть» поиска в Музыке тоже очень важна. Поиск тогда обновлялся не так быстро, как взлетал новый альбом Моргенштерна.

Как развивался персонаж ассистента «Маруся»? Как у неё появились глаза?

Люди любят персонажей. Мы читаем про персонажей в книгах, смотрим про них кино. Мы следим за блогерами, играем за персонажей в компьютерных играх. Мы долго думали, каким образом можно внести в ассистента персонаж. Появилась библия «Маруси», tone of voice, стиль действий, пасхалки.

Тем не менее, с персонажами в ассистентах сложнее, чем в книгах и в кино. Автор книги или режиссер фильма развивает сюжет так, чтобы управлять нашим погружением в персонажа. В умных устройствах всё не так линейно. Я искал ответы на эти вопросы и наткнулся на подход Pixar. В основе любого персонажа, который создается в Pixar, лежит антропоморфность. Я тогда посмотрел много мультфильмов Pixar, и это действительно так. Мы доверяем подобным себе.

С учётом и этого тезиса команда развивает идею антропоморфности «Маруси». Сначала это были имя и голос, а затем глаза и эмоции. Началось всё с дисплея и отображения часов.

Мы шли путём итераций, в какой-то момент у Маруси появились глаза. И мы поняли: It’s Magic!

Давай вспомним клиентские кейсы, которые тяжело давались?

У нас был пример из жизни – МакДрайв: к стойке на автомобиле подъезжает человек, говорит свой заказ в микрофон, ему отвечают, а потом он забирает свой заказ. Выглядело так, как будто бы в жизни уже есть готовый голосовой кейс взаимодействия, и можно его повторить. Но всё не так просто. Обычные модели распознавания речи довольно плохо работали с «наггетсами», «чикен роллами», «макфишами» и прочими штуками, потому что в обычной речи с ассистентами они не встречаются. Мы дообучили модель, выпустили навык, а пользователи дали понять, что им это не надо. И есть пара гипотез, почему.

  1. Интерфейсы Delivery Club более удобны для того, чтобы сделать заказ. У пользователя перед глазами есть 7-10 элементов, и за несколько секунд он может определиться, чего чему хочется.
  2. В МакДрайве было меню перед глазами, а в колонке нет. Если запросить меню у колонки, то после третьего наименования у пользователя «взрывается» голова.

Большое значение имеет мотивация пользователя. Что он получит, если обучится этому кейсу?

Например, в приложении «Самокат» ты обучаешься заказывать продукты, чтобы потом не ходить в магазин, а в такси – вызывать машину кнопкой, без звонка. С наггетсами так не получилось.

Голосовые интерфейсы – половина дела. А как собрать саму колонку?

На железе сложно зарабатывать. Мы запустили Мини, Яндекс запустил Лайт. У Лайта были хорошие продажи в сегменте недорогих устройств. Наша задача заключалась в том, чтобы выпустить недорогую колонку с дифференциацией и преемственностью семейству наших колонок, а также перенастроить логистику в условиях 2022 года.

Мне очень повезло, потому что ребята, с которыми я работал в VK – потрясающие специалисты, перед которыми можно ставить самые амбициозные задачи. Например, Борис Каганович. Он смог сделать недорогую колонку высокого качества, с экраном, и чтобы она звучала лучше, чем Лайт.

В Neo мы чуть лучше сфокусировались на детях. Мы не хотели, чтобы это был детский продукт, при этом знали, что среди пользователей будет много детей (дорабатывали семейный и детский режимы). Один из наших дифференциаторов и отстройка от Алисы заключается в том, Маруся – добрая. Алиса – классная, дерзкая, она может резко ответить.

Мы сознательно всё это убрали в Марусе. И доброта сработала, потому что покупатели обращали на это внимание.

Что самое сложное в производстве таких продуктов? С чем точно встретишься, и, если не преодолеешь, то ничего не получится?

Толщина голосового канала. Когда появился голос, казалось, что это новый способ взаимодействия с компьютером, и через какое-то время он станет доминирующим. Но с продуктами так не работает: в реальности существует очень много разных вариантов интерфейсов, и есть интерфейсы, которые в том или ином кейсе гораздо эффективнее, чем голос.

Например, если нужно выбирать из 6-7 вариантов и иметь возможность легко вернуться на предыдущий шаг, то визуальный интерфейс будет более удобным. Голосовое взаимодействие линейно, в нём сложнее возвращаться на предыдущие шаги. Возможно, LLM смогут решить эту задачу и будут давать быстрые полные ответы, но давайте вспомним, когда был запуск Google Assistant и Siri: прошло больше десяти лет.

Существует пропасть между понятными короткими кейсами (голосовой поиск, погода, умный дом) и длинными диалогами с поддержкой контекста. Все вкладываются в развитие таких естественных диалогов, а на практике я видел, что здорово работают именно короткие кейсы (найти трек или фильм, включить музыку). Получается, чтобы сделать хороший кейс, нужно решить три задачи: 1) найти этот кейс 2) учесть контекст 3) реализовать его грамотно с точки зрения клиентского пути и технологического качества (точность, действия ассистента).

Как набирать людей в такие проекты? Как развивать команду?

Я не отношу себя к тем людям, которые считают, что для этой сферы нужны какие-то специальные навыки. Умные устройства – довольно сложные продукты, поэтому нужны senior-ребята. Такие специалисты лучше всего подходят для продуктов с высокой степенью неопределенности. И с ними интереснее работать. А дальше смотрим по типу продукта. Например, для Музыки мне было важно найти senior-продакта, который мог работать и с технологиями, и с контентом, а для поиска и базового качества – с опытом в ML. VUI и голосовым технологиям мы обучали в команде, потому что я знал, что готовых специалистов очень мало, и нужно вкладываться в новых.

Кто проектирует голосовые интерфейсы? Дизайнер?

Мы сознательно отказались от роли голосовых дизайнеров. Навык проектировался продактом, который понимает технологию и клиентский путь, и редактором, который хорошо разбирается в написании диалогов. Когда у навыка есть визуал, там появляется дизайнер.

Какое будущее у индустрии умных устройств?

Я верю, что такие продукты будут распространяться линейно (больше колонок, ассистенты будут проникать в телевизоры), но я не верю в экспоненту. То количество ограничений, которое есть в голосовом интерфейсе, не даст ему стать новым айфоном. Плюс те ограничения, которые наложили Goggle и Apple на свои доминирующие платформы, не дадут другим ассистентам хорошо вырасти в Android и iOS.

Пользователю придётся продираться к вашему ассистенту, и тогда клиентский кейс должен быть такой сильный, чтобы пользователь нашел мотивацию это сделать. Среди таких сильных кейсов – Навигатор с голосом.

Умные устройства – не товар первой необходимости, поэтому кризисы будут влиять на продажи.

При этом, я вижу большой потенциал в автоматизации с помощью голосовых технологий (сервисные коммуникации, продажи в колл-центрах). Сейчас она строится на простых технологиях и древовидных структурах, но с появлением LLM решения могут стать более сложными и дать движение по качеству обслуживания.

Какие рекомендации ты можешь дать ребятам, которые хотят заниматься такими продуктами?

Меня радует, что постепенно продакт-менеджмент превращается в профессию, а не остается просто набором эмпирических знаний. Например, хорошо бы владеть фреймворками от простых типа RICE до Onboarding от Reforge.

При переходе в новую доменную область человеку придется погрузиться в специфику: текущий стек технологий, наработки, ожидания и боли пользователей, за счёт чего можно сделать следующий «прыжок» в продукте, и нужно ли его делать. Возможно, придётся двигаться маленькими шагами по одному проценту вперед.

В умных устройствах и ассистентах на первом этапе придётся довольно быстро «занырнуть» в другой способ взаимодействия с пользователем и начинать работу с учётом интерфейсных и технологических ограничений. Специфика есть, но её можно освоить. Не могу сказать, что только выпускники «Лиги голосового плюща» могут работать в таких продуктах, такой Лиги не существует, поэтому у всех есть шанс.

The site uses cookies, which allows you to receive information about you. This is necessary to improve the site. By continuing to use the site, you agree to the use of cookies - more details in our Policy on the processing of personal data