Люди в голосе: как вырастить аудиторию «Маруси» в 25 раз?
January 18, 2024
preview

Команда дизайнеров голосовых интерфейсов KODE ведет ТГ-канал Hey Voice. Там мы рассказываем о VUI-технологиях, а помогает нам в этом Маша Кудряшова, лидер компетенции по проектированию навыков в ботах сервисной поддержки клиентов Сбера. В прошлом году Маша выпустила классное интервью с одним из авторов Маруси. Хотим поделиться им с вами.

В AI и VUI происходит много всего интересного, а причина этому не только технологии, но и люди. Талантливые, умные, смелые. Мы решили, что говорить о нашей сфере без рассказа о людях невозможно, и поэтому запускаем рубрику «Люди в голосе».

Сегодня публикуем интервью с Анатолием Кульбацким, потрясающим человеком и профессионалом, экс-директором департамента умных продуктов VK (в 2020-2023), который в условиях пандемии и ситуации «после февраля 2022 года» вырастил аудиторию «Маруси» с 400 000 до 10 000 000 MAU.

Расскажи про свой путь в голос и в умные устройства?

С ASR я начал работать во время работы в «Везёт». У нас тогда более 70% всех заказов такси проходили через колл-центр, и мы задавались вопросом, как это оптимизировать и переводить в приложение (заказ такси через КЦ стоил в 7 раз дороже). Ускорение операторов, улучшение интерфейса, подсказки, автозаполнение. Но всё равно в этом процессе оставался человек.

Применив открытые голосовые технологии для распознавания адресов, мы поняли, что они несовершенны. Пользователь мог сказать «Заберите меня у Магнита на такой-то улице», и оператор лучше справлялся с таким запросом. Стало очевидно, что есть проблемы с качеством, нужны инвестиции для развития VUI-проектов.

Тогда голос остался для меня интересной штукой, но не до конца понятной. Поэтому, когда в 2020 году мне предложили пойти в «Марусю», голос был одним из факторов выбора.

Кроме этого, меня вдохновляла команда и вызовы, которые предстояло преодолеть. Маруся на тот момент была совсем маленькой: около 400 000 MAU и только-только в продаже появилась первая колонка. Конкурентами были Алиса, Google и Siri – топовые ребята, с которыми интересно поработать на одном рынке.

Какой путь ты прошёл с «Марусей»?

Первый трек – изменение моей ответственности. Первый год я был СРО «Маруси», отвечал только за ассистента, потом мне передали колонки. Еще через полгода я стал отвечать за всю «Марусю»: продукт, разработка, маркетинг и продажи. Второй трек – это погружение в «кроличью нору» технологий. Болталка «Маруси» в 2020 году началась с таблички с ответами, а в конце 2022 года уже появились генеративные модели. Одновременно выкристаллизовалось понимание, где ассистент будет полезен, а где он так и не сможет подсобрать retention. В 2022 году мы запустили колонку Neo, которая, насколько я знаю, хорошо себя чувствует на рынке.

Какие вызовы пришлось преодолеть?

Самый сложный – как расти по качеству быстрее, чем по аудитории. Количество пользователей Маруси превысило 10 МЛН в месяц, это рост более, чем в 25 раз. Аудитория ассистента была сосредоточена в четырёх поверхностях: приложениях VK, Почта Mail.Ru, «Маруся» и в колонках. Большие поверхности с разными паттернами и запросами, и важно, чтобы качество ассистента росло.

Это похоже на историю, когда ты отправляешься в путешествие, а автомобиль тебе надо собирать на ходу.

Мы не стремились к идеальному кейсу, шли через MVP и смотрели влияние на retention. Детальный же разбор был в больших навыках, где скапливаются пользователи и трафик. Например, в Музыке огромное разнообразие кейсов. Поисковые запросы, детский режим, семейный режим. Мы собирали ключевые запросы, изучали, что мешает больше потреблять, делали регулярный ассессмент качества и многое другое. «Свежесть» поиска в Музыке тоже очень важна. Поиск тогда обновлялся не так быстро, как взлетал новый альбом Моргенштерна.

Как развивался персонаж ассистента «Маруся»? Как у неё появились глаза?

Люди любят персонажей. Мы читаем про персонажей в книгах, смотрим про них кино. Мы следим за блогерами, играем за персонажей в компьютерных играх. Мы долго думали, каким образом можно внести в ассистента персонаж. Появилась библия «Маруси», tone of voice, стиль действий, пасхалки.

Тем не менее, с персонажами в ассистентах сложнее, чем в книгах и в кино. Автор книги или режиссер фильма развивает сюжет так, чтобы управлять нашим погружением в персонажа. В умных устройствах всё не так линейно. Я искал ответы на эти вопросы и наткнулся на подход Pixar. В основе любого персонажа, который создается в Pixar, лежит антропоморфность. Я тогда посмотрел много мультфильмов Pixar, и это действительно так. Мы доверяем подобным себе.

С учётом и этого тезиса команда развивает идею антропоморфности «Маруси». Сначала это были имя и голос, а затем глаза и эмоции. Началось всё с дисплея и отображения часов.

Мы шли путём итераций, в какой-то момент у Маруси появились глаза. И мы поняли: It’s Magic!

Давай вспомним клиентские кейсы, которые тяжело давались?

У нас был пример из жизни – МакДрайв: к стойке на автомобиле подъезжает человек, говорит свой заказ в микрофон, ему отвечают, а потом он забирает свой заказ. Выглядело так, как будто бы в жизни уже есть готовый голосовой кейс взаимодействия, и можно его повторить. Но всё не так просто. Обычные модели распознавания речи довольно плохо работали с «наггетсами», «чикен роллами», «макфишами» и прочими штуками, потому что в обычной речи с ассистентами они не встречаются. Мы дообучили модель, выпустили навык, а пользователи дали понять, что им это не надо. И есть пара гипотез, почему.

  1. Интерфейсы Delivery Club более удобны для того, чтобы сделать заказ. У пользователя перед глазами есть 7-10 элементов, и за несколько секунд он может определиться, чего чему хочется.
  2. В МакДрайве было меню перед глазами, а в колонке нет. Если запросить меню у колонки, то после третьего наименования у пользователя «взрывается» голова.

Большое значение имеет мотивация пользователя. Что он получит, если обучится этому кейсу?

Например, в приложении «Самокат» ты обучаешься заказывать продукты, чтобы потом не ходить в магазин, а в такси – вызывать машину кнопкой, без звонка. С наггетсами так не получилось.

Голосовые интерфейсы – половина дела. А как собрать саму колонку?

На железе сложно зарабатывать. Мы запустили Мини, Яндекс запустил Лайт. У Лайта были хорошие продажи в сегменте недорогих устройств. Наша задача заключалась в том, чтобы выпустить недорогую колонку с дифференциацией и преемственностью семейству наших колонок, а также перенастроить логистику в условиях 2022 года.

Мне очень повезло, потому что ребята, с которыми я работал в VK – потрясающие специалисты, перед которыми можно ставить самые амбициозные задачи. Например, Борис Каганович. Он смог сделать недорогую колонку высокого качества, с экраном, и чтобы она звучала лучше, чем Лайт.

В Neo мы чуть лучше сфокусировались на детях. Мы не хотели, чтобы это был детский продукт, при этом знали, что среди пользователей будет много детей (дорабатывали семейный и детский режимы). Один из наших дифференциаторов и отстройка от Алисы заключается в том, Маруся – добрая. Алиса – классная, дерзкая, она может резко ответить.

Мы сознательно всё это убрали в Марусе. И доброта сработала, потому что покупатели обращали на это внимание.

Что самое сложное в производстве таких продуктов? С чем точно встретишься, и, если не преодолеешь, то ничего не получится?

Толщина голосового канала. Когда появился голос, казалось, что это новый способ взаимодействия с компьютером, и через какое-то время он станет доминирующим. Но с продуктами так не работает: в реальности существует очень много разных вариантов интерфейсов, и есть интерфейсы, которые в том или ином кейсе гораздо эффективнее, чем голос.

Например, если нужно выбирать из 6-7 вариантов и иметь возможность легко вернуться на предыдущий шаг, то визуальный интерфейс будет более удобным. Голосовое взаимодействие линейно, в нём сложнее возвращаться на предыдущие шаги. Возможно, LLM смогут решить эту задачу и будут давать быстрые полные ответы, но давайте вспомним, когда был запуск Google Assistant и Siri: прошло больше десяти лет.

Существует пропасть между понятными короткими кейсами (голосовой поиск, погода, умный дом) и длинными диалогами с поддержкой контекста. Все вкладываются в развитие таких естественных диалогов, а на практике я видел, что здорово работают именно короткие кейсы (найти трек или фильм, включить музыку). Получается, чтобы сделать хороший кейс, нужно решить три задачи: 1) найти этот кейс 2) учесть контекст 3) реализовать его грамотно с точки зрения клиентского пути и технологического качества (точность, действия ассистента).

Как набирать людей в такие проекты? Как развивать команду?

Я не отношу себя к тем людям, которые считают, что для этой сферы нужны какие-то специальные навыки. Умные устройства – довольно сложные продукты, поэтому нужны senior-ребята. Такие специалисты лучше всего подходят для продуктов с высокой степенью неопределенности. И с ними интереснее работать. А дальше смотрим по типу продукта. Например, для Музыки мне было важно найти senior-продакта, который мог работать и с технологиями, и с контентом, а для поиска и базового качества – с опытом в ML. VUI и голосовым технологиям мы обучали в команде, потому что я знал, что готовых специалистов очень мало, и нужно вкладываться в новых.

Кто проектирует голосовые интерфейсы? Дизайнер?

Мы сознательно отказались от роли голосовых дизайнеров. Навык проектировался продактом, который понимает технологию и клиентский путь, и редактором, который хорошо разбирается в написании диалогов. Когда у навыка есть визуал, там появляется дизайнер.

Какое будущее у индустрии умных устройств?

Я верю, что такие продукты будут распространяться линейно (больше колонок, ассистенты будут проникать в телевизоры), но я не верю в экспоненту. То количество ограничений, которое есть в голосовом интерфейсе, не даст ему стать новым айфоном. Плюс те ограничения, которые наложили Goggle и Apple на свои доминирующие платформы, не дадут другим ассистентам хорошо вырасти в Android и iOS.

Пользователю придётся продираться к вашему ассистенту, и тогда клиентский кейс должен быть такой сильный, чтобы пользователь нашел мотивацию это сделать. Среди таких сильных кейсов – Навигатор с голосом.

Умные устройства – не товар первой необходимости, поэтому кризисы будут влиять на продажи.

При этом, я вижу большой потенциал в автоматизации с помощью голосовых технологий (сервисные коммуникации, продажи в колл-центрах). Сейчас она строится на простых технологиях и древовидных структурах, но с появлением LLM решения могут стать более сложными и дать движение по качеству обслуживания.

Какие рекомендации ты можешь дать ребятам, которые хотят заниматься такими продуктами?

Меня радует, что постепенно продакт-менеджмент превращается в профессию, а не остается просто набором эмпирических знаний. Например, хорошо бы владеть фреймворками от простых типа RICE до Onboarding от Reforge.

При переходе в новую доменную область человеку придется погрузиться в специфику: текущий стек технологий, наработки, ожидания и боли пользователей, за счёт чего можно сделать следующий «прыжок» в продукте, и нужно ли его делать. Возможно, придётся двигаться маленькими шагами по одному проценту вперед.

В умных устройствах и ассистентах на первом этапе придётся довольно быстро «занырнуть» в другой способ взаимодействия с пользователем и начинать работу с учётом интерфейсных и технологических ограничений. Специфика есть, но её можно освоить. Не могу сказать, что только выпускники «Лиги голосового плюща» могут работать в таких продуктах, такой Лиги не существует, поэтому у всех есть шанс.

By using our site you agree that we use cookies