Искатели. История команды Speech в AI-Центре Т-Банка
Искатели — документальный сериал про AI-Центр и ML-инженеров Т-Банка. Тех, кто готов разрабатывать новые решения, исследовать и находить новые смыслы в передовых технологиях и продуктах. Во втором выпуске узнаем, с чего начиналась команда Speech в AI-Центре Т-Банка. Как концепция банка без отделений подстегнула развитие моделей синтеза и распознавания в компании, и что сейчас представляет из себя платформа голосовых технологий VoiceKit. Спикеры: Витя Тарнавский — директор AI-Центра Т-Банка; Женя Брицын — руководитель направления голосовых технологий AI-Центра Т-Банка; Света Вахрушева — менеджер продукта VoiceKit; Саша Мисевич — тимлид команды оптимизации инференса; Паша Сухачев — тимлид команды распознавания речи; Валера Болдаков — тимлид команды синтеза речи; Гоша Писцов —ML-инженер команды синтеза речи. Узнаем, какие голосовые технологии входят в платформу VoiceKit и какую пользу мы извлекаем из платформы речевой аналитики TQM. Обсудим, что влияет на качество синтеза речи и как можно померить его естественность. Вспомним, как и зачем мы выбрали дикторов… из своей команды. Погрузимся в детали инженерных решений и расскажем про будущее, в котором голос станет неотъемлемой частью любого интерфейса. Таймкоды: 00:30 Голос — самый естественный способ коммуникации 00:52 С чего начиналось направление Speech 2:14 Появление роботов в поддержке 2:31 Специфика колл-центра Т-Банка 3:02 Мобильный секретарь 3:42 Речевые технологии для мобильного оператора 4:09 VoiceKit 4:46 Распознавание речи 5:02 Инженеры, которые занимаются распознаванием 5:44 Оптимизация моделей и сверхспособности инженеров 6:42 Сервисы, которые работают на базе распознавания 7:29 Архитектурные оптимизации 9:41 Работа с данными 11:12 Распознавание и суммаризация встреч 12:34 Модели определения позитива, негатива, возраста, пола и др. 13:19 TQM – платформа речевой аналитики 15:09 Вычислительные мощности и платформа ML Core 17:09 Синтез речи 18:10 Автоматизация клиентского обслуживания 18:55 Под капотом у синтеза две модели 20:35 Естественный синтез речи 21:48 Эмпатия у робота 22:34 Сложность задачи синтеза речи 22:56 Кастинг голосов 23:41 Синтезировали голос продакта и ML-инженера 26:02 Тексты для дикторов 27:55 Специфика работы диктором 28:46 А/B тесты 29:29 Синтез голоса Пушкина 30:55 Разные голоса имеют разную эффективность 31:50 Voice Conversion 32:54 Технология Audio to Audio 34:17 Большие акустические модели 35:55 ML-инженеры в Т-Банке 37:25 Как будем развиваться дальше Канал про жизнь AI-исследователей в Т-Банке: https://t.me/zheltyi_ai
Дайджесты, статьи и анонсы митапов: https://t.me/kod_zheltyi
Больше об ИТ-команде Т-Банка: https://t.me/t_crew
Блог на Хабре: https://habr.com/ru/companies/tbank/a...
Наши вакансии: https://www.tbank.ru/career/it/about/