Как работает синтез речи: от робота до живого голоса | синтез речи, TTS | Podlodka Podcast #435
Синтез речи давно вышел за рамки утилитарных задач и стал важной частью взаимодействия человека с технологией: от помощников до медиа и образовательных продуктов. В гости к нам пришел Сергей Дуканов, который разрабатывал голосовые ассистенты Маруси, Алисы и Олега, а сейчас – CTO в международном AI dubbing стартапе Dubformer. В этом выпуске мы прошлись по четырём поколениям TTS-систем: от простейшего склеивания фрагментов до нейросетевых моделей, способных передавать интонации и эмоции. Обсуждаем, зачем синтезированной речи характер, почему интонационные “ошибки” делают голос живым и что важно учитывать при встраивании TTS в продукты. Полезные ссылки: — TTS от Nari Labs – модель понимает семантику и воспроизводит non-verbal звуки https://file.notion.so/f/f/66aabc3d-2...
— Больше примеров тут https://yummy-fir-7a4.notion.site/dia
— Примеры AI дубляжа от Dubformer: bobr curva на русском https://drive.google.com/file/d/1NT1k...
, TODO что-нибудь на английском ❓ Хочешь обсудить выпуск или задать вопрос эксперту? Вступай в наш Telegram-чат: https://t.me/podlodka
📰 Не любишь чаты, но хочешь оставаться в курсе дел и прокачивать свой IT кругозор? Подписывайся на наш Telegram-канал: там публикуются анонсы новых выпусков, а в комментах идут ценные и горячие обсуждения! 5 тысяч опытных IT-специалистов уже с нами: https://t.me/podlodkanews
👉Предложить себя в подкаст https://forms.gle/NtmaZmeDAa3MHSra7
Тайм-коды: 00:00 О чем выпуск 02:42 Основные задачи синтеза речи 07:45 Применение Zero-shot TTS 12:00 Особенности тембра голоса 15:48 Признаки синтезированного голоса 18:48 Проблемы синтеза эмоций 21:57 История синтеза речи 26:24 Выбор текста для датасета 31:05 Технические детали синтеза речи 41:35 Подходы к обучению моделей 47:13 Латенты и токены 48:57 Преимущества токенизации 51:30 Оценка качества моделей 56:10 Проблемы лидербордов 59:15 Восприятие синтезированной речи 01:01:10 Диалоговые агенты 01:05:05 Готовые решения и будущие перспективы 01:18:04 Заключение