G
enby!

Как работает Attention, простое объяснение для новичков

📌 Заполни анкету прямо сейчас и получи чек-лист «15 самых популярных вопросов с собеседований и ответы на них» Анкета предзаписи: https://vk.cc/cO375f
Курс «База ML»: https://clck.ru/3P2o93
Курс «ML в бизнесе»: https://clck.ru/3P2oHy
Telegram MLinside: https://t.me/+xPCRRLylQh5lMmI6
Статья из видео: https://arxiv.org/abs/1706.03762
Искусственный интеллект, который пишет тексты, переводит языки, создаёт музыку и даже ведёт диалог, работает благодаря одной идее — механизму Attention. Эта концепция изменила машинное обучение и стала основой трансформеров и ChatGPT. Но как Attention устроен внутри? И зачем каждому ML-инженеру важно понимать его работу? Андрей Жогов — ML-инженер в Сбере и преподаватель Физтеха — простыми словами объясняет, что такое Attention, почему он решает проблему «забывания» в нейросетях и как стал фундаментом современных LLM. В этом видео: • Проблема старых моделей (RNN) и как её решил Attention • Интуитивные примеры: вечеринка и библиотека для понимания механизма внимания • Формула Attention (Q, K, V) объяснена пошагово и без лишней математики • Self-Attention, Cross-Attention и Masked Self-Attention — где они применяются • Как Attention используется в трансформерах и ChatGPT • Зачем знания про Attention спрашивают на собеседованиях по Data Science / ML Подходит тем, кто: • готовится к собеседованию на ML/Data Science • учит основы нейросетей и хочет понять трансформеры • интересуется современными ИИ-моделями и ChatGPT Это часть серии MLinside — честно, по делу и без лишней воды. Таймкоды: 00:00 — Как одна идея изменила искусственный интеллект 00:38 — Проблема RNN: почему модели «забывают» начало текста 01:14 — Как Attention решает проблему забывания 02:29 — Q, K, V: интуитивное объяснение механизма внимания 04:22 — Формула Attention пошагово: от матриц к вероятностям 06:08 — Self, Cross и Masked Attention: где применяются 08:59 — Итоги: почему Attention — фундамент трансформеров и ChatGPT

Смотрите также