Как оценивать и улучшать ответы генеративных моделей
Рассказали и показали, как системно подходить к оценке качества моделей, подбору промтов, отладке пайплайнов и трейсингу. Эти задачи становятся всё более актуальными в мире растущего числа LLM- и VLM-моделей. Вы узнаете, как: использовать опенсорсные фреймворки в Yandex Foundation Models; внедрять LLM-as-a-Judge для разметки плохих и хороших ответов; сравнивать ответы разных моделей для вашей задачи. Вебинар полезен разработчикам, которые интегрируют языковые модели в собственные приложения, а также всем тем, кто хочет разобраться, какие из доступных моделей лучше справляются на конкретной задаче. 00:00 Введение и контекст (Кирилл Власов) 01:30 Различия между классическим тестированием и оценкой поведения LLM (Кирилл Власов) 02:42 Проблемы внедрения генеративного ИИ (Кирилл Власов) 04:20 Что важно оценивать при работе с LLM (Кирилл Власов) 05:21 Три ключевых подхода к работе с генеративным ИИ (Кирилл Власов) 08:06 Введение в DSPy (Кирилл Власов) 09:19 Основные компоненты архитектуры (Кирилл Власов) 11:24 MIPROv2 для оптимизации промтов (Кирилл Власов) 13:58 Пайплайны оценки (Кирилл Власов) 15:49 Подходы к оценке (Кирилл Власов) 16:08 Эвристические правила (Кирилл Власов) 16:38 Статистические метрики (Кирилл Власов) 19:31 Ограничения статистических метрик (Кирилл Власов) 20:14 Комбинированные метрики (Кирилл Власов) 21:45 Оценка качества модели человеком (Кирилл Власов) 23:48 Оценка по критериям (Кирилл Власов) 24:37 Разница в оценках человеком и LLM (Кирилл Власов) 26:01 Prometheus-Eval (Кирилл Власов) 28:55 G-Eval (Кирилл Власов) 30:15 Сравнение Prometheus-Eval и G-Eval (Кирилл Власов) 31:14 Библиотека готовых промтов (Кирилл Власов) 32:14 Batch mode в Foundation models (Кирилл Власов) 33:35 Bias и несогласованность оценок (Кирилл Власов) 36:07 LifeHack: интеграция с DSPy (Кирилл Власов) 36:47 Tracing (Кирилл Власов) 38:31 Что логировать и как использовать (Кирилл Власов) 39:09 Библиотека Langfuse (Кирилл Власов) 39:43 Выводы (Кирилл Власов) 42:14 Ответы на вопросы (Кирилл Власов)