Почему бенчмарки лгут? Как правильно оценить LLM для бизнес-задач — Роман Куцев, Founder LLM Arena
◼️ Полезно про AI в нашем Telegram-канале: http://t.me/aitalenthubnews
◼️ AI Talent Hub: https://ai.itmo.ru/?utm_source=youtub...
Лекция курса «Безопасность ИИ» в AI Talent Hub Эксперт: Роман Куцев – Founder LLM Arena, Ex-Founder TrainingData Тайм-коды: 00:03 Введение и опыт 01:53 Что такое бенчмарк 02:48 MLU 06:31 MLU Pro 08:30 Динамические бенчмарк 10:21 Слава 11:19 Российские бенчмарки 19:41 Проблемы и решения 24:20 Проблемы с LMS и BCHMK 26:13 Закрытые и динамические бенчмарки 28:07 Создание кастомных бенчмарков 29:57 Оценка систем и фреймворки 34:59 Будущее бенчмарков 36:51 Методы и функции LLM 39:17 Paper Bench и PageY 40:13 Фановые бенчмарки и их популярность 42:18 Экспертная разметка данных 43:15 Процесс разметки данных 48:57 Разметчики и эксперты 50:49 Трансформация рынка разметки 53:28 Белые данные и мультимодальность 56:16 Бенчмарки и их бизнес-модели 59:04 Заключение