G
enby!

Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач

В этом выступлении Роман Куцев (founder LLMarena.ru) простыми словами разбирает, почему популярные бенчмарки вводят в заблуждение, как из-за устаревших/скомпрометированных датасетов и «взломов» метрик модели попадают в топ, и что реально делать компаниям, чтобы измерять ценность LLM под конкретные задачи. Что внутри: • Обзор типов оценок: «оценка модели» vs «оценка системы» — и чем они отличаются с точки зрения пользы для бизнеса. • Популярные бенчмарки и где они пригодны/бесполезны: MMLU / MMLU-PRO, GSM8K, HumanEval/SWE-bench, MT-Bench, Chatbot Arena, LMSYS Arena Hard Auto, Ru Arena Hard, SLAVA, MERA и др. • Классические проблемы: переобучение и утечки, позиционный/«многословный» и self-bias в LLM-as-a-judge, атаки на авто-бенчмарки и накрутка. • Как построить кастомный бенчмарк под свою задачу: выбор метрик (Accuracy/F1/ROUGE/BLEU/BERTScore, NLI-Score, LLM-assisted оценки), сбор датасета, интеграция в CI/CD. • Инструменты и фреймворки: LM Evaluation Harness, Stanford HELM, PromptBench, DeepEval, RAGAS/ARES, Giskard, Promptfoo, LangFuse, Weights & Biases, Azure AI Studio. Кому будет полезно: CPO/CTO/Head of Data/ML инженерам, продактам и всем, кто выбирает/встраивает LLM в продукты, чат-боты и RAG-системы. TL;DR: Публичные лидерборды — хороший ориентир, но бизнес-ценность измеряется на ваших данных и метриках. Сделайте собственный бенчмарк и автоматизируйте оценку в пайплайне. 00:00 — Вступление: почему бенчмарки «врут» 02:37 — Что измеряют лидерборды (и чего не видят) 05:14 — «Правильный ответ» ≠ ценность для бизнеса 07:51 — Реальные задачи: модерация, суммаризация и др. 10:27 — Бизнес-метрики: скорость, стоимость, time-to-market 13:04 — Как «накручивают» закрытые бенчмарки (ловушки) 15:41 — Инструменты оценки: LM Evaluation Harness, атаки 18:18 — Выбор моделей под русский: OSS vs коммерческие

Смотрите также