G
enby!

Бенчмарки для ИИ-агентов: перспективы, проблемы, безопасность

Из доклада вы узнаете: О популярных зарубежных бенчмарках по оценке ИИ Агентов Тренды в оценки ИИ агентов Вызовы в оценках ИИ агентов Как проверить ИИ агента на безопасность Тайм-коды, чтобы быстро прыгать к нужному куску: 00:00 Интро (ведущий) 01:34 Зачем вообще оценивать ИИ-агентов 02:28 Зарубежные бенчмарки и свежие тренды 06:03 Главные проблемы существующих метрик 08:20 Почему LLM «зазубривают» бенчмарки 13:50 Популярные агент-бенчмарки (SWBench, TBench и др.) 17:40 Четыре ключевых навыка, которые сейчас проверяют 18:22 Безопасность и оценка рисков 22:44 Итоги и практические советы 23:48 Вопросы и ответы (Q&A)

Смотрите также