Расшифровка разума ИИ: наука об интерпретируемости
Данный текст представляет собой анализ текущих проблем в работе больших языковых моделей (LLM) при использовании инструментов (MCP tool use), в частности, поисковых систем. Он подчеркивает низкую производительность LLM при выполнении задач, требующих внешней информации, и представляет исследование Search R1, которое использует обучение с подкреплением (RL) для повышения способности LLM эффективно взаимодействовать с поисковыми системами. В тексте также объясняются технические детали, такие как маскирование потерь и регуляризация Кульбака-Лейблера, используемые для стабилизации обучения и предотвращения нежелательного копирования LLM содержимого из найденных источников.