Константин Крестников MCP Think Tool добавляем мышление любому AI агенту ODS AI Ru 1080p, h264
Константин Крестников | MCP Think-Tool: добавляем мышление любому AI-агенту. Выступление на Data Fest 2025: https://ods.ai/events/datafest2025
Подписывайтесь на мой Telegram канал: https://t.me/robofuture
Доклад посвящен Model Context Protocol (MCP) от Antropic — "USB 2.0 для агентов", который позволяет легко подключать внешние инструменты (тулы), данные и промпты к универсальным AI-агентам (например, GigaChat или Copilot). Основное достижение — разработка Think-Tool. Это MCP-сервер, который, несмотря на использование внутри простой заглушки, заставляет не-Reasoning модели (как GigaChat Max 2) эмулировать размышления (планирование и рефлексию), требуя от них прописывать свои мысли. Использование Think-Tool привело к значительному росту метрик агентов на сложных задачах (математика, физика). 0:00 Вступление и приветствие. Представление Константина Кресникова, анонс доклада о MCP и исследованиях по созданию Reasoning-моделей. Предупреждение о большом количестве примеров кода. 0:45 Развитие агентов: вертикальные vs. универсальные. Обсуждение узкоспециализированных (вертикальных) агентов и возвращение к универсальным (горизонтальным), таким как Chat GPT. Прогноз, что пользователи будут переходить на универсальных агентов, которые станут универсальным интерфейсом к миру. 2:05 Что такое MCP (Model Context Protocol). Определение протокола от Antropic, который позволяет легко подключать к агенту внешние инструменты, источники данных, промпты и ресурсы. Позиционирование MCP как "USB 2.0 для агентов". 2:45 Архитектура агента с MCP. Компоненты MCP: MCP-клиент и MCP-сервер. Базовая структура React-агента, встроенные тулы и подключение MCP-серверов (по протоколам STDО и HTTP). 3:30 Экосистема MCP-серверов. Где брать агентов (Cursor, Copilot, Chat GPT, GigaChat) и MCP-сервера. Репозитории MCP-серверов на GitHub (OSOM MCP, репозиторий Antropic). 4:30 Пример подключения MCP к GitHub Copilot. Использование MCP config для изменения поведения Copilot. Подключение первого сервера (MCPD) для доступа к внешней документации (LangChain). 5:30 Подключение дополнительных MCP-серверов. Второй сервер для синтеза и воспроизведения речи (Solute Speech TTS). Третий конфиг для текстовых инструкций, определяющих моменты использования MCP-серверов. 6:30 Демонстрация работы Copilot с MCP. Агент использует MCP для RAG (поиск по внешней документации LangChain) и корректно отвечает на вопрос о реализации Human-in-the-Loop. 7:45 Проект GigaChain. Набор решений для создания LM-приложений и AI-агентов с GigaChat. SDK, LGraph, инструменты и MCP-серверы от GigaChain. 8:30 Создание MCP-сервера (пример кода). Исчерпывающий код MCP-сервера "Математика" (сложение чисел). Демонстрация возврата структурированных данных (Pydantic модель) на примере функции Find Person. 10:00 Создание MCP-клиента (агента). Код агента на GigaChat 2 Max с использованием LangGraph, который получает список тулов из подключённых MCP-серверов (Client Get Tools). 11:00 Диалог с агентом. Демонстрация использования MCP-серверов (Find Person, тул для умножения), подтверждающая срабатывание памяти и корректный вызов тулов. 12:20 Концепция Think-Tools. Как дать не-Reasoning модели инструмент "Подумай" с заглушкой для эмуляции размышлений и достижения роста метрик без фактического обучения. 13:30 Эксперимент с Think-Tool на GigaChat. Решение сложной задачи (сравнение прибыли трех компаний). Агент использует тул планирования (Plan) и последовательно рефлексирует (Think) после каждого шага поиска, что приводит к идеальному ответу. 16:00 Think-Tool как MCP-сервер. Упаковка Think-Tool в MCP (опубликован в OSOM MCP Servers). Пример сложной задачи (деление яблок), решенной Курсором после подключения Think-Tool. 17:15 Другие полезные MCP-серверы от GigaChain. Перечисление разработанных серверов: Think MCP, MCP GigaChecker, MCP для Кандинского (генерация PNG), MCP Салют Спич. 17:50 Замер качества агентов (Evaluation). Инструменты для оценки: LLM-IT (платное, передовое) и Phoenix (бесплатный Open Source). 18:50 Проведение экспериментов и оценка. Загрузка датасета (математические задачи), определение функции проверки ответа, прогон тестов через evaluate. 20:00 Результаты Think-Tool на бенчмарках. На математическом датасете GigaChat Max 2 с Think-Tool (~90%) догнал GPT O3. Значительный прирост на вопросах по физике (бенчмарк Десмат). Вывод: подход интересный и может привести к росту метрик. 21:30 Вопросы и ответы (Q&A).