G
enby!

RAG без ембедингов | R77 AI x Николай Шейко

https://t.me/r77_ai
— наш канал https://r77.ai
— наш сайт http://t.me/savinvlad
— по проектам и RAG http://t.me/oestick
— Канал Николая "В индустрии давно укоренилось мнение, что Retrieval-Augmented Generation (RAG) = эмбеддинги. Но что, если поиск по эмбеддингам — не всегда лучшее решение? В этом вебинаре я расскажу, как можно строить RAG без единого эмбеддинга, используя только легкие LLM с structured output. Например, я запускал LLM поверх сырого контента (вроде PDF), разбивал его на страницы и делал классификацию релевантности прямо в модели. Такой способ давал ощутимо лучшее качество, особенно когда нужна агрегация". Мы обсудим: • Почему эмбеддинги часто не работают так, как хочется • Как использовать LLM как search engine без векторных БД • Что такое structured output и как он помогает • Кейсы, где подход без эмбеддингов оказался сильнее (вплоть до призовых мест на Enterprise RAG Challenge) • Когда всё же стоит вернуться к классике с векторками. 00:00:00 Введение и представление Николая 00:01:44 Начало обсуждения 00:02:44 Основы RPA 00:04:15 Процесс поиска и генерации ответа 00:07:18 Принципы релевантности 00:10:05 Проблемы и решения 00:12:37 Пример проблемы 00:13:31 Анализ релевантности текстов 00:13:58 Кейс про специфичность 00:14:31 Проблемы с косинусной схожестью 00:15:31 Ограничения эмбеддингов 00:16:31 Логика и отрицание 00:19:43 Структурированные запросы 00:21:15 Перестановки и доступ к базе данных 00:24:45 Анализ телеграм-канала 00:27:24 Вопросы по пользовательским запросам 00:27:59 Описание аудитории и абстрактные запросы 00:29:30 Викторизация и контекст 00:30:10 Проблемы с имбедингами в продакшене 00:31:47 Ограничения базы данных 00:32:44 Ограничения чата GPT 00:34:19 Альтернативный подход с LLM 00:36:45 Стоимость и рейл-лимиты 00:38:27 Улучшения на последнем этапе 00:40:20 Анализ документов с помощью LLM 00:41:33 Сбор контекста 00:42:31 Упрощение системы 00:43:56 Критерии ответа 00:44:54 Оптимизация запросов 00:46:37 Работа с большими объёмами данных 00:47:33 Иерархический подход 00:49:25 Стоимость роутинговых запросов 00:50:24 Подход к поиску данных 00:52:32 Проблемы с извлечением информации 00:54:27 Работа с диалогами и чатами 00:55:59 Время ответа и локальное развёртывание 00:57:37 Работа с нетекстовыми данными 00:58:24 Предобработка данных 01:01:46 Ограничения и применение подхода 01:03:16 Обработка PDF-отчётов с помощью LEM 01:04:12 Логические и фактологические шаги 01:05:00 Улучшение системы через понимание задачи 01:05:49 Использование тегов для фильтрации документов 01:06:39 Проблемы с архитектурой тегов 01:07:30 Сравнение подходов к поиску 01:09:19 Формирование вопросов 01:09:54 Переписывание вопросов и документов 01:10:50 Подход Hight

Смотрите также