G
enby!

Разбираемся с Mixture-of-Experts (MoE) моделями и техниками их запуска на слабом железе (часть 3)

Активист Иван Толстошеев специально для ilovedocs снял цикл видео о том, как установить и использовать локальные модели на личном или рабочем ноутбуке. Локальные модели нужны для обработки данных, которые вы не готовы предоставлять публичным моделям. Иван показывает, что они могут работать в домашних условиях и быть достаточно эффективными. В этом выпуске разбираемся с Mixture-of-Experts (MoE) моделями и техниками их запуска на слабом железе. С помощью специальных флагов в llama.cpp выгружаем "экспертов" в оперативную память, освобождая видеопамять для самого важного - контекста. Сравниваем две модели: GPT OSS и Qwen3-30B-A3B. Результаты теста Qwen3-30B-A3B: Скорость генерации: ~20 т/сек Гибкий контекст: Демонстрирую, как увеличить окно до 26к+ токенов, лишь немного пожертвовав скоростью Качество: Отличный русский язык и корректное решение логических задач. Вывод: MoE — отличный компромисс между размером модели, скоростью и доступным железом. Даже на старом ноутбуке можно комфортно работать с большими документами. В следующих видео - разбор многопользовательского режима. Соцсети ilovedocs: https://t.me/ilovedocs
https://t.me/docsllm
Канал Ивана: https://t.me/nearlytheru
В канале и чате - тысячи единомышленников, нейросетевой журнал, подборки промптов, онбординг-FAQ, трансляции, много общения и опыта. #ChatGPT #юристы

Смотрите также