Разбираемся с Mixture-of-Experts (MoE) моделями и техниками их запуска на слабом железе (часть 3)
                        
                        Активист Иван Толстошеев специально для ilovedocs снял цикл видео о том, как установить и использовать локальные модели на личном или рабочем ноутбуке. Локальные модели нужны для обработки данных, которые вы не готовы предоставлять публичным моделям. Иван показывает, что они могут работать в домашних условиях и быть достаточно эффективными.  В этом выпуске разбираемся с Mixture-of-Experts (MoE) моделями и техниками их запуска на слабом железе. С помощью специальных флагов в llama.cpp выгружаем "экспертов" в оперативную память, освобождая видеопамять для самого важного - контекста. Сравниваем две модели: GPT OSS и Qwen3-30B-A3B.  Результаты теста Qwen3-30B-A3B: Скорость генерации: ~20 т/сек Гибкий контекст: Демонстрирую, как увеличить окно до 26к+ токенов, лишь немного пожертвовав скоростью Качество: Отличный русский язык и корректное решение логических задач.  Вывод: MoE — отличный компромисс между размером модели, скоростью и доступным железом. Даже на старом ноутбуке можно комфортно работать с большими документами.  В следующих видео - разбор многопользовательского режима.  Соцсети ilovedocs: https://t.me/ilovedocs
 https://t.me/docsllm
  Канал Ивана: https://t.me/nearlytheru
  В канале и чате - тысячи единомышленников, нейросетевой журнал, подборки промптов, онбординг-FAQ, трансляции, много общения и опыта.  #ChatGPT #юристы    
                    
                    
 
  
             
  
             
  
             
  
             
  
             
  
             
  
             
  
            