Александр Голубев - Воркшоп по LLM + RLHF
Для чего нужен RLHF Примеры работы модели в диалоговом режиме без SFT и RL fine-tuning Как тюнить большие модели на одной карте SFT fine-tuning Обучение RM Дообучение модели с PPO Демонстрация результатов было vs стало Разбор концепций, которые использовали в ходе обучения (LoRA adapters, Int8 quantization, PPO, RM training loss, …) Cсылка на ноутбук: https://colab.research.google.com/dri...
Data Fest 2023: https://ods.ai/events/datafestonline2023
Трек "Instruct Models": https://ods.ai/tracks/df23-instruct-m...
Наши соц.сети: Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest