Видео
Текстовые рассуждения движут моделями «Видение–Язык»

Текстовые рассуждения движут моделями «Видение–Язык»

• AI Reasoning is Textual, not VISUAL #super... Источник представляет собой выдержки из стенограммы видео с YouTube-канала «Discover AI», где обсуждается новое исследование в области искусственного интеллекта, проведенное Meta Super Intelligence. В видео рассматривается, как создаются зрительно-языковые модели, основываясь на ранее опубликованных работах Cornell University о переводе текстовых эмбеддингов между векторными пространствами. Основной вывод исследования заключается в том, что для создания высокопроизводительной модели необходимо, чтобы логическое мышление, основанное на таких данных, как код, математика и научные статьи, составляло до 75% данных предварительного обучения. Исследование показывает, что для эффективной работы ИИ требуется лишь минимальное количество данных с визуальным описанием, поскольку логика рассуждений в основном формируется в текстуальном векторном пространстве.

Текстовые рассуждения движут моделями «Видение–Язык»

Смотрите также