G
enby!

Qwen3-VL New Vision AI лучше, чем Gemini 2.5 Pro Visual Agent, протестировано распознавание симво...

https://x.com/Alibaba_Qwen/status/197...
🚀 Мы рады представить Qwen3-VL — самую мощную модель с визуальным языком в серии Qwen! 🔥 Флагманская модель Qwen3-VL-235B-A22B теперь с открытым исходным кодом и доступна в версиях Instruct и Thinking: ✅ Instruct превосходит Gemini 2.5 Pro по ключевым показателям машинного зрения ✅ Thinking достигает высочайшего уровня производительности (SOTA) в задачах мультимодального мышления ✨ Ключевые достижения: 🖥️ Visual Agent: работает с графическим интерфейсом на ПК/телефоне — распознаёт кнопки, вызывает инструменты и выполняет реальные задачи (SOTA в OS World) 💻 Visual Coding: преобразует скриншоты в код (HTML/CSS/JS, http://Draw.io)
— настоящая разработка по принципу «что видишь, то и получаешь» 📚 Более 256 КБ контекста (масштабируется до 1 МБ) → поддерживает двухчасовые видео и многостраничные PDF-файлы 🌍 Оптическое распознавание символов (OCR) на 32 языках с повышенной надёжностью для размытых, наклонных или редких символов. 📐 Расширенное пространственное мышление: 2D → относительные координаты, 3D-привязка, обработка окклюзии и понимание перспективы. 🧠 Режим мышления: Лидирующие показатели в STEM/математикe — обеспечивает глубокое причинно-следственное мышление. 🔤 Возможности работы с текстом не уступают лучшим программам магистратуры права (LLM) — прочная языковая основа обеспечивает мультимодальное превосходство. От «видения» к «пониманию», от «распознавания» к «рассуждению и действию».

Смотрите также