متا هوش مصنوعی Llama 3.2 را معرفی کرد

متا تنها دو ماه پس از عرضه مدل قبلی هوش مصنوعی خود، با معرفی Llama 3.2، نخستین مدل متن‌باز و چندوجهی خود که علاوه بر پردازش متون، قادر به پردازش تصاویر، جداول، نمودارها و کپشن عکس‌ها است، بازگشته است.

مدل جدید Llama 3.2 به توسعه‌دهندگان این امکان را می‌دهد تا اپلیکیشن‌های هوش مصنوعی پیشرفته‌ای مانند اپلیکیشن‌های واقعیت مجازی، موتورهای جستجوی بصری که تصاویر را بر اساس محتوا مرتب می‌کنند، یا ابزارهایی برای تحلیل اسناد و خلاصه‌سازی متون طولانی بسازند. این مدل می‌تواند به‌طور همزمان با داده‌های متنی و تصویری کار کند و این ویژگی‌ها باعث می‌شود تا توسعه‌دهندگان با اضافه کردن حالت چندوجهی جدید، امکان تعامل با تصاویر و فایل‌های بصری را فراهم کنند.

با توجه به اینکه شرکت‌های OpenAI و گوگل پیش‌تر مدل‌های چندوجهی خود را معرفی کرده بودند، متا با Llama 3.2 تلاش می‌کند تا از رقبا عقب نماند و به جایگاه بهتری دست یابد. افزودن قابلیت پردازش تصویر به این مدل، نقشی کلیدی در آینده برنامه‌های متا ایفا می‌کند؛ چراکه این شرکت در حال توسعه هوش مصنوعی برای سخت‌افزارهایی مانند عینک‌های هوشمند متا ری‌بن است.

مدل Llama 3.2 در دو نسخه بینایی (با 11 و 90 میلیارد پارامتر) و دو نسخه متنی (با 1 و 3 میلیارد پارامتر) عرضه شده است. نسخه‌های کوچک‌تر این مدل به‌گونه‌ای طراحی شده‌اند که بتوانند با سخت‌افزارهای کوالکام، مدیاتک و سایر دستگاه‌های مبتنی بر آرم کار کنند و متا احتمالاً در نظر دارد این مدل‌ها را به گوشی‌های هوشمند نیز وارد کند.

متا اعلام کرده است که Llama 3.2 در زمینه تشخیص تصویر و درک عناصر بصری، رقیبی جدی برای مدل‌های Claude 3 Haiku از انتروپیک و GPT4o-mini از OpenAI است. با این حال، در حوزه‌هایی مانند دنبال‌کردن دستورات، خلاصه‌سازی محتوا و بازنویسی پرامپت، عملکرد بهتری نسبت به مدل‌های Gemma و Phi 3.5-mini دارد.

این مدل‌ها هم‌اکنون از طریق وب‌سایت Llama.com و پلتفرم‌های همکار متا مانند Hugging Face در دسترس هستند.