·6 فروردین 1404·1

ChatGPT جدید رونمایی شد: تولید تصاویر پیچیده در یک چشم‌به‌هم‌زدن

OpenAI همواره قابلیت‌های ChatGPT را گسترش داده است، از جمله افزودن دستیار صوتی هوش مصنوعی، درک فایل‌ها و تصاویر، قابلیت‌های پیشرفته‌ی تحقیقاتی، عامل‌های هوش مصنوعی (AI agents) و موارد دیگر. بااین‌حال، یک خلأ بزرگ در میان این ویژگی‌ها وجود داشت: یک تولیدکننده تصویر واقعاً قدرتمند.

روز سه‌شنبه، OpenAI قابلیت تولید تصویر با GPT-4o را معرفی کرد. این مدل تصویری به‌طور قابل توجهی بهتر – اما کندتر – از مدل‌های DALL-E است که قبلاً توسط OpenAI ارائه شده بودند. این مدل ChatGPT جدید می‌تواند درخواست‌های پیچیده را، مانند تولید تصاویر واقع‌گرایانه و حتی متون دقیق درون تصاویر، به‌خوبی پردازش کند.

فهرست عناوین نمایش

ارتقای قابل توجه در تولید تصویر

در یکی از دموی پخش زنده، سم آلتمن، مدیرعامل OpenAI، به همراه پژوهشگران گابریل گو و پرافولا دهاریوال، مدل GPT-4o را برای تولید یک عکس از زاویه دید خاص با یک بروشور حاوی متن زیاد آزمایش کردند. پس از چند ثانیه پردازش، مدل نه‌تنها ترکیب سینمایی درستی ارائه داد، بلکه تمامی متن‌ها را به‌دقت نمایش داد.

قابلیت‌های جدید:
GPT-4o علاوه بر بهبود کیفیت تصویر، ویژگی‌هایی دارد که در مدل‌های قبلی OpenAI وجود نداشتند، از جمله:

تولید نسخه‌های متفاوت از یک تصویر (مثلاً تبدیل یک تصویر به سبک انیمه یا سلفی)
پس‌زمینه شفاف و استفاده از رنگ‌های خاص بر اساس کد HEX
امکان ترکیب تولید تصویر با قابلیت‌های پیشرفته‌ی چت (مثلاً، اگر از مدل بخواهید “عنصر طنز” به تصویر اضافه کند، می‌تواند این درخواست را با قرار دادن متن یا جزئیات مناسب برآورده کند)

یکی از ویژگی‌های جالب دیگر این است که کاربران می‌توانند از طریق مکالمات چندمرحله‌ای تصویر را اصلاح کرده و نسخه‌های بهتری از آن را ایجاد کنند. از آنجا که GPT-4o به اینترنت دسترسی دارد، می‌تواند با در نظر گرفتن زمینه‌های قبلی، تصاویر جدیدی خلق کند.

دقت در اجرای دستورات:
مدل GPT-4o می‌تواند بین ۱۰ تا ۲۰ شیء مختلف را در یک تصویر قرار دهد، بنابراین کاربران قادر خواهند بود درخواست‌هایی با جزئیات زیاد را اجرا کنند.

تغییر در محدودیت‌های محتوایی

یکی از تغییرات مهم در این مدل جدید، کاهش برخی محدودیت‌ها در تولید محتوا است، مشابه آنچه مدل Grok ایلان ماسک ارائه می‌دهد. در پخش زنده، آلتمن اظهار داشت که قابلیت جدید می‌تواند محتوای حساس‌تری تولید کند، اما “در حد معقول.” او در پستی در شبکه اجتماعی X نوشت:

«هدف ما این است که ابزار چیزی توهین‌آمیز تولید نکند، مگر اینکه کاربر بخواهد، که در این صورت، در حد معقول انجام شود. ما معتقدیم که آزادی فکری و کنترل این ابزار در دستان کاربران قرار گیرد، اما نظارت خواهیم کرد و بازخورد جامعه را در نظر خواهیم گرفت.»

بااین‌حال، OpenAI تأکید کرده است که درخواست‌هایی که سیاست‌های محتوایی را نقض می‌کنند، مسدود خواهند شد. این شامل تصاویر سوءاستفاده از کودکان و دیپ‌فیک‌های جنسی است. همچنین، محدودیت‌هایی در تولید تصاویر با افراد واقعی در نظر گرفته شده که شامل محافظت‌های شدید در برابر نمایش برهنگی و خشونت گرافیکی است.

چگونه به این قابلیت ChatGPT جدید دسترسی داشته باشیم؟

ویژگی‌های جدید تولید تصویر از امروز در ChatGPT و Sora در حال عرضه هستند. همه‌ی کاربران – حتی کاربران رایگان – می‌توانند از GPT-4o برای تولید تصویر استفاده کنند. اگر کسی بخواهد همچنان از مدل DALL-E استفاده کند، این گزینه از طریق یک GPT اختصاصی در دسترس خواهد بود. کاربران سازمانی و آموزشی نیز به‌زودی به این قابلیت دسترسی پیدا خواهند کرد، و توسعه‌دهندگان نیز طی هفته‌های آینده از طریق API به آن دسترسی خواهند داشت.