هوش مصنوعی اپل

مدل SHARP اپل می‌تواند یک عکس را در کمتر از یک ثانیه به یک صحنه سه‌بعدی تبدیل کند

توسعه‌های هوش مصنوعی اپل در ماه‌های اخیر بارها با تمسخر مواجه شده‌اند، اما آیا این غول کوپرتینویی می‌تواند به‌عنوان یک غافلگیری جدی، به یکی از پیشگامان هوش مصنوعی در حوزه‌ی سه‌بعدی تبدیل شود؟ شرکت‌های فناوری متعددی در حال تحقیق روی ابزارهایی هستند که ساخت صحنه‌ها، محیط‌ها و «دوقلوهای دیجیتال» سه‌بعدی را ساده‌تر و سریع‌تر کنند و اپل حالا یک جهش قابل توجه در این مسیر برداشته است.

SHARP یک مدل آزمایشی هوش مصنوعی است که می‌تواند تصاویر دوبعدی را به‌سرعت به «Gaussian Splat»های سه‌بعدی تبدیل کند؛ خروجی‌هایی که امکان مشاهده آن‌ها روی هدست Vision Pro وجود دارد. برخی معتقدند ترکیب سخت‌افزار و نرم‌افزار اختصاصی اپل می‌تواند این شرکت را در توسعه‌ی گردش‌کارهای سه‌بعدی مبتنی بر هوش مصنوعی در موقعیت برتری قرار دهد.

یکی از کاربران نوشته است: «افراد زیادی توانایی اپل در هوش مصنوعی را دست‌کم می‌گیرند. من مدل جدید SHARP اپل را به‌صورت لوکال اجرا کردم و دیدم عکس‌هایم در عرض چند ثانیه به Gaussian Splatهای سه‌بعدی تبدیل شدند و بعد داخل آن‌ها، روی Vision Pro قدم زدم. این تجربه حس آغاز چیزی خاص را دارد. واقعاً باید آن را امتحان کرد.»

هوش مصنوعی اپل

برخلاف مدل‌سازی سنتی مبتنی بر پلی‌گون، تکنیک Gaussian Splatting از میلیون‌ها بیضی سه‌بعدی با موقعیت، اندازه، جهت‌گیری، رنگ و شفافیت مشخص استفاده می‌کند تا صحنه‌های سه‌بعدی بسیار پیچیده را به‌صورت بلادرنگ رندر کند؛ به‌گونه‌ای که از یک زاویه‌ی دید مشخص، بسیار دقیق و واقع‌گرایانه به نظر برسند.

بیشتر روش‌های موجود برای بازسازی سه‌بعدی، به تعداد زیادی تصویر از یک صحنه و از زوایای مختلف نیاز دارند؛ گاهی حتی صدها عکس. اما SHARP اپل با استفاده از هوش مصنوعی، تنها از روی یک عکس و در کمتر از یک ثانیه روی یک GPU معمولی، صحنه را پیش‌بینی می‌کند.

اپل این مدل را با حجم بزرگی از داده‌های مصنوعی و واقعی آموزش داده تا الگوهای رایج عمق و هندسه را شناسایی کند. به این ترتیب، SHARP می‌تواند موقعیت و ظاهر Gaussianهای سه‌بعدی را تنها با یک عبور رو به جلوی شبکه‌ی عصبی پیش‌بینی کند.

طبق مقاله‌ی پژوهشی منتشرشده، فاصله‌ها و مقیاس‌ها در این روش با دنیای واقعی هم‌خوانی دارند. این نمایش سه‌بعدی «متریک» است و از مقیاس مطلق پشتیبانی می‌کند؛ موضوعی که امکان حرکت دوربین بر پایه‌ی واحدهای واقعی را فراهم می‌سازد.

با این حال، محدودیت SHARP در این است که تنها نماهای نزدیک به زاویه‌ی دید اولیه را به‌دقت رندر می‌کند و بخش‌های دیده‌نشده‌ی صحنه را بازسازی نمی‌کند. به همین دلیل، کاربر نمی‌تواند فاصله‌ی زیادی از نقطه‌ی دید اصلی بگیرد.

با انتشار کد SHARP روی گیت‌هاب، کاربران مختلف شروع به آزمایش این ابزار کرده‌اند و نتایج خود را در شبکه‌های اجتماعی به اشتراک گذاشته‌اند. برخی نیز درباره‌ی انتخاب تصویر یک اسب به‌عنوان نمونه‌ی معرفی این مدل از سوی اپل ابراز تعجب کرده‌اند.

به‌طور خلاصه، مدل SHARP اپل می‌تواند نمایش‌های سه‌بعدی Gaussian کاملاً فوتورئال را تنها از روی یک تصویر و در عرض چند ثانیه تولید کند. این مدل با رگرس‌کردن پارامترهای Gaussian سه‌بعدی از طریق یک عبور واحد شبکه‌ی عصبی، امکان «سنتز نمای جدید» (NVS) فوتورئال را از یک عکس فراهم می‌کند؛ آن هم در کمتر از یک ثانیه روی GPUهای استاندارد.