توسعههای هوش مصنوعی اپل در ماههای اخیر بارها با تمسخر مواجه شدهاند، اما آیا این غول کوپرتینویی میتواند بهعنوان یک غافلگیری جدی، به یکی از پیشگامان هوش مصنوعی در حوزهی سهبعدی تبدیل شود؟ شرکتهای فناوری متعددی در حال تحقیق روی ابزارهایی هستند که ساخت صحنهها، محیطها و «دوقلوهای دیجیتال» سهبعدی را سادهتر و سریعتر کنند و اپل حالا یک جهش قابل توجه در این مسیر برداشته است.
SHARP یک مدل آزمایشی هوش مصنوعی است که میتواند تصاویر دوبعدی را بهسرعت به «Gaussian Splat»های سهبعدی تبدیل کند؛ خروجیهایی که امکان مشاهده آنها روی هدست Vision Pro وجود دارد. برخی معتقدند ترکیب سختافزار و نرمافزار اختصاصی اپل میتواند این شرکت را در توسعهی گردشکارهای سهبعدی مبتنی بر هوش مصنوعی در موقعیت برتری قرار دهد.
یکی از کاربران نوشته است: «افراد زیادی توانایی اپل در هوش مصنوعی را دستکم میگیرند. من مدل جدید SHARP اپل را بهصورت لوکال اجرا کردم و دیدم عکسهایم در عرض چند ثانیه به Gaussian Splatهای سهبعدی تبدیل شدند و بعد داخل آنها، روی Vision Pro قدم زدم. این تجربه حس آغاز چیزی خاص را دارد. واقعاً باید آن را امتحان کرد.»

برخلاف مدلسازی سنتی مبتنی بر پلیگون، تکنیک Gaussian Splatting از میلیونها بیضی سهبعدی با موقعیت، اندازه، جهتگیری، رنگ و شفافیت مشخص استفاده میکند تا صحنههای سهبعدی بسیار پیچیده را بهصورت بلادرنگ رندر کند؛ بهگونهای که از یک زاویهی دید مشخص، بسیار دقیق و واقعگرایانه به نظر برسند.
بیشتر روشهای موجود برای بازسازی سهبعدی، به تعداد زیادی تصویر از یک صحنه و از زوایای مختلف نیاز دارند؛ گاهی حتی صدها عکس. اما SHARP اپل با استفاده از هوش مصنوعی، تنها از روی یک عکس و در کمتر از یک ثانیه روی یک GPU معمولی، صحنه را پیشبینی میکند.
اپل این مدل را با حجم بزرگی از دادههای مصنوعی و واقعی آموزش داده تا الگوهای رایج عمق و هندسه را شناسایی کند. به این ترتیب، SHARP میتواند موقعیت و ظاهر Gaussianهای سهبعدی را تنها با یک عبور رو به جلوی شبکهی عصبی پیشبینی کند.
طبق مقالهی پژوهشی منتشرشده، فاصلهها و مقیاسها در این روش با دنیای واقعی همخوانی دارند. این نمایش سهبعدی «متریک» است و از مقیاس مطلق پشتیبانی میکند؛ موضوعی که امکان حرکت دوربین بر پایهی واحدهای واقعی را فراهم میسازد.
با این حال، محدودیت SHARP در این است که تنها نماهای نزدیک به زاویهی دید اولیه را بهدقت رندر میکند و بخشهای دیدهنشدهی صحنه را بازسازی نمیکند. به همین دلیل، کاربر نمیتواند فاصلهی زیادی از نقطهی دید اصلی بگیرد.
با انتشار کد SHARP روی گیتهاب، کاربران مختلف شروع به آزمایش این ابزار کردهاند و نتایج خود را در شبکههای اجتماعی به اشتراک گذاشتهاند. برخی نیز دربارهی انتخاب تصویر یک اسب بهعنوان نمونهی معرفی این مدل از سوی اپل ابراز تعجب کردهاند.
بهطور خلاصه، مدل SHARP اپل میتواند نمایشهای سهبعدی Gaussian کاملاً فوتورئال را تنها از روی یک تصویر و در عرض چند ثانیه تولید کند. این مدل با رگرسکردن پارامترهای Gaussian سهبعدی از طریق یک عبور واحد شبکهی عصبی، امکان «سنتز نمای جدید» (NVS) فوتورئال را از یک عکس فراهم میکند؛ آن هم در کمتر از یک ثانیه روی GPUهای استاندارد.


