تولید تصویر با صدا به کمک هوش مصنوعی، مفهومی است که به تازگی توسط محققان دانشگاه تگزاس در آستین به واقعیت تبدیل شده است. آنها سیستمی مبتنی بر هوش مصنوعی توسعه دادهاند که میتواند تنها با استفاده از ضبط صوتی، تصویری دقیق از خیابانی که صدا از آنجا آمده است، تولید کند. این تحقیق نشان میدهد که صداهای محیطی میتوانند برای درک ویژگیهای بصری محیط کافی باشند؛ مهارتی که پیشتر مختص انسانها تصور میشد.
این تیم با استفاده از هوش مصنوعی مولد، توانست صداهای ضبطشده را به تصاویری از خیابانها تبدیل کند. طبق بیانیه خبری دانشگاه تگزاس، دقت بصری این تصاویر نشان میدهد که ماشینها قادرند ارتباط بین درک صوتی و بصری محیط را همانند انسان بازسازی کنند.
در مقالهای که در مجله Computers, Environment and Urban Systems منتشر شده است، محققان توضیح دادهاند که ۱۰۰ ویدئو و کلیپ صوتی از یوتیوب را از شهرهایی در آمریکای شمالی، آسیا و اروپا نمونهبرداری کردهاند. این کلیپها برای آموزش اولیه مدل هوش مصنوعی استفاده شدند تا بتواند تصاویری با وضوح بالا از محیطهای مختلف تولید کند.
سپس، این فناوری با کلیپهای صوتی ۱۰ ثانیهای و بدون تصویر تغذیه شد و از آن خواسته شد که تصاویری با وضوح بالا از محیط موردنظر تولید کند.
بیشتر بخوانید:ابزار هوش مصنوعی برای تبدیل کاور آلبوم موسیقی به ویدیوهای سهبعدی معرفی شد
یک نمودار تطبیقی میان تصاویر تولیدشده توسط هوش مصنوعی و تصاویر واقعی محیطهای شهری و روستایی، تفاوت در درصد آسمان و فضای سبز در محیطهای جغرافیایی مختلف را نشان میدهد.
محققان تصاویر تولیدشده توسط هوش مصنوعی را با عکسهای واقعی مرتبط مقایسه کردند و از ارزیابیهای انسانی و رایانهای استفاده کردند. ارزیابیهای رایانهای نسبت ساختمانها، آسمان و فضای سبز را بین تصاویر منبع و تولیدشده مقایسه کردند.
یوهاو کانگ، استادیار جغرافیا و محیط زیست در دانشگاه تگزاس و یکی از نویسندگان این مطالعه، میگوید:
«مطالعه ما نشان داد که محیطهای صوتی حاوی نشانههای بصری کافی برای تولید تصاویر خیابانی بسیار قابل تشخیص هستند که بهدقت مکانهای مختلف را نشان میدهند. این یعنی ما میتوانیم محیطهای صوتی را به نمایشهای بصری زنده تبدیل کنیم و صداها را به تصویر تبدیل نماییم.»
این مطالعه همچنین بررسی کرد که انسانها چقدر میتوانند صداها را به تصاویر مرتبط متصل کنند. هنگامی که یک کلیپ صوتی و سه تصویر به انسانها داده شد، توانستند ۸۰ درصد از زمان محیط درست را پیشبینی کنند. محققان میگویند نرخ موفقیت هوش مصنوعی نیز مشابه بود.
کانگ اشاره کرد که این سیستم هوش مصنوعی کاربردهای بالقوه بسیاری دارد:
«برای مثال، میتوانیم درک بهتری از صداهای محیط خود داشته باشیم، مثل اینکه چگونه میتوانیم نویز را کاهش دهیم. همچنین میتوانیم تجربیات چندحسی خود را غنی کنیم؛ مثلاً زمانی که به مکانی خاص در یک موزه یا در واقعیت مجازی میروید، اکنون علاوه بر دیدن جهان، میتوانیم صداهای آن را نیز تولید کنیم.»
منبع: +