تولید تصویر با صدا

هوش مصنوعی تصاویری دقیق از خیابان‌ها را از طریق ضبط صدا ایجاد می‌کند

تولید تصویر با صدا به کمک هوش مصنوعی، مفهومی است که به تازگی توسط محققان دانشگاه تگزاس در آستین به واقعیت تبدیل شده است. آن‌ها سیستمی مبتنی بر هوش مصنوعی توسعه داده‌اند که می‌تواند تنها با استفاده از ضبط صوتی، تصویری دقیق از خیابانی که صدا از آنجا آمده است، تولید کند. این تحقیق نشان می‌دهد که صداهای محیطی می‌توانند برای درک ویژگی‌های بصری محیط کافی باشند؛ مهارتی که پیش‌تر مختص انسان‌ها تصور می‌شد.

این تیم با استفاده از هوش مصنوعی مولد، توانست صداهای ضبط‌شده را به تصاویری از خیابان‌ها تبدیل کند. طبق بیانیه خبری دانشگاه تگزاس، دقت بصری این تصاویر نشان می‌دهد که ماشین‌ها قادرند ارتباط بین درک صوتی و بصری محیط را همانند انسان بازسازی کنند.

در مقاله‌ای که در مجله Computers, Environment and Urban Systems منتشر شده است، محققان توضیح داده‌اند که ۱۰۰ ویدئو و کلیپ صوتی از یوتیوب را از شهرهایی در آمریکای شمالی، آسیا و اروپا نمونه‌برداری کرده‌اند. این کلیپ‌ها برای آموزش اولیه مدل هوش مصنوعی استفاده شدند تا بتواند تصاویری با وضوح بالا از محیط‌های مختلف تولید کند.

سپس، این فناوری با کلیپ‌های صوتی ۱۰ ثانیه‌ای و بدون تصویر تغذیه شد و از آن خواسته شد که تصاویری با وضوح بالا از محیط موردنظر تولید کند.

بیشتر بخوانید:ابزار هوش مصنوعی برای تبدیل کاور آلبوم‌ موسیقی به ویدیوهای سه‌بعدی معرفی شد

یک نمودار تطبیقی میان تصاویر تولیدشده توسط هوش مصنوعی و تصاویر واقعی محیط‌های شهری و روستایی، تفاوت در درصد آسمان و فضای سبز در محیط‌های جغرافیایی مختلف را نشان می‌دهد.

محققان تصاویر تولیدشده توسط هوش مصنوعی را با عکس‌های واقعی مرتبط مقایسه کردند و از ارزیابی‌های انسانی و رایانه‌ای استفاده کردند. ارزیابی‌های رایانه‌ای نسبت ساختمان‌ها، آسمان و فضای سبز را بین تصاویر منبع و تولیدشده مقایسه کردند.

یوهاو کانگ، استادیار جغرافیا و محیط زیست در دانشگاه تگزاس و یکی از نویسندگان این مطالعه، می‌گوید:
«مطالعه ما نشان داد که محیط‌های صوتی حاوی نشانه‌های بصری کافی برای تولید تصاویر خیابانی بسیار قابل تشخیص هستند که به‌دقت مکان‌های مختلف را نشان می‌دهند. این یعنی ما می‌توانیم محیط‌های صوتی را به نمایش‌های بصری زنده تبدیل کنیم و صداها را به تصویر تبدیل نماییم.»

این مطالعه همچنین بررسی کرد که انسان‌ها چقدر می‌توانند صداها را به تصاویر مرتبط متصل کنند. هنگامی که یک کلیپ صوتی و سه تصویر به انسان‌ها داده شد، توانستند ۸۰ درصد از زمان محیط درست را پیش‌بینی کنند. محققان می‌گویند نرخ موفقیت هوش مصنوعی نیز مشابه بود.

کانگ اشاره کرد که این سیستم هوش مصنوعی کاربردهای بالقوه بسیاری دارد:
«برای مثال، می‌توانیم درک بهتری از صداهای محیط خود داشته باشیم، مثل اینکه چگونه می‌توانیم نویز را کاهش دهیم. همچنین می‌توانیم تجربیات چندحسی خود را غنی کنیم؛ مثلاً زمانی که به مکانی خاص در یک موزه یا در واقعیت مجازی می‌روید، اکنون علاوه بر دیدن جهان، می‌توانیم صداهای آن را نیز تولید کنیم.»

منبع: +