زيادة واقع

ينشئ الباحثون صورًا ثلاثية الأبعاد ثلاثية الأبعاد مدعومة بالذكاء الاصطناعي في الوقت الفعلي على الهواتف الذكية

تحديث on 15 آذار، 2021

قد تتمكن الهواتف الذكية قريبًا من إنشاء صور ثلاثية الأبعاد ثلاثية الأبعاد ، ويرجع الفضل في ذلك جزئيًا إلى نموذج ذكاء اصطناعي طوره باحثون في معهد ماساتشوستس للتكنولوجيا. نظام الذكاء الاصطناعي تم تطويره بواسطة فريق MIT يحدد أفضل طريقة لإنشاء صور ثلاثية الأبعاد من سلسلة من الصور المدخلة.

قام باحثون من معهد ماساتشوستس للتكنولوجيا مؤخرًا بتصميم نماذج ذكاء اصطناعي تمكن من إنشاء صور ثلاثية الأبعاد ثلاثية الأبعاد. يمكن أن تحتوي التكنولوجيا على تطبيقات لسماعات رأس VR و AR ، ويمكن حتى إنشاء الصور المجسمة بواسطة هاتف ذكي.

على عكس شاشات العرض ثلاثية الأبعاد والواقع الافتراضي التقليدية ، والتي تنتج ببساطة وهم العمق والتي يمكن أن تسبب الغثيان والصداع ، يمكن للناس مشاهدة العروض الثلاثية الأبعاد دون التسبب في إجهاد العين. هناك عائق رئيسي نحو إنشاء الوسائط الثلاثية الأبعاد وهو التعامل مع البيانات اللازمة لإنشاء الصورة الثلاثية الأبعاد. كل صورة ثلاثية الأبعاد تتكون من كمية هائلة من البيانات اللازمة لخلق "العمق" الذي تمتلكه الصورة العاكسة ثلاثية الأبعاد. لهذا السبب ، يتطلب إنشاء الصور المجسمة عادةً قدرًا هائلاً من قوة الحوسبة. من أجل جعل تقنية التصوير المجسم أكثر عملية ، قام فريق معهد ماساتشوستس للتكنولوجيا بتطبيق شبكات عصبية تلافيفية عميقة على المشكلة ، وإنشاء شبكة قادرة على توليد الصور المجسمة بسرعة بناءً على صور الإدخال.

الطريقة النموذجية لتوليد الصور المجسمة تولد بشكل أساسي العديد من القطع من الصور المجسمة ثم تستخدم المحاكاة الفيزيائية لدمج القطع في تمثيل كامل لكائن أو صورة. هذا يختلف عن النهج النموذجي المستخدم لإنشاء الصور المجسمة. في الطريقة التقليدية ، يتم تقطيع الصور عن بعضها البعض ويتم استخدام سلسلة من جداول البحث لربط أجزاء الهولوغرام معًا ، حيث تحدد جداول البحث حدود مقاطع الهولوغرام المختلفة. عملية تحديد حدود القطع الثلاثية الأبعاد باستخدام جداول المظهر تستغرق وقتًا طويلاً وتستهلك طاقة معالجة مكثفة.

وفقًا لـ IEEE Spectrum، صمم فريق معهد ماساتشوستس للتكنولوجيا طريقة أخرى لتوليد الصور المجسمة. باستخدام قوة شبكات التعلم العميق ، تمكنوا من تقسيم الصور إلى أجزاء يمكن إعادة دمجها في صورة ثلاثية الأبعاد باستخدام "شرائح" أقل بكثير. تستفيد التقنيات الجديدة من قدرة الشبكات العصبية التلافيفية على تحليل الصور وفصل الصور إلى قطع منفصلة. هذه الطريقة الجديدة لتحليل الصور وتقطيعها تقلل بشكل كبير من إجمالي عدد العمليات التي يتعين على النظام تنفيذها.

من أجل تصميم مولد ثلاثي الأبعاد يعمل بالذكاء الاصطناعي، بدأ فريق البحث ببناء قاعدة بيانات تتألف من حوالي 4000 صورة تم إنشاؤها بواسطة الكمبيوتر، مع صورة ثلاثية الأبعاد مقابلة مخصصة لكل صورة من هذه الصور. تم تدريب الشبكة العصبية التلافيفية على مجموعة البيانات هذه، وتعلم كيفية ربط كل صورة مع الهولوغرام الخاص بها وأفضل طريقة لاستخدام الميزات لإنشاء الصور المجسمة. عندما يتم تزويد نظام الذكاء الاصطناعي ببيانات غير مرئية بمعلومات عميقة، يمكنه بعد ذلك إنشاء صور ثلاثية الأبعاد جديدة من هذه البيانات. يتم توفير معلومات العمق من خلال استخدام إما مستشعرات ليدار لشاشات العرض متعددة الكاميرات وتقديمها كصورة تم إنشاؤها بواسطة الكمبيوتر. تحتوي بعض أجهزة iPhone الجديدة على هذه المكونات، مما يعني أنها من المحتمل أن تولد صورًا ثلاثية الأبعاد إذا تم ربطها بنوع العرض الصحيح.

يحتاج نظام الهولوغرام الجديد الذي يحركه الذكاء الاصطناعي إلى ذاكرة أقل بكثير من الطرق التقليدية. يمكن للنظام إنشاء صور ثلاثية الأبعاد ثلاثية الأبعاد بمعدل 3 إطارًا في الثانية بالألوان الكاملة بدقة 60 × 1920 باستخدام حوالي 1080 كيلوبايت من الذاكرة أثناء التشغيل على وحدة معالجة رسومات واحدة متوفرة بشكل شائع. تمكن الباحثون من تشغيل أنظمتهم على جهاز iPhone 620 ينتج حوالي 11 صورة ثلاثية الأبعاد في الثانية ، في حين أن Google Edge TPU يمكن للنظام أن يعرض 1 صورة ثلاثية الأبعاد في الثانية. يشير هذا إلى أنه يمكن تكييف النظام مع الهواتف الذكية وأجهزة الواقع المعزز وأجهزة الواقع الافتراضي بشكل عام. يمكن أن يكون للنظام أيضًا تطبيقات للطباعة ثلاثية الأبعاد الحجمي أو في تصميم المجاهر الثلاثية الأبعاد.

في المستقبل ، يمكن أن تُدخل التحسينات على التكنولوجيا أجهزة وبرامج لتتبع العين ، مما يتيح للصور المجسمة أن تتوسع ديناميكيًا في الدقة بينما ينظر المستخدم إلى أماكن معينة.