رطم صورة البقع: إعادة بناء ثلاثية الأبعاد فائقة السرعة بعرض فردي - Unite.AI
اتصل بنا للحصول على مزيد من المعلومات

الذكاء الاصطناعي

صورة البقع: إعادة بناء ثلاثية الأبعاد فائقة السرعة

mm

تم النشر

 on

صورة البقع: إعادة بناء ثلاثية الأبعاد فائقة السرعة

لقد أظهرت إعادة بناء الكائنات ثلاثية الأبعاد ذات العرض الفردي باستخدام الشبكات التلافيفية قدرات رائعة. تقوم نماذج إعادة البناء ثلاثية الأبعاد ذات العرض الفردي بإنشاء نموذج ثلاثي الأبعاد لأي كائن باستخدام صورة واحدة كمرجع، مما يجعلها واحدة من أهم موضوعات البحث في مجال رؤية الكمبيوتر. 

على سبيل المثال، دعونا ننظر إلى الدراجة النارية في الصورة أعلاه. يتطلب إنشاء هيكل ثلاثي الأبعاد مسارًا معقدًا يجمع أولاً الإشارات من الصور ذات المستوى المنخفض مع المعلومات الدلالية عالية المستوى، والمعرفة حول الترتيب الهيكلي للأجزاء. 

نظرًا للعملية المعقدة، كانت إعادة البناء ثلاثية الأبعاد ذات العرض الفردي تحديًا كبيرًا في رؤية الكمبيوتر. في محاولة لتعزيز كفاءة إعادة البناء ثلاثي الأبعاد ذو العرض الفردي، عمل المطورون على Splatter Image، وهي طريقة تهدف إلى تحقيق شكل ثلاثي الأبعاد ذو عرض فردي فائق السرعة وبناء مظهر ثلاثي الأبعاد للكائنات. يستخدم إطار عمل Splatter Image في جوهره طريقة Gaussian Splatting لتحليل التمثيلات ثلاثية الأبعاد، مع الاستفادة من السرعة والجودة التي يوفرها. 

في الآونة الأخيرة، تم تنفيذ طريقة Gaussian Splatting من خلال العديد من نماذج إعادة البناء متعددة العرض للعرض في الوقت الفعلي، والقياس المحسن، والتدريب السريع. مع ما قيل، فإن Splatter Image هو الإطار الأول الذي يطبق طريقة Gaussian Splatting لمهام إعادة البناء ذات العرض الفردي. 

في هذه المقالة، سوف نستكشف كيفية استخدام إطار عمل Splatter Image لـ Gaussian Splatting لتحقيق إعادة بناء ثلاثية الأبعاد ذات عرض فردي فائق السرعة. اذا هيا بنا نبدأ. 

صورة البقع: محاولة إعادة بناء ثلاثية الأبعاد فائقة السرعة

كما ذكرنا سابقًا، تعد Splatter Image طريقة فائقة السرعة لإعادة بناء كائن ثلاثي الأبعاد ذو عرض فردي استنادًا إلى طريقة Gaussian Splatting. يعد Splatter Image أول إطار عمل للرؤية الحاسوبية على الإطلاق يستخدم Gaussian Splatting لإنشاء كائن ثلاثي الأبعاد أحادي العين منذ أن كان Gaussian Splatting تقليديًا يعمل على تشغيل أطر إعادة بناء الكائنات ثلاثية الأبعاد متعددة الرؤية. ومع ذلك، فإن ما يفصل إطار عمل Splatter Image عن الطرق السابقة هو أنه نهج قائم على التعلم، وإعادة البناء في الاختبار لا يتطلب سوى تقييم التغذية الأمامية للشبكة العصبية. 

تعتمد Splatter Image بشكل أساسي على خصائص العرض الخاصة بـ Gaussian Splatting وسرعة المعالجة العالية لإنشاءها إعادة البناء ثلاثية الأبعاد. يتميز إطار عمل Splatter Image بتصميم مباشر: يستخدم الإطار شبكة عصبية ثنائية الأبعاد من صورة إلى صورة للتنبؤ بغاوسي ثلاثي الأبعاد لكل بكسل صورة مدخلة، ويقوم بتعيين الصورة المدخلة إلى غاوسي ثلاثي الأبعاد لكل بكسل. يكون لـ Gaussians الناتج ثلاثي الأبعاد شكل صورة، يُعرف باسم Splatter Image، كما يوفر Gaussians أيضًا تمثيلًا بزاوية 2 درجة للصورة. يتم توضيح العملية في الصورة التالية. 

على الرغم من أن العملية بسيطة ومباشرة، إلا أن هناك بعض التحديات الرئيسية التي يواجهها إطار عمل Splatter Image عند استخدام Gaussian Splatting لإنشاء صور Gaussian ثلاثية الأبعاد لـ تمثيلات ثلاثية الأبعاد أحادية العرض. تتمثل العقبة الرئيسية الأولى في تصميم شبكة عصبية تقبل صورة الكائن كمدخل، وتولد مزيجًا غاوسيًا مطابقًا يمثل جميع جوانب الصورة كمخرجات. لمعالجة هذه المشكلة، تستفيد صورة البقع من حقيقة أنه على الرغم من أن الخليط الغاوسي الذي تم إنشاؤه عبارة عن مجموعة أو مجموعة غير مرتبة من العناصر، إلا أنه لا يزال من الممكن تخزينه في بنية بيانات مرتبة. وفقًا لذلك، يستخدم الإطار صورة ثنائية الأبعاد كحاوية للغاوسيين ثلاثي الأبعاد، ونتيجة لذلك يحتوي كل بكسل في الحاوية على معلمات غاوسي واحد، بما في ذلك خصائصه مثل الشكل والعتامة واللون. 

من خلال تخزين مجموعات غاوسية ثلاثية الأبعاد في صورة ما، يكون إطار عمل Splatter Image قادرًا على تقليل عقبات إعادة البناء التي تواجهها عند تعلم شبكة عصبية من صورة إلى صورة. باستخدام هذا النهج، لا يمكن تنفيذ عملية إعادة الإعمار إلا من خلال استخدام عوامل تشغيل ثنائية الأبعاد تتسم بالكفاءة بدلاً من الاعتماد على عوامل تشغيل ثلاثية الأبعاد. علاوة على ذلك، في إطار Splatter Image، فإن التمثيل ثلاثي الأبعاد عبارة عن مزيج من 3D Gaussians مما يسمح له باستغلال سرعة العرض ومزايا كفاءة الذاكرة التي تقدمها Gaussian Splatting والتي تعزز الكفاءة في التدريب وكذلك في الاستدلال. من خلال المضي قدمًا، لا يقوم إطار عمل Splatter Image بإنشاء تمثيلات ثلاثية الأبعاد أحادية العرض فحسب، بل يُظهر أيضًا كفاءة ملحوظة حيث يمكن تدريبه حتى على وحدة معالجة رسومات واحدة وفقًا لمعايير الكائنات ثلاثية الأبعاد القياسية. علاوة على ذلك، يمكن توسيع إطار عمل Splatter Image لالتقاط عدة صور كمدخلات. وهي قادرة على تحقيق ذلك عن طريق تسجيل الخلائط الغوسية الفردية في مرجع مشترك ومن ثم أخذ مجموعة الخلائط الغوسية المتوقعة من وجهات النظر الفردية. يقوم الإطار أيضًا بإدخال طبقات خفيفة الوزن من الاهتمام المتبادل في بنيته مما يسمح لطرق العرض المختلفة بالتواصل مع بعضها البعض أثناء التنبؤ. 

من وجهة نظر تجريبية، تجدر الإشارة إلى أن إطار عمل Splatter Image يمكنه إعادة بناء الكائن بزاوية 360 درجة على الرغم من أنه يرى جانبًا واحدًا فقط من الكائن. قام الإطار بعد ذلك بتخصيص Gaussians مختلفين في حي ثنائي الأبعاد لأجزاء مختلفة من الكائن ثلاثي الأبعاد لترميز المعلومات التي تم إنشاؤها بزاوية 2 درجة في الصورة ثنائية الأبعاد. علاوة على ذلك، يضبط الإطار عتامة العديد من أجهزة Gaussians على الصفر مما يؤدي إلى إلغاء تنشيطها، مما يسمح بإعدامها أثناء المعالجة اللاحقة. 

لتلخيص ذلك، إطار عمل Splatter Image هو

  1. طريقة جديدة لإنشاء عمليات إعادة بناء كائن ثلاثي الأبعاد ذات عرض فردي من خلال نقل أسلوب Gaussian Splatting. 
  2. يوسع طريقة إعادة بناء الكائنات ثلاثية الأبعاد متعددة العرض. 
  3. يحقق أحدث أداء لإعادة بناء الكائنات ثلاثية الأبعاد وفقًا للمعايير القياسية بسرعة وجودة استثنائية. 

صورة البقع: المنهجية والهندسة المعمارية

رش غاوسي

كما ذكرنا سابقًا، فإن Gaussian Splatting هي الطريقة الأساسية التي يطبقها إطار عمل Splatter Image لإنشاء عمليات إعادة بناء كائن ثلاثي الأبعاد ذات عرض فردي. بعبارات بسيطة، Gaussian Splatting هي طريقة تنقيط لإعادة بناء الصور ثلاثية الأبعاد في الوقت الفعلي، وعرض الصور ذات وجهات نظر متعددة. يُشار إلى المساحة ثلاثية الأبعاد في الصورة باسم Gaussians، ويتم تطبيق تقنيات التعلم الآلي لمعرفة معلمات كل Gaussian. لا يتطلب Gaussian Splatting التدريب أثناء العرض مما يسهل أوقات العرض بشكل أسرع. تلخص الصورة التالية بنية 3D Gaussian Splatting. 

يستخدم 3D Gaussian Splatting أولاً مجموعة من الصور المدخلة لإنشاء سحابة نقطية. يستخدم Gaussian Splatting بعد ذلك الصور المدخلة لتقدير المعلمات الخارجية للكاميرا مثل الميل والموضع عن طريق مطابقة وحدات البكسل بين الصور، ثم يتم استخدام هذه المعلمات لحساب السحابة النقطية. باستخدام أساليب مختلفة للتعلم الآلي، يقوم Gaussian Splatting بعد ذلك بتحسين أربعة معلمات لكل Gaussian وهي: الموضع (أين يقع)، والتباين (مدى امتداده أو قياسه في مصفوفة 3 × 3)، واللون (ما هو نظام ألوان RGB) وألفا (قياس الشفافية). تعرض عملية التحسين الصورة لكل موضع كاميرا وتستخدمها لتحديد المعلمات الأقرب إلى الصورة الأصلية. ونتيجة لذلك، فإن إخراج Gaussian Splatting ثلاثي الأبعاد الناتج هو صورة، تسمى Splatter Image والتي تشبه الصورة الأصلية أكثر في موضع الكاميرا الذي تم التقاطها منه. 

علاوة على ذلك، توفر وظيفة العتامة ووظيفة اللون في Gaussian Splatting مجالًا إشعاعيًا مع اتجاه عرض النقطة ثلاثية الأبعاد. يقوم الإطار بعد ذلك بعرض حقل الإشراق على الصورة من خلال دمج الألوان التي تمت ملاحظتها على طول الشعاع الذي يمر عبر البكسل. يمثل Gaussian Splatting هذه الوظائف كمجموعة من الألوان Gaussians حيث يساعد الوسط أو المركز Gaussian جنبًا إلى جنب مع التباين Gaussian في تحديد شكلها وحجمها. يحتوي كل Gaussian أيضًا على خاصية العتامة وخاصية اللون المعتمدة على العرض والتي تحدد معًا مجال التألق. 

صورة البقع

يقوم مكون العارض بتعيين مجموعة Gaussians ثلاثية الأبعاد لصورة ما. لإجراء إعادة بناء ثلاثية الأبعاد ذات عرض فردي، يبحث الإطار بعد ذلك عن وظيفة عكسية لـ Gaussians ثلاثية الأبعاد التي تعيد بناء خليط Gaussians ثلاثي الأبعاد من الصورة. التضمين الرئيسي هنا هو اقتراح تصميم فعال وبسيط للدالة العكسية. على وجه التحديد، بالنسبة لصورة الإدخال، يتنبأ الإطار بغاوسي لكل بكسل فردي باستخدام بنية الشبكة العصبية من صورة إلى صورة لإخراج صورة، صورة البقع. وتتنبأ الشبكة أيضًا بالشكل والعتامة واللون. 

الآن، يمكن التكهن كيف يمكن لإطار Splatter Image إعادة بناء التمثيل ثلاثي الأبعاد لكائن ما على الرغم من أن لديه إمكانية الوصول إلى واحد فقط من وجهات نظره؟ في الوقت الفعلي، يتعلم إطار عمل Splatter Image استخدام بعض Gaussians المتاحة لإعادة بناء العرض، ويستخدم Gaussians المتبقية لإعادة بناء الأجزاء غير المرئية من الصورة تلقائيًا. لزيادة كفاءته إلى الحد الأقصى، يمكن لإطار العمل إيقاف تشغيل أي Gaussians تلقائيًا من خلال التنبؤ بما إذا كانت العتامة صفرًا. إذا كانت العتامة صفرًا، فسيتم إيقاف تشغيل Gaussians، ولا يعرض إطار العمل هذه النقاط، ويتم إعدامها بدلاً من ذلك في مرحلة ما بعد المعالجة. 

فقدان مستوى الصورة

تتمثل الميزة الرئيسية لاستغلال السرعة والكفاءة التي توفرها طريقة Splatter Gaussian في أنها تسهل على إطار العمل عرض جميع الصور في كل تكرار، حتى بالنسبة للدفعات ذات حجم الدفعة الأكبر نسبيًا. علاوة على ذلك، فهذا يعني أن الإطار ليس فقط قادرًا على استخدام الخسائر القابلة للتحلل، بل يمكنه أيضًا استخدام الخسائر على مستوى الصورة التي لا تتحلل إلى خسائر لكل بكسل. 

تطبيع النطاق

من الصعب تقدير حجم كائن من خلال النظر إلى عرض واحد، ومن الصعب حل هذا الغموض عندما يتم تدريبه مع الخسارة. لم تتم ملاحظة نفس المشكلة في مجموعات البيانات الاصطناعية حيث يتم عرض جميع الكائنات باستخدام جوهرية متطابقة للكاميرا وتكون الكائنات على مسافة ثابتة من الكاميرا، مما يساعد في النهاية في معالجة الغموض. ومع ذلك، في مجموعات البيانات التي تحتوي على صور واقعية، يكون الغموض واضحًا تمامًا، ويستخدم إطار عمل Splatter Image عدة طرق معالجة مسبقة لإصلاح حجم جميع الكائنات تقريبًا. 

عرض اللون التابع

لتمثيل الألوان المعتمدة على العرض، يستخدم إطار عمل Splatter Image توافقيات كروية لتعميم الألوان خارج نموذج الألوان اللامبرتية. بالنسبة لأي غاوسي محدد، يحدد النموذج المعاملات التي يتم التنبؤ بها بواسطة الشبكة والتوافقيات الكروية. يؤدي تغيير وجهة النظر إلى تحويل اتجاه العرض في مصدر الكاميرا إلى اتجاه العرض المقابل له في الإطار المرجعي. يقوم النموذج بعد ذلك بالعثور على المعاملات المقابلة للعثور على وظيفة اللون المحولة. النموذج قادر على القيام بذلك لأنه عندما تكون التوافقيات الكروية مغلقة، مع كل أمر آخر، أثناء الدوران. 

هندسة الشبكة العصبية

غالبية بنية المتنبئ التي تقوم بتعيين صورة الإدخال لمجموعة Gaussian مطابقة للعملية المستخدمة في إطار عمل SongUNet. يتم استبدال الطبقة الأخيرة في البنية بطبقة تلافيفية 1×1 مع نموذج الألوان الذي يحدد عرض قنوات الإخراج. بالنظر إلى صورة الإدخال، تنتج الشبكة موتر قناة الإخراج كإخراج، ولكل قناة بكسل، تقوم بترميز المعلمات التي يتم تحويلها بعد ذلك إلى الإزاحة والعتامة والتدوير والعمق واللون. يستخدم الإطار بعد ذلك وظائف غير خطية لتنشيط المعلمات والحصول على المعلمات الغوسية. 

لإعادة بناء تمثيلات ثلاثية الأبعاد باستخدام طرق عرض متعددة، يطبق إطار عمل Splatter Image نفس الشبكة على كل عرض إدخال، ثم يستخدم نهج وجهة النظر لدمج عمليات إعادة البناء الفردية. علاوة على ذلك، لتسهيل التنسيق الفعال وتبادل المعلومات بين طرق العرض في الشبكة، يقوم إطار عمل Splatter Image بإجراء تعديلين في الشبكة. أولاً، يقوم الإطار بتكييف النموذج مع وضعية الكاميرا الخاصة به، ويمرر المتجهات عن طريق تشفير كل إدخال باستخدام تضمين الموضع الجيبي مما يؤدي إلى أبعاد متعددة. ثانيًا، يضيف الإطار طبقات الاهتمام المتبادل لتسهيل الاتصال بين ميزات طرق العرض المختلفة. 

صورة البقع: التجارب والنتائج

يقيس إطار عمل Splatter Image جودة عمليات إعادة البناء من خلال تقييم جودة Novel View Synthesis نظرًا لأن الإطار يستخدم العرض المصدر ويعرض الشكل ثلاثي الأبعاد لاستهداف طرق العرض غير المرئية لإجراء عمليات إعادة البناء. يقوم الإطار بتقييم أدائه من خلال قياس SSIM أو التشابه الهيكلي، ونسبة الذروة للإشارة إلى الضوضاء أو PSNR، والجودة الإدراكية أو درجات LPIPS. 

عرض إعادة الإعمار ثلاثي الأبعاد

يوضح الجدول التالي أداء نموذج Splatter Image في مهمة إعادة الإعمار ثلاثية الأبعاد ذات العرض الفردي وفقًا لمعيار ShapeNet. 

كما يمكن ملاحظته، يتفوق إطار عمل Splatter Image على جميع أساليب إعادة البناء الحتمية عبر درجات LPIPS وSSIM. تشير النتائج إلى أن نموذج Splatter Image ينشئ صورًا ذات عمليات إعادة بناء أكثر وضوحًا. علاوة على ذلك، يتفوق نموذج Splatter Image أيضًا على جميع خطوط الأساس الحتمية من حيث درجة PSNR التي تشير إلى أن عمليات إعادة البناء التي تم إنشاؤها هي أيضًا أكثر دقة. علاوة على ذلك، بالإضافة إلى تفوقه على جميع الأساليب الحتمية، لا يتطلب إطار Splatter Image سوى وضعيات الكاميرا النسبية لتعزيز كفاءتها في مرحلتي التدريب والاختبار. 

توضح الصورة التالية البراعة النوعية لإطار عمل Splatter Image، وكما يمكن رؤيته، يقوم النموذج بإنشاء عمليات إعادة بناء باستخدام أشكال هندسية رفيعة ومثيرة للاهتمام، ويلتقط تفاصيل طرق عرض التكييف. 

توضح الصورة التالية أن عمليات إعادة البناء التي تم إنشاؤها بواسطة إطار عمل Splatter Image ليست أكثر وضوحًا فحسب، بل تتميز أيضًا بدقة أفضل من النماذج السابقة خاصة في الظروف غير التقليدية ذات الهياكل الرقيقة والرؤية المحدودة. 

إعادة الإعمار متعدد العرض ثلاثي الأبعاد

لتقييم قدرات إعادة الإعمار ثلاثية الأبعاد متعددة العرض، تم تدريب إطار Splatter Image على مجموعة بيانات SpaneNet-SRN Cars للحصول على تنبؤات بطريقتي عرض. تستخدم الأساليب الحالية تكييف وضعية الكاميرا المطلقة لمهام إعادة البناء ثلاثية الأبعاد متعددة العرض، مما يعني أن النموذج يتعلم الاعتماد بشكل أساسي على الاتجاه الأساسي للكائن في الكائن. على الرغم من أنها تقوم بالمهمة، إلا أنها تحد من إمكانية تطبيق النماذج نظرًا لأن الوضع المطلق للكاميرا غالبًا ما يكون غير معروف بالنسبة لصورة جديدة لجسم ما. 

افكار اخيرة

في هذه المقالة، تحدثنا عن Splatter Image، وهي طريقة تهدف إلى تحقيق شكل ثلاثي الأبعاد ذو عرض فردي فائق السرعة وبناء مظهر ثلاثي الأبعاد للكائنات. يستخدم إطار عمل Splatter Image في جوهره طريقة Gaussian Splatting لتحليل التمثيلات ثلاثية الأبعاد، مع الاستفادة من السرعة والجودة التي يوفرها. يقوم إطار عمل Splatter Image بمعالجة الصور باستخدام بنية CNN ثنائية الأبعاد جاهزة للتنبؤ بصورة زائفة تحتوي على غاوسي ملون واحد لكل بكسل. باستخدام طريقة Gaussian Splatting، يستطيع إطار Splatter Image الجمع بين العرض السريع والاستدلال السريع الذي يؤدي إلى تدريب سريع وتقييم أسرع على المعايير الحقيقية والاصطناعية. 

"مهندس بالمهنة كاتب عن ظهر قلب". كونال كاتب تقني لديه حب وفهم عميقان للذكاء الاصطناعي والتعلم الآلي ، مكرس لتبسيط المفاهيم المعقدة في هذه المجالات من خلال وثائقه الجذابة والغنية بالمعلومات.