Wie Künstliche Intelligenz transparente Objekte erkennen kann

Stefan Thalhammer
6. Juni 2024
4 Min. Lesezeit

Aktualisiert: 6. Juni 2024

Bildverarbeitungssysteme müssen ausreichend Informationen für die jeweilige Aufgabe und Szene liefern, um einen zuverlässigen und sicheren Betrieb zu ermöglichen, sei es in einem industriellen Kontext oder bei der Betrachtung eines Serviceroboters in einem Haushalt.

Die Wettbewerbe Microsoft COCO und FAIR LVIS haben erhebliche Fortschritte in der Objekterkennung sowie die Robustheit solcher Ansätze zur Unterstützung des Szenenverständnisses aufgezeigt. Ein wichtiger Bestandteil dieser Anforderung ist die Fähigkeit von Bildverarbeitungssystemen, die Geometrie der Umgebung präzise zu erfassen, was unerlässlich wird, sobald ein Agent (zum Beispiel ein Roboter) in dieser Umgebung agieren soll.

Die weite Verbreitung von Tiefensensoren bietet zwar eine solide Grundlage für die Erfassung der Geometrie der Szene, diese jedoch gehen aber davon aus, dass die Oberflächen matt, respektive lambertsch, sind. Die Ermittlung der Geometrie von transparenten Objekten ist daher nach wie vor eine offene Herausforderung. Ihr Aussehen hängt bei allen Wellenlängen, die üblicherweise in Bildsensoren verwendet werden, stark von der Umgebung ab, in der sie beobachtet werden.

Abbildung 1 visualisiert das Problem der Tiefenschätzung. Entweder wird keine Tiefe ermittelt, was robotische Interaktion verhindert, oder die Tiefe des Hintergrunds des transparenten Objekts wird geschätzt, was zu einer unsicheren Bewegung des Roboters in der Szene führen kann. Zur Lösung dieses speziellen Problems wurden diverse lernende Methoden präsentiert, die das Farbbild zur Vervollständigung der Tiefe verwenden, LeRes, DexNeRF, TransCG und LIDF, aber ihre Generalisierungsfähigkeit bei der Begegnung mit solchen transparenten Objekten in Umgebungen mit großen Domänenverschiebung zu den Trainingsdaten muss noch bewiesen werden.

Abbildung 1: Tiefenschätzung mit einem Tiefensensor. RGB-Bild transparenter Objekte (links), optimale Tiefenschätzung der Objektoberfläche (Mitte), und tatsächliche Tiefenschätzung mit einer D435 (rechts). Erkennbar sind viele fehlende und inakkurate geschätzte Tiefenpunkte.

Monokulare Methoden

Einzelbildmethoden lernen die Tiefe anhand eines RGB-Bildes zu schätzen, ein Beispiel hierfür ist LeRes. Eine große Herausforderung in diesem Zusammenhang ist die Schätzung metrischer Tiefe, da ein einzelnes Bild keine Informationen über die absolute beobachtete Tiefe liefert. LeRes schätzt die Tiefe in einem zweistufigen Prozess: Zuerst sagen sie die monokulare Tiefe voraus, dann verfeinern sie den Maßstab und eine Brennweite. Unter Verwendung der anfänglichen Schätzung der Kameraintrinsik und der geschätzten Tiefenkarte wird eine Punktwolke erstellt und an ein Modul weitergeleitet, das diese Verfeinerung vorhersagt.

Mehrbildmethoden wie NeRF hingegen ist eine Methode zur Generierung neuer Ansichten einer Szene aus einer Reihe vorgegebener Ansichten durch Lernen einer impliziten Repräsentation. Ein mehrschichtiges Perzeptron lernt Dichtewerte und emittierte Farben für jede Position und Richtung innerhalb der Szene, die das Feld darstellt. Diese werden wiederum in einem Volumen-Rendering-Schema verwendet, um neue Ansichten der Szene zu generieren. Während dieser Prozess ursprünglich viele Stunden für das Rekonstruieren einer einzigen Szene benötigte, konnte dies durch die Verbesserungen mit Instant-NGP auf weniger als 15 Minuten reduziert werden. Diese Beschleunigung ist das Ergebnis einer effizienteren Positionskodierung unter Verwendung einer Multi-Resolution-Hash-Kodierung in Kombination mit effizienteren Architekturen.

In DexNeRF stellten die Autoren fest, dass die von NeRF ermittelten Dichtewerte kleine lokale Maxima entlang von Strahlen aufweisen, die durch transparente Objekte gehen. Die Festlegung eines Schwellenwerts ermöglicht die Abstandsschätzung zum ersten Dichtewert entlang des Strahls und somit eine Tiefenschätzung für transparente Objekten. Abbildung 2 vergleicht die Tiefenschätzung von LeRes und DexNeRF.

Abbildung 2: RGB-Methoden im Vergleich. Geschätzte Tiefe des linken Bildes in Abbildung 1 mit LeRes (links) und geschätzte Tiefe des selben Blickpunktes nach Szenenrekonstruktion mit DexNeRF (rechts). Erkennbar ist eine vollständige Tiefenschätzung mit beiden Methoden, jedoch eine hohe Abweichung zu den Optimalwerten (Abbildung 1) bei LeRes

Tiefenbildmethoden

Einige Arbeiten konzentrierten sich auf die Vervollständigung der fehlenden Tiefenkarten, die von Tiefensensoren mit Hilfe von Informationen aus dem entsprechenden RGB-Bild erzeugt wurden. Die erste dieser Arbeiten, ClearGrasp, schlug vor, eine Maske und Oberflächennormalen von transparenten Objekten sowie deren Umrisse vorherzusagen.

Anhand dieser Informationen sollte ein Optimierungsschritt die Lücken in dem generierten Tiefenbild des Sensors gefüllt werden. LIDF führt eine neue lokale neuronale Repräsentation von Strahlen-Voxel-Paaren ein und verwendet diese Repräsentation, um die Belegung der Voxel vorherzusagen, aus der die Tiefe abgeleitet werden kann. TransCG hingegen schlägt ein gewöhnliches, aber sehr effizientes neuronales Faltungsnetzwerk vor, das für die Vervollständigung der Tiefe entwickelt wurde. Abbildung 2 vergleicht die Tiefenschätzung von TransCG und LIDF.

Abbildung 3: RGBD-Methoden im Vergleich. Vervollständigte Tiefe des linken Bildes in Abbildung 1 mit TransCG (links) und LIDF (rechts). Erkennbar ist eine vollständige Tiefenschätzung mit beiden Methoden, jedoch bietet LIDF klare Objektkanten und eine gleichmäßigere Objektoberfläche.

Schlussfolgerung

Wie bei jedem Lernproblem sind die Daten der Schlüssel zu einer guten Leistung. Der Trainingsdatensatz von TransCG deckt nicht jeden Teil des Sichtfeldes gleichermaßen ab, und die gerenderten Daten, die im Rahmen von LIDF erstellt wurden, modellieren nicht alle Lichteffekte, die durch transparente Objekte hervorgerufen werden, genau.

Methoden der Tiefenvervollständigung liefern vollständigere, aber weniger genaue Tiefenkarten, und zwar aus einem Einzelbild und mit sehr kurzer Laufzeit. Diese profitieren in der Tat von einem während des Trainings implizit erlernten Verständnis der Objektformen, das ihnen hilft, robuster gegenüber variierenden Objektgrößen zu sein.

Aufbauend auf den überraschend guten Ergebnissen von LeRes, scheinen größere Datensätze mit hoher Vielfalt unerlässlich, um diese Ansätze zu verbessern. Die in TransCG vorgestellte recht einfache, aber effektive Architektur wirft auch die Frage nach der Notwendigkeit von Architekturen auf, die speziell für transparente Objekte entwickelt wurden, im Gegensatz zu dem allgemeineren Problem der Tiefenvervollständigung.

Am anderen Ende des Spektrums sind Methoden wie DexNeRF am genauesten und umgehen das Problem der Verzerrung der Trainingsdaten, da sie transduktives Lernen durchführen. Sie können auch grundlegende Garantien für ihre Konvergenz bieten.

Da sie darauf ausgelegt sind, Ansichten der Szene zu rendern, können wir durch den Vergleich ihres aktuellen Renderings mit den aufgenommenen Bildern schnell die Genauigkeit der Renderings in ihrer unmittelbaren Umgebung ermitteln.

NeRF sind eine sehr junge Forschungsrichtung, und es wurden bereits erhebliche Fortschritte bei der Konvergenzgeschwindigkeit erzielt, und es werden weitere erwartet. Die Modellierung transparenter Objekte in DexNeRF ist recht einfach, und eine fortschrittlichere Modellierung der Lichtausbreitung innerhalb des gelernten Volumens könnte zu einer erheblichen Verbesserung der Qualität der erhaltenen Geometrie führen, nicht nur für transparente Objekte, sondern für jede Szene mit komplexen Materialien.

Für eine tiefergehende Diskussion der dargestellten Studie werden LeserInnen an Challenges of Depth Estimation for Transparent Objects verwiesen.

9 Kommentare

yaqian zhang

23. Juni

What surprised me most about Drive Mad is how creative some of the track designs are. A small mistake can completely change the outcome.

Gefällt mir

Lite Game Geometry Dash

22. Juni

Während Menschen Glas, Wasser oder durchsichtige Geometry Dash Lite Kunststoffteile oft problemlos erkennen, haben Kameras und KI-Systeme Schwierigkeiten, weil transparente Materialien Licht auf ungewöhnliche Weise brechen, spiegeln oder durchlassen.

Bearbeitet

Viktor Nesteroid

17. Mai

Ein Freund aus Leipzig hat mir diese Seite empfohlen, nachdem ich erzählt hatte, dass viele Casino-Seiten in Deutschland auf dem Handy ziemlich unübersichtlich wirken. Einige Tage später habe ich palmslots-de.de ausprobiert, während ich zuhause auf dem Sofa sass und Musik gehört habe. Das Erste, was mir aufgefallen ist, war die eher ruhige Gestaltung ohne zu viele störende Elemente. Ich wollte eigentlich nur kurz ein paar Spiele testen, blieb dann aber deutlich länger als geplant. Es lief nicht jede Runde perfekt, aber insgesamt fühlte sich alles ziemlich entspannt und unkompliziert an.

Eronexe

07. Mai

Vor kurzem bin ich auf die Seite neueste online casino gestoßen und muss sagen, dass dies eine wirklich beeindruckende Entdeckung war. Die Plattform bietet eine riesige Auswahl an frischen Spielotheken, von denen jede ihren eigenen Stil und ihre eigenen Boni hat. Sie können die neuen Casinos in Echtzeit testen, was das Erlebnis unglaublich spannend und aktuell macht. Die Website ist benutzerfreundlich und die Qualität der Bewertungen ist auf höchstem Niveau!

镇华莫

18. Apr.

This article on AI and object recognition is fascinating! It's amazing how technology can identify even transparent objects. Speaking of recognizing things, have you tried Spicy Books It's a great way to find your next steamy read with the right level of spice!