Wie Künstliche Intelligenz transparente Objekte erkennen kann
- Stefan Thalhammer

- 6. Juni 2024
- 4 Min. Lesezeit
Aktualisiert: 6. Juni 2024
Bildverarbeitungssysteme müssen ausreichend Informationen für die jeweilige Aufgabe und Szene liefern, um einen zuverlässigen und sicheren Betrieb zu ermöglichen, sei es in einem industriellen Kontext oder bei der Betrachtung eines Serviceroboters in einem Haushalt.
Die Wettbewerbe Microsoft COCO und FAIR LVIS haben erhebliche Fortschritte in der Objekterkennung sowie die Robustheit solcher Ansätze zur Unterstützung des Szenenverständnisses aufgezeigt. Ein wichtiger Bestandteil dieser Anforderung ist die Fähigkeit von Bildverarbeitungssystemen, die Geometrie der Umgebung präzise zu erfassen, was unerlässlich wird, sobald ein Agent (zum Beispiel ein Roboter) in dieser Umgebung agieren soll.
Die weite Verbreitung von Tiefensensoren bietet zwar eine solide Grundlage für die Erfassung der Geometrie der Szene, diese jedoch gehen aber davon aus, dass die Oberflächen matt, respektive lambertsch, sind. Die Ermittlung der Geometrie von transparenten Objekten ist daher nach wie vor eine offene Herausforderung. Ihr Aussehen hängt bei allen Wellenlängen, die üblicherweise in Bildsensoren verwendet werden, stark von der Umgebung ab, in der sie beobachtet werden.
Abbildung 1 visualisiert das Problem der Tiefenschätzung. Entweder wird keine Tiefe ermittelt, was robotische Interaktion verhindert, oder die Tiefe des Hintergrunds des transparenten Objekts wird geschätzt, was zu einer unsicheren Bewegung des Roboters in der Szene führen kann. Zur Lösung dieses speziellen Problems wurden diverse lernende Methoden präsentiert, die das Farbbild zur Vervollständigung der Tiefe verwenden, LeRes, DexNeRF, TransCG und LIDF, aber ihre Generalisierungsfähigkeit bei der Begegnung mit solchen transparenten Objekten in Umgebungen mit großen Domänenverschiebung zu den Trainingsdaten muss noch bewiesen werden.

Monokulare Methoden
Einzelbildmethoden lernen die Tiefe anhand eines RGB-Bildes zu schätzen, ein Beispiel hierfür ist LeRes. Eine große Herausforderung in diesem Zusammenhang ist die Schätzung metrischer Tiefe, da ein einzelnes Bild keine Informationen über die absolute beobachtete Tiefe liefert. LeRes schätzt die Tiefe in einem zweistufigen Prozess: Zuerst sagen sie die monokulare Tiefe voraus, dann verfeinern sie den Maßstab und eine Brennweite. Unter Verwendung der anfänglichen Schätzung der Kameraintrinsik und der geschätzten Tiefenkarte wird eine Punktwolke erstellt und an ein Modul weitergeleitet, das diese Verfeinerung vorhersagt.
Mehrbildmethoden wie NeRF hingegen ist eine Methode zur Generierung neuer Ansichten einer Szene aus einer Reihe vorgegebener Ansichten durch Lernen einer impliziten Repräsentation. Ein mehrschichtiges Perzeptron lernt Dichtewerte und emittierte Farben für jede Position und Richtung innerhalb der Szene, die das Feld darstellt. Diese werden wiederum in einem Volumen-Rendering-Schema verwendet, um neue Ansichten der Szene zu generieren. Während dieser Prozess ursprünglich viele Stunden für das Rekonstruieren einer einzigen Szene benötigte, konnte dies durch die Verbesserungen mit Instant-NGP auf weniger als 15 Minuten reduziert werden. Diese Beschleunigung ist das Ergebnis einer effizienteren Positionskodierung unter Verwendung einer Multi-Resolution-Hash-Kodierung in Kombination mit effizienteren Architekturen.
In DexNeRF stellten die Autoren fest, dass die von NeRF ermittelten Dichtewerte kleine lokale Maxima entlang von Strahlen aufweisen, die durch transparente Objekte gehen. Die Festlegung eines Schwellenwerts ermöglicht die Abstandsschätzung zum ersten Dichtewert entlang des Strahls und somit eine Tiefenschätzung für transparente Objekten. Abbildung 2 vergleicht die Tiefenschätzung von LeRes und DexNeRF.

Tiefenbildmethoden
Einige Arbeiten konzentrierten sich auf die Vervollständigung der fehlenden Tiefenkarten, die von Tiefensensoren mit Hilfe von Informationen aus dem entsprechenden RGB-Bild erzeugt wurden. Die erste dieser Arbeiten, ClearGrasp, schlug vor, eine Maske und Oberflächennormalen von transparenten Objekten sowie deren Umrisse vorherzusagen.
Anhand dieser Informationen sollte ein Optimierungsschritt die Lücken in dem generierten Tiefenbild des Sensors gefüllt werden. LIDF führt eine neue lokale neuronale Repräsentation von Strahlen-Voxel-Paaren ein und verwendet diese Repräsentation, um die Belegung der Voxel vorherzusagen, aus der die Tiefe abgeleitet werden kann. TransCG hingegen schlägt ein gewöhnliches, aber sehr effizientes neuronales Faltungsnetzwerk vor, das für die Vervollständigung der Tiefe entwickelt wurde. Abbildung 2 vergleicht die Tiefenschätzung von TransCG und LIDF.

Schlussfolgerung
Wie bei jedem Lernproblem sind die Daten der Schlüssel zu einer guten Leistung. Der Trainingsdatensatz von TransCG deckt nicht jeden Teil des Sichtfeldes gleichermaßen ab, und die gerenderten Daten, die im Rahmen von LIDF erstellt wurden, modellieren nicht alle Lichteffekte, die durch transparente Objekte hervorgerufen werden, genau.
Methoden der Tiefenvervollständigung liefern vollständigere, aber weniger genaue Tiefenkarten, und zwar aus einem Einzelbild und mit sehr kurzer Laufzeit. Diese profitieren in der Tat von einem während des Trainings implizit erlernten Verständnis der Objektformen, das ihnen hilft, robuster gegenüber variierenden Objektgrößen zu sein.
Aufbauend auf den überraschend guten Ergebnissen von LeRes, scheinen größere Datensätze mit hoher Vielfalt unerlässlich, um diese Ansätze zu verbessern. Die in TransCG vorgestellte recht einfache, aber effektive Architektur wirft auch die Frage nach der Notwendigkeit von Architekturen auf, die speziell für transparente Objekte entwickelt wurden, im Gegensatz zu dem allgemeineren Problem der Tiefenvervollständigung.
Am anderen Ende des Spektrums sind Methoden wie DexNeRF am genauesten und umgehen das Problem der Verzerrung der Trainingsdaten, da sie transduktives Lernen durchführen. Sie können auch grundlegende Garantien für ihre Konvergenz bieten.
Da sie darauf ausgelegt sind, Ansichten der Szene zu rendern, können wir durch den Vergleich ihres aktuellen Renderings mit den aufgenommenen Bildern schnell die Genauigkeit der Renderings in ihrer unmittelbaren Umgebung ermitteln.
NeRF sind eine sehr junge Forschungsrichtung, und es wurden bereits erhebliche Fortschritte bei der Konvergenzgeschwindigkeit erzielt, und es werden weitere erwartet. Die Modellierung transparenter Objekte in DexNeRF ist recht einfach, und eine fortschrittlichere Modellierung der Lichtausbreitung innerhalb des gelernten Volumens könnte zu einer erheblichen Verbesserung der Qualität der erhaltenen Geometrie führen, nicht nur für transparente Objekte, sondern für jede Szene mit komplexen Materialien.
Für eine tiefergehende Diskussion der dargestellten Studie werden LeserInnen an Challenges of Depth Estimation for Transparent Objects verwiesen.



Vor kurzem bin ich auf die Seite neueste online casino gestoßen und muss sagen, dass dies eine wirklich beeindruckende Entdeckung war. Die Plattform bietet eine riesige Auswahl an frischen Spielotheken, von denen jede ihren eigenen Stil und ihre eigenen Boni hat. Sie können die neuen Casinos in Echtzeit testen, was das Erlebnis unglaublich spannend und aktuell macht. Die Website ist benutzerfreundlich und die Qualität der Bewertungen ist auf höchstem Niveau!
This article on AI and object recognition is fascinating! It's amazing how technology can identify even transparent objects. Speaking of recognizing things, have you tried Spicy Books It's a great way to find your next steamy read with the right level of spice!
What fascinates me in this work on depth estimation for transparent objects is how methods like LeRes, DexNeRF, TransCG, and LIDF gradually move from naïve assumptions about Lambertian surfaces toward models that implicitly encode how light, geometry, and material interact, turning something that is visually “almost invisible” into a reliable 3D signal for robots and vision systems operating in messy real-world scenes. The same need for nuanced, context-aware representation shows up in emoji research: when a single heart glyph can carry different emotional “depths” across platforms, cultures, and compositions, careful encoding, categorization, and rendering become as critical as good training data and inductive biases in depth networks, and curated resources like heart-emoji.org help anchor that work by providing a focused,…
This was a really interesting read! I didn’t know much about this topic before, but the way you explained it made everything much clearer and easier to understand. It reminded me of how useful structured and persuasive methods can be, like the ones you find in Assignment Writing Help UK. Even though that’s usually about writing, the idea of organizing ideas clearly and presenting them in a way that keeps the reader engaged really applies here too. I sometimes struggle to grasp new topics quickly, but posts like this make it much easier. I liked how it was simple to follow without skipping important details. Thanks for sharing I feel like I learned something new today and will definitely keep…
Beim Experimentieren mit NeRF zur Erkennung transparenter Gläser in einem Haushaltsroboter beobachtete ich, wie die KI das Tiefenproblem mithilfe der Dichte löst. Dies inspirierte mich zu Verbesserungen an meinem Projekt – der Roboter greift das Glas nun präzise und fehlerfrei. Als ich die Methodik jedoch in einem Universitätsbericht beschreiben sollte, geriet der Text ins Chaos. Daher wandte ich mich an akademily.de , um Hilfe bei der Strukturierung zu erhalten. Die Experten dort wandelten meine Notizen schnell in kohärentes wissenschaftliches Material um. Jetzt nutze ich dieses Wissen in neuen Experimenten, und alles läuft hervorragend!