Dr. Michael Suppa im Interview
Je flexibler der Roboter, desto mehr braucht er Wahrnehmung
Dr. Michael Suppa, Mitgründer und Geschäftsführer von Roboception, hat die 3-D-Bildverarbeitung aus der Forschung am Deutschen Zentrum für Luft- und Raumfahrt (DLR) in die industrielle Anwendung gebracht. Im Interview erklärt er, wie Roboter heute Objekte erkennen und greifen, warum synthetische Trainingsdaten einen Durchbruch bedeuten und welche Rolle KI-basierte Wahrnehmung für Produktion, Logistik und humanoide Roboter spielen wird.
VDI: Sie haben viele Jahre zur Roboterwahrnehmung geforscht, bevor Sie Roboception gegründet haben. Welche Lücke wollten Sie schließen?
Michael Suppa: Roboception ist 2015 als Spin-off aus dem DLR entstanden. Wir hatten dort intensiv an 3-D-Bildverarbeitung gearbeitet und gesehen, dass die Industrie noch fast ausschließlich auf 2-D-Vision setzte – etwa für Qualitätsprüfungen. Was fehlte, war die Fähigkeit, die Geometrie und Lage von Objekten in unstrukturierten Szenen zu erfassen. Genau das brauchen Roboter aber, um Aufgaben wie Bin Picking oder Maschinenbeladung ausführen zu können. Unsere Idee war, diese Technologie kommerziell zugänglich zu machen und zwar nicht nur für Bildverarbeitungsexperten, sondern für Automatisierungsintegratoren. Wir haben Smart-Kameras entwickelt, die nicht nur Bilder liefern, sondern vor allem direkt Koordinaten und Greifpunkte für den Roboter berechnen. Nur fünf bis zehn Prozent aller Integratoren sind Machine-Vision-Spezialisten. Wir wollten die Technologie auch für die übrigen zugänglich machen.
Wo steht die Roboterwahrnehmung heute und wo nicht?
VDI: Roboception spricht davon, Robotern „Sehen und Denken“ zu ermöglichen. Wo stehen wir heute realistisch?
Michael Suppa: Bei der Lageschätzung bekannter Objekte sind wir mittlerweile sehr gut, ob für Palettierung, Kommissionierung oder Maschinenbeladung. Was noch fehlt, ist die semantische Klassifikation: also in wirklich unstrukturierten, gar chaotischen Umgebungen zu erkennen, welche Objekte vorliegen und welche Eigenschaften sie haben. In industriellen Prozessen herrscht aber eine gewisse Ordnung. Wir arbeiten deshalb mit Objektkategorie, etwa Postobjekte oder Konsumgüter. Für vollkommen offene Alltagsumgebungen setzen wir auf kommende Foundation-Modelle, dort geht es aber eher um Generalität als um Präzision.
VDI: Sie trainieren Ihre Modelle mit einer Kombination aus synthetischen und realen Trainingsdaten. Warum?
Michael Suppa: In der Robotik haben wir nicht annähernd so viele reale Daten wie etwa beim autonomen Fahren. Und reale Daten müssen aufwendig gelabelt werden. Synthetische Daten haben einen entscheidenden Vorteil: Ich platziere ein Objekt in einer simulierten Szene und kenne automatisch seine exakte Position – das manuelle Labeling entfällt komplett. So kann ich mit zwei- bis dreitausend synthetischen Bildern erreichen, wofür ich sonst zwanzig- bis dreißigtausend reale Bilder bräuchte. Außerdem kann ich gezielt Szenen erzeugen, die mich interessieren; mit bestimmten Lichtverhältnissen, Objektanordnungen oder Hintergründen. Den verbleibenden Sim-to-Real-Gap schließen wir dann mit nur zehn bis fünfzehn echten Aufnahmen.

ZUR PERSON:
Dr. Michael Suppa ist Mitgründer und Geschäftsführer der Roboception GmbH in München, die 3-D-Wahrnehmungslösungen für Robotik entwickelt. Er studierte Elektrotechnik und Maschinenbau an der Leibniz Universität Hannover. Er promovierte 2007während seiner Tätigkeit als wissenschaftlicher Mitarbeiter am Deutschen Zentrum für Luft- und Raumfahrt (DLR) und war dort zuletzt als Abteilungsleiter für Perzeption und Kognition sowie stellvertretender Institutsleiter tätig. 2015 gründete er Roboception als DLR-Spin-off. Das Unternehmen entwickelte u. a. den 3-D-Sensor rc_visard und die Software rc_reason. Die Lösungen wurden mehrfach ausgezeichnet, etwa mit dem iF Design Award, dem Red Dot Award und dem EU Robotics Technology Transfer Award. Suppa engagiert sich zudem in Forschungsprojekten und berät Robotik-Start-ups bei Strategie und Finanzierung.
Unbekannte Objekte greifen: Der Weg über Kategorien
VDI: Wie gelingt es Systemen, Objekte zu handhaben, die sie nie zuvor gesehen haben?
Michael Suppa: Wir arbeiten mit einem breit trainierten Basisnetz, das in Richtung Foundation Model geht. Dieses verfeinern wir mit synthetischen Daten für bestimmte Objektkategorien, etwa Bleche oder Verpackungen. Der Kunde will meist nicht ein einzelnes spezifisches Objekt erkennen, sondern eine ganze Kategorie beherrschen. Dieser Ansatz ist ein pragmatischer Mittelweg: Er liefert mehr Genauigkeit als ein rein allgemeines Modell, lässt sich gezielt verbessern und zuverlässig benchmarken. Und er passt zur industriellen Realität, denn ein Unternehmen verarbeitet Bleche oder Konsumgüter, aber selten beides auf derselben Linie.
VDI: Sie setzen auf ein pipeline-basiertes Softwaredesign. Warum nicht End-to-End?
Michael Suppa: Ein End-to-End-trainiertes Modell lernt genau einen Use Case – ändert sich etwas, muss neu trainiert werden. Unser modularer Ansatz macht die Modelle transferierbar zwischen Anwendungen und Standorten. Wir fokussieren auf Greifpunkte und Objekterkennung, nicht auf Bahnplanung oder Kinematik. So wechseln wir relativ einfach von Anwendung A zu Anwendung B. Der Kunde erwartet zu Recht, beim nächsten Projekt schneller zu sein und nicht jedes Mal bei Null zu starten.
Qualitätssicherung: Kein Release ohne Verbesserung
VDI: Wie stellen Sie sicher, dass lernende Systeme im Produktionsbetrieb zuverlässig bleiben?
Michael Suppa: Jedes neue Release durchläuft automatisierte Regressionstests über rund zehn standardisierte Testszenarien. Die Prämisse ist klar: Die Erkennungsqualität darf nie schlechter werden. Sie muss gleichbleiben oder sich verbessern, auch wenn es nur eine Runtime-Verbesserung ist. Das Grounding über kontrollierte synthetische Daten gibt uns dabei eine hohe Reproduzierbarkeit. VDI: Welche Anwendungen werden am stärksten von KI-basierter 3-D-Wahrnehmung profitieren? Suppa: In der Produktion wird sich vieles bei der Zuführung ändern. Mechanische Vereinzelung und spezielle Vorrichtungen werden zunehmend überflüssig. Roboter können flexibler beladen, ein größeres Variantenspektrum auf derselben Maschine verarbeiten und gleichzeitig eine Qualitätskontrolle durchführen. Das macht auch kleinere Losgrößen automatisierbar und hilft gegen den Fachkräftemangel. In der Logistik sehen wir das automatisierte Be- und Entladen von Fahrzeugen als den nächsten großen Schritt. Dies ist heute noch ein aufwendiger manueller Prozess, bei dem Fahrer teils Stunden mit der Beladung verbringen. Und dann kommen die Humanoiden: Auch sie werden auf präzise 3-D-Wahrnehmung angewiesen sein. Unsere Technologie ist plattformunabhängig – ob Industrieroboter, mobile Plattform oder humanoider Roboter. Je flexibler ein System eingesetzt wird, desto mehr braucht es diese Wahrnehmungsfähigkeit.
Erfahren Sie mehr auf der Hannover Messe:
Am Donnerstag gibt Dr. Michael Suppa (Roboception) Einblicke in die Rolle von KI-basierter 3-D-Wahrnehmung als Schlüsseltechnologie der Robotik. Besuchen Sie seinen Vortrag „3D perception as a key capability for AI-based robotics“. Hier zeigt er, wie Roboter mithilfe kombinierter Trainingsdaten bekannte und unbekannte Objekte zuverlässig erkennen und handhaben. Anhand konkreter Beispiele aus Produktion und Logistik erläutert er zudem, wie sich Wahrnehmungsfähigkeiten skalieren und in bestehende Automatisierungslösungen integrieren lassen.
Donnerstag, 23.04.2026, 14:45–15:05 Uhr | Halle 26, Stand E43 – Expert Stage 1.
Interview: Gudrun Huneke


