Hochwertiger Input für die KI aus dem Smartphone

Immer mehr Anwendungen nutzen die Möglichkeiten von Machine Learning und neuronalen Netzen zur Objekterkennung. Doch wie leistungsfähig eine Künstliche Intelligenz bei solchen Aufgaben ist, hängt unter anderem von der Qualität der Trainingsdaten ab. Mit geeigneten Tools lassen sich geeignete Datensätze per Tablet und Smartphone generieren.

Ist die Straße frei oder kreuzt ein Hindernis den Fahrweg? Brauchen die Maispflanzen mehr Wasser? Wo liegt die nächste Schraube, die der Roboter greifen und einsetzen soll? Die automatisierte Auswertung von Bilddaten hat sich zu einer Domäne der Künstlichen Intelligenz (KI) entwickelt. Die Spanne der Anwendungen reicht von Visualisierungslösungen in der Industrie über Erkennungsaufgaben in der Medizin, der Agrarwirtschaft und der Logistik bis hin zum Autonomen Fahren.

Besonders geeignet für die Objekterkennung sind neuronale Netze, also Netzwerke, die sich an der Struktur des menschlichen Gehirns orientieren. Doch die Netzarchitektur ist nur ein Teil des Erfolgsgeheimnisses. Diese Netze müssen erst für die spezifischen Aufgaben mittels Machine Learning trainiert werden. Dafür benötigt man geeignete Datensätze aus Bildern und informationstechnischen Beschreibungen. Die Qualität dieser Trainingsdaten entscheidet mit über die spätere Erkennungsleistung im Realbetrieb.

Traditionelle Datengewinnung

Für zahlreiche Alltagsgegenstände und -objekte – Personen, Tiere, Autos und etliches mehr – gibt es bereits qualitativ hochwertige Trainingsdatensätze, die online frei verfügbar sind. In der Logistik und der Industrie werden jedoch immer wieder Datensätze für neue Objekte benötigt. Solche initialen Trainingsdaten zu generieren ist bislang sehr aufwändig. Das zugrundeliegende Verfahren nennt sich Datenannotation.

Dabei werden bestimmte Bedingungen oder Darstellungen, die ein Datenobjekt erfüllen muss, festgelegt. Diese Bedingungen sind durch die Beschaffenheit des neuronalen Netzes und des Trainingsprozesses festgelegt. Danach werden die Annotationen zu den entsprechenden Bildern generiert. Dazu ist es nötig, im Bildmaterial mittels Begrenzungsrahmen („Bounding Box“) das gewünschte Objekt zu markieren und diese Bilder mit weiteren Daten zu ergänzen, insbesondere Objektbezeichnung bzw. Objektklasse, aber auch weitere Daten zur Beschreibung des Objektes oder seines Kontextes, wie Größe oder Position.

Es gibt bereits eine Vielzahl an Lösungen und Vorgehensweisen zur Datenannotation. Insbesondere folgende fünf Verfahren sind in der Praxis am häufigsten Anzutreffen:

Einzeldatengenerierung: Manuelle Annotation einzelner Bilder eines Videos, sogenannter Frames;
Crowdsourcing: Projekte zum Zusammenführen von Datensätzen mittels Einzeldatengenerierung über verschiedene Quellen;
Teilautomatisiere Verfahren: Datenerstellung mittels Propagation, dem Kopieren von Annotationen bei statischen Objekten, oder der linearen Interpolation bewegter Objekte aus Einzelframes von Videos. Intelligentere Unterstützung ermöglichen Tools wie Objekt-Tracker oder über vortrainierte Modelle – sofern es bereits geeignete Daten und Modelle für die betreffenden Objekte gibt;
Data Augmentation: Künstliche Erweiterung bestehender Datensätze, indem annotierte Bilder beispielsweise gedreht, gespiegelt, verzerrt oder verrauscht werden;
Synthetische Daten: Automatisierte Erstellung zufälliger Trainingsdaten anhand modellierter Objekte.

Zum Teil können diese Verfahren nur auf bereits vorhandene Daten aufsetzen. Andere benötigen zu viel Zeit, um ausreichend umfangreiche Datensätze zu generieren. Gerade für Bereiche und Objekte, die von Grund auf neu erschlossen werden sollen, wie beispielsweise neuartiger Waren im Logistikzentrum, müssen daher andere Wege der Datenannotation gefunden werden, die eine zeitnahe Inbetriebnahme der Lösung ermöglichen.

Wege zur mobilen Datenannotation

Mobile Endgeräte wie Smartphones und Tablets verfügen mittlerweile über eine oder gar mehrere hochauflösende Kameras sowie eine immer bessere Rechenleistung. Damit eignen sie sich hervorragend für die Datenannotation: Sie können sowohl Fotos und Videos der Objekte aufnehmen als auch Tools zur Unterstützung der Annotation ausführen, wie Objekt-Tracker und Segmentierungs-Algorithmen. So können Nutzerinnen und Nutzer das Objekt, das auf dem mobilen Endgerät angezeigt wird, mit einer Bounding Box annotieren. Der Segmentierungs-Algorithmus passt den Begrenzungsrahmen anhand eindeutiger Merkmale weiter an. Mittels Objekt-Tracker kann das Objekt Frame-übergreifend – also von Bild zu Bild – verfolgt werden.

Das Objekt kann somit aus unterschiedlichen Winkeln und Entfernungen aufgenommen werden, während die Bounding Box nur einmal beim Start der Aufzeichnung definiert wird oder durch gelegentliche Neusegmentierung und Anpassung des Begrenzungsrahmens optimiert wird. Ist ein Objekt aus allen Perspektiven aufgenommen, wird das Vorgehen beim nächsten Objekt wiederholt, bis sich ein ausreichend großer Trainingsdatensatz angesammelt hat. Vor dem Hochladen der Daten, beispielsweise in einen Cloud-Speicher, lassen sich bereits einzelne, abseitsgelegene Annotationen oder verschwommene Bilder aussortieren. Auf diese Weise wird die Qualität der Trainingsdaten frühzeitig verbessert. Ebenso lässt sich mit den Trainingsdaten ein Neuronales Netz vortrainieren und das Ergebnis auf dem mobilen Endgerät nutzen. Zum einen zum Test der Erkennungsqualität, zum anderen zur automatisierten Datenannotation, die das weitere Sammeln von Trainingsdaten vereinfacht.

Blogbild-machine-learning-1

Angepasste Technik

Zu beachten sind dabei die technischen Voraussetzungen des mobilen Endgeräts. In der Regel eignet sich ein Tablet, dank des größeren Displays und der besseren Performance, eher als ein Smartphone. Ebenso lassen sich mit dem Einsatz unterschiedlicher Objekt-Tracker, Segmentierungs-Algorithmen und Machine-Learning-Modelle bessere Erfolge erzielen. So kann man im laufenden Betrieb auf sich ändernde Situationen – von der Beleuchtung über Objektgröße und -art bis hin zum Wetter – reagieren. Dieses Vorgehen verspricht eine höhere Effizienz und qualitativ hochwertigere Annotationen.

Es gibt auch Einsatzgebiete, in denen die integrierte Kamera nicht zum Einsatz kommen kann, wie in bildgebenden Verfahren der Medizin. Doch auch hier kann das Grundkonzept angewendet werden, indem Live-Daten von Ultraschall, MRT oder PET-CT vom medizinischen Personal während der Routine-Untersuchungen markiert werden, um gesundes und auffälliges Gewebe zu unterscheiden. Auf diese Weise lassen sich die benötigten Trainingsdaten für KI-Modelle erzeugen, die später bei der Erkennung von Erkrankungen unterstützen.

Breite KI-Skills-

EDAG Engineering hat in den vergangenen Jahren ein umfangreiches Know-how im Bereich künstlicher Intelligenz aufgebaut. Dabei stehen nicht nur praxisnahe Anwendungen im Fokus. Auch die Entwicklung und Optimierung von Konzepten und Verfahren unterschiedlicher Disziplinen treiben die KI-Experten bei EDAG voran. Ein solches Beispiel ist die effiziente Erzeugung von Trainingsdaten für neuronale Netze mittels mobiler Endgeräte. Falls Sie weitere Fragen zu diesem Thema haben, wenden Sie sich direkt an Johannes Georg, Lead Software Architect. Oder laden Sie sich gleich hier das ausführliche Whitepaper „Wie Sie schnell und effizient Trainingsdaten für neuronale Netze generieren“ herunter.

Edag Weltweit

tech insights

Hochwertiger Input für die KI aus dem Smartphone

Traditionelle Datengewinnung

Wege zur mobilen Datenannotation

Angepasste Technik

Breite KI-Skills-

Johannes Georg

Der Turbo für innovative Bike-Projekte

Interoperable Datenplattformen für Städte und Industrie

Effizientes Unit-Testing in C

Chancen durch Digitalisierung im Gesundheitswesen

EDAG

Edag Weltweit

tech insights

Hochwertiger Input für die KI aus dem Smartphone

Traditionelle Datengewinnung

Wege zur mobilen Datenannotation

Angepasste Technik

Breite KI-Skills-

Johannes Georg

Der Turbo für innovative Bike-Projekte

Ähnliche Beiträge

Interoperable Datenplattformen für Städte und Industrie

Effizientes Unit-Testing in C

Chancen durch Digitalisierung im Gesundheitswesen

EDAG