„Ich möchte solche Schuhe, aber mit flacherem Absatz.“ „Welche Oberteile passen zu dieser Hose?“ In nicht allzu ferner Zukunft dürften solche Sätze nicht mehr nur aus Boutiquen und Kaufhäusern, sondern auch aus deutschen Wohnzimmern zu hören sein. Kleidung ist hierzulande die online meistgekaufte Produktkategorie und ein Berliner Amazon Team will den Online-Einkauf von Hosen, Schuhen und Co. grundlegend verändern. „Seit 20 Jahren kaufen Kund:innen Kleidung im Netz auf die gleiche Art und Weise ein“, sagt Michael Donoser, Senior Applied Science Manager bei Amazon und Leiter des Forschungsteams Maschinelles Sehen in Berlin. „Sie geben in die Suchleiste Schlagworte ein und scrollen anschließend durch die Treffer. Ist nicht das Passende dabei, müssen sie ihre Suchanfrage ändern. Wir wollen, dass Kund:innen zukünftig anhand der Treffer ihre Suche verfeinern und erweitern können – ganz einfach per Sprachbefehl“. Kund:innen suchen also zum Beispiel nach einem Sommerkleid, sagen dann „ich möchte ein Kleid wie dieses, aber mit einem zarten Blumenmuster“ und bekommen Sekunden später das Gewünschte angezeigt. Auch eine zum Kleid passende Jacke und Schuhe lassen sich so erfragen und ganze Outfits generieren. Empfängerin der Anweisungen ist die Amazon Sprachassistentin Alexa. Ihr teilen Kund:innen ihre Wünsche direkt mit, per Sprachbefehl oder eingetipptem Text. „Visiolinguistische Produktfindung“ heißt die neue Art des Online-Einkaufs, die das Berliner Team gemeinsam mit dem internationalen Alexa Shopping-Team entwickelt. Hinter diesem sperrigen Begriff verbirgt sich jede Menge Technologie – genau genommen Maschinelles Lernen (ML) und Künstliche Intelligenz (KI).
Michael beschäftigt sich seit rund 20 Jahren mit Computer Vision (CV), einem Teilgebiet der KI. Zehn Jahre leitete der promovierte Wissenschaftler aus Österreich eine CV-Forschungsgruppe an der Universität Graz, bevor er 2014 zu Amazon in Berlin wechselte. Dort führt er ein 16-köpfiges Team aus internationalen Wissenschaftler:innen und Software-Entwickler:innen. „An der Universität habe ich manchmal den praktischen Bezug zu meiner Forschung vermisst. Bei Amazon gefällt mir, dass ich Innovationen in der Forschung in funktionsfähige Produkte umsetzen kann“, sagt der 43-Jährige.
Maschinelles Lernen ist wie Sport: ohne regelmäßiges Training kein Erfolg
Doch bis das neue Einkaufserlebnis „Personal Shopping Assistant“ vollumfänglich funktioniert, müssen alle Beteiligten noch etwas Ausdauer beweisen. Die KI kategorisiert Kleidungsstücke automatisch, erkennt Farben, Schnitte, Stil und Materialien. Allerdings klappt das noch nicht immer. „Materialien sind ein Knackpunkt“, erzählt Michael. Der Algorithmus kann anhand von Bildern nicht ohne weiteres zwischen Leder oder Kunstleder, zwischen Seide oder Polyester unterscheiden. „Wir sind in der Trainingsphase“, sagt Michael. „Wie ein Sportler, der langsam, aber stetig Muskeln aufbaut, trainieren wir unser System mit Produktdatensätzen. Mit jeder Eingabe, mit jeder Interaktion werden die Suchergebnisse präziser.“ Neben der Herausforderung, den Algorithmen beizubringen, Begriffe wie „enger geschnitten“, „formeller“, oder „zartes Blumenmuster“ in konkrete Produktvorschläge umzumünzen, beschäftigt das Berliner Team auch die Erfassung und computerbasierte Verarbeitung der menschlichen Sprache, das sogenannte Natural Language Processing (NLP). Das System muss nicht nur die Anweisung „ich möchte ein Business-Kleid“ in Produkttreffer umsetzen, sondern sie gleichermaßen von Personen mit bayerischer, sächsischer oder ostfriesischer Mundart verstehen. Auch hier spielt Algorithmen-Training die entscheidende Rolle.
Produktdaten als Schlüssel der KI-Forschung
Was für den Bodybuilder die Trainingseinheiten auf der Hantelbank, sind für Algorithmen die Produktdaten. Je mehr sie davon bekommen, je häufiger sie damit trainieren, desto besser werden sie. „Der riesige Produktkatalog von Amazon bietet für unsere Algorithmen reichlich Futter. Doch ich weiß aus meiner Uni-Zeit, wie schwierig es für Forschende sein kann, an Daten zu kommen. Sie liegen ja nicht einfach auf der Straße“, sagt Michael. Er und sein Team forschen deshalb nicht nur an Amazon-eigenen Services, sie sind auch Teil eines internationalen Amazon Forscherteams, das gemeinsam mit der Universität Berkeley den Amazon Berkeley Objects Dataset veröffentlicht hat. Der Datensatz enthält Bilder von knapp 150.000 Produkten – u.a. Möbel, Mode, Technik und Kosmetik –, die alle mit Metadaten wie mehrsprachigem Titel, Marke, Modell, Jahr, Produkttyp, Abmessungen und Material sowie teilweise mit drehbaren 3D-Modellen versehen sind. Nach einer kurzen Registrierung steht er Forschenden kostenlos zur Verfügung. Mit dem Produktdatensatz könnten neue, leistungsfähigere KI-Modelle für bildbasiertes Einkaufen im Netz angestoßen werden. Davon könnten nicht nur Kund:innen weltweit profitieren, sondern auch Einzelhändler:innen, denen damit neue Möglichkeiten der Produktdarstellung und des Verkaufs im Netz offenstehen, so die Hoffnung der Initiatoren. „Möbel als 3D-Objekte direkt im Raum ansehen, Augmented Reality, persönliche Avatare, die virtuell Kleidung anprobieren – um nur mal ein paar Schlagworte zu nennen“, so Michael. „Computer Vision hat in den letzten Jahren wahre Quantensprünge gemacht und der interaktive Einkaufsbummel im Wohnzimmer hat noch enormes Potential – für Händler:innen wie für Kund:innen.“