Rohit Prasad ist Vizepräsident und leitender Wissenschaftler bei Amazon Alexa. Er ist verantwortlich für Forschung und Entwicklung in den Bereichen Spracherkennung, natürliches Sprachverstehen und maschinelles Lernen, die genutzt werden, um das Nutzungserlebnis der Kunden auf den von Alexa angetriebenen Echo-Geräten zu verbessern. Hier beantwortet Rohit fünf Fragen zur Technik und Zukunft von Alexa.
Die US-amerikanische Defense Advanced Research Projects Agency begann in den frühen 1970er Jahren mit der Arbeit an Sprachtechnologie. Wie kommt es dazu, dass plötzlich diese Technik in konversationsgetriebenen KI-Technologien wie Alexa auftaucht?
Konversationelle KI als Technologie wird seit fast 50 Jahren aktiv erforscht. Das Ziel ist dabei, die Interaktion mit Maschinen so reibungslos wie die Kommunikation zwischen Menschen zu gestalten. Dies ist einer der schwierigsten Bereiche der Künstlichen Intelligenz, denn Maschinen müssen äußerst intelligent sein, um menschliche Sprache zu verstehen und in ihr zu kommunizieren, egal ob verbal oder schriftlich, oder in Kombination mit haptischen Eindrücken oder Visualisierungen.
Sprache als Schnittstelle zwischen Mensch und Maschine wurde schon immer als optimal angesehen, aber die größte Hürde für die Einführung war bisher die Schwierigkeit von Maschinen, die freisprechende und nicht über Schrift gestützte Spracheingabe überhaupt zu erkennen und zu verstehen. Das ist die Herausforderung der Fernfeld- oder Distanz-Spracherkennung, bei der ein Umgebungsgerät wie ein Echo Wörter, die aus der Ferne gesprochen werden, mit hoher Genauigkeit erkennen kann.
Mit dem Launch von Echo im November 2014 haben wir gezeigt, dass Fernfeld-Spracherkennung auch in Umgebungen mit Nebengeräuschen dank der Kombination aus maschinellen Lernalgorithmen, Daten und immenser Rechenleistung mit hoher Genauigkeit möglich ist.
Ein weiterer wichtiger Grund für die Umsetzung von Alexa ist die Vielzahl an Absichten, die sie erkennen und auf die sie reagieren kann. Sie revolutioniert alltägliche Komfortangebote wie den Zugriff auf Musik, Bücher und Videos, die Steuerung von Smart Devices im Haushalt, Kommunikation mit Freunden und Familie, den Einkauf, das Einrichten von Erinnerungsnachrichten oder das Abrufen von Informationen.
Was sind die wichtigsten Technologien hinter Alexa aus den Bereichen konversationelle KI und maschinelles Lernen?
Alexa wurde so entwickelt, dass sie sich auf der Basis ihrer Interpretation der Nutzerabsicht für die beste Reaktion im Sinne des Users entscheidet. Im Gegensatz zu Suchmaschinen antwortet sie nicht einfach mit einem Schwung von zehn blauen Links, aus denen der Benutzer dann den passendsten auswählen muss - stattdessen agiert Alexa bereits im Sinne des Benutzers, indem sie nach Bedarf klärende Fragen stellt. Es gibt mehrere Schlüsseltechnologien, die dafür bei Alexa verantwortlich sind.
Das fängt mit dem Erkennen des „Weckwortes“ an, das Alexa dazu veranlasst, die danach vom Nutzer gesprochenen Wörter überhaupt zu hören. Die Weckwort-Erkennung basiert auf Deep-Learning-Technologie, die auf dem Gerät läuft, um das vom Benutzer gewählte Weckwort zu erkennen. Die automatische Far-Field-Spracherkennung (ASR) in der Amazon Web Services-Cloud (AWS) wandelt dann das dem Wake-Word folgende Audio in Text um und stellt fest, wann der Benutzer aufgehört hat, mit Alexa zu sprechen.
„Der Erfolg und die Akzeptanz von Alexa machen uns sehr glücklich, aber wir stehen immer noch ganz vorn am Anfang des Möglichen."
Sobald Sprache in Text umgewandelt worden ist, bedient sich Alexa des NLU (Natural Language Understanding), um die Wörter in eine strukturierte Interpretation der Absicht umzusetzen, und um dann auf der Basis von mehr als 30.000 Alexa-Skills unserer eigenen und externer Entwickler eine Antwort zu formulieren.
Diese strukturierte Interpretation wird in Kombination mit verschiedenen Formen von Kontext verwendet, z. B. mit welcher Art von Gerät der Benutzer interagiert, welche Skills am wahrscheinlichsten eine Antwort geben können oder wer gerade spricht. Dieser Kontext hilft, die am besten passende Reaktion festzulegen, die Alexa nun zeigen sollte. Zur Auswahl steht dabei, entweder mit der besten Reaktion dank eines Skills zu antworten oder den Benutzer um mehr Informationen zu bitten.
Für einen natürlich wirkenden Dialog ist außerdem wichtig, wie Alexa reagiert oder klingt. Dies wird über die Text-in-Sprache-Synthese (TTS) erreicht, die beliebige Wortfolgen in natürlich klingendes, verständliches Audio umwandelt.
Bei allen oben genannten Technologien liegt der Schwerpunkt auf dem datengesteuerten maschinellen Lernen und schnellstmöglicher Rückmeldung, um in kürzester Zeit eine präzise Antwort zu liefern. Wir als Wissenschaftler und Entwickler kämpfen dabei immer mit dieser vorgegebenen Spannung zwischen Genauigkeit und Wartezeit, in der der Benutzerdialog mit Alexa beendet ist, bis sie reagiert.
Wie auch andere auf KI beruhende Technologien wird Alexa umso intelligenter, je öfter sie benutzt wird und je mehr sie über die Nutzer lernt. Wie machen die Amazon-Wissenschaftler und Entwickler Alexa klüger?
Da Alexas Gehirn hauptsächlich in der Cloud liegt, lernt sie mit jeder Interaktion dazu. Alexa verwendet eine Reihe von Lerntechniken: überwachtes, halb-überwachtes und unbeaufsichtigtes Lernen. Überwachtes Lernen ist zwar am effektivsten; aber es lässt sich nicht skalieren, da wir manuelle Eingaben nicht in dem Tempo erzeugen können, das erforderlich wäre, um Alexa für unsere Kunden kontinuierlich verbessern zu können. Daher wenden unsere Wissenschaftler und Entwickler ständig neue Lerntechniken an, um die Abhängigkeit von manuellen Eingaben beim Einspeisen unserer statistischen Modelle zu verringern. Da gibt es zum Beispiel das aktive Lernen. Das ist eine Unterart der halb-überwachten Lerntechniken, bei denen das System selbst festlegt, welchen Teil der Interaktionen es von einem menschlichen Experten benötigt. Diese Art des Lernens kommt überall in unseren Technologien zum Einsatz. Unbeaufsichtigtes Lernen ohne vorgegebene Antworten wenden wir ebenfalls an, um Alexa intelligenter zu machen, insbesondere wenn es um Spracherkennung geht. Außerdem nutzen wir auch das Konzept des Lerntransfers, so dass Alexa von einem Skill für einen anderen Skill oder sogar in eine andere Sprache übersetzt lernen kann.
Was ist einzigartig an der konversationellen KI-Forschung bei Amazon?
Was uns einzigartig macht, ist, wie wir die Forschung im Allgemeinen angehen. Jedes Forschungsproblem beginnt mit einer rückwärtsgewandten Methodik, die sich aus unserer Herangehensweise an die Produktentwicklung in Amazon ergibt. Die Grundidee ist einfach. Wir beginnen mit einem Entwurf, der festlegt, was die Forschung, falls erfolgreich, letztendlich erreichen oder revolutionieren würde. Dann arbeiten wir rückwärts von diesem Ziel aus zurück, entwerfen davon ausgehend unsere Experimente und die Meilensteine, mit denen wir den Forschungsfortschritt überprüfen. Wir glauben an das schnelle Experimentieren und daran, so früh wie möglich unsere Hypothesen zu beweisen oder zu entkräften.
Ein weiterer einzigartiger Aspekt der Konversations-KI-Forschung bei Amazon ist, dass wir ein bahnbrechendes Produkt in Form von Alexa haben, mit dem wir neue Algorithmen und Technologien skalieren können. Dies untermauert zusätzlich unsere technischen Fortschritte, die wir auf Konferenzen oder in Zeitschriften veröffentlichen.
Die Kombination aus großen Datenmengen, nahezu unendlicher Rechenleistung, weitreichender Expertise unseres Teams bei KI-Problemen, von denen man lernen kann, und unsere Risikobereitschaft machen Amazon wohl zum besten Unternehmen in der Welt, wo man KI-Forschungsträume verwirklichen kann.
Und wie sieht die Zukunft der Konversations-KI aus?
Ich finde die Zukunft der KI insgesamt höchstspannend. KI wird eine tiefgreifende Wirkung auf die Gesellschaft haben und uns dabei helfen, neue Fähigkeiten zu erlernen, die wir uns heute noch nicht einmal vorstellen können. Was Konversations-KI angeht, glaube ich, dass wir immer noch an Tag eins stehen. Der Erfolg und die Akzeptanz von Alexa machen uns sehr glücklich, aber wir stehen immer noch ganz vorn am Anfang des Möglichen.
In den nächsten fünf Jahren wird sich KI multidimensional weiterentwickeln, indem wir weitere Fortschritte beim maschinellen Lernen und beim logischen Denken machen. Auf Basis dieser Fortschritte wird Alexa kontextbezogener in der Erkennung, Interpretation und Reaktion auf Benutzeranfragen werden. Alexa wird immer schneller hinzulernen, da das unbeaufsichtigte Lernen in ihrer ‘Ausbildung’ immer dominanter wird.
Bei alltäglichen Themen und Nachrichtenereignissen wird sich Alexa bald schon ganz natürlich mit Menschen unterhalten können. Genau darauf konzentrieren wir uns auch mit unserem Alexa-Preis, einem Hochschulwettbewerb zur Konstruktion von „Socialbots“, die ein 20-minütiges Gespräch mit einem Menschen schlüssig und ansprechend führen können. Unsere Kunden haben mehr als 100.000 Stunden Gesprächen mit den Alexa Prize Social Bots von 2017 registriert. Unsere Social Bots für den Alexa-Preis 2018 werden im Mai online gehen. Es macht riesig Spaß, sie auszuprobieren. Sag einfach „Alexa, lass uns chatten“.