Digitaler Assistent

Was taugen Siri, Cortana und Google Now?

Digitale Assistenten auf dem Handy sind schwer angesagt. Apple, Google und Microsoft buhlen mit Cortana, Google Now und Siri um die Gunst der Nutzer.

„Sag Siri einfach, was es machen soll. Siri versteht, was du sagst, weiß, was du meinst, und spricht sogar mit dir“. So, wie Apple für sein smartes „Speech Interpretation and Recognition Interface“ wirbt, so bezeichnet Microsoft sein Pendant Cortana als „neue lernfähige persönliche Assistentin“. Da kann Google nicht hinten anstehen: „Die richtigen Informationen zur richtigen Zeit. Mit Google Now bleiben Sie über alles auf dem Laufenden, was Sie interessiert“, verspricht das Unternehmen.

Der Tenor ist bei allen drei großen IT-Konzernen derselbe: Die persönlichen Assistenten sollen das Leben einfacher machen.

Was steckt hinter den digitalen persönlichen Assistenten?

Aber stimmt das überhaupt? Was leisten Siri, Cortana und Google Now wirklich? Wie funktionieren die digitalen Assistenten und woher bekommen sie die persönlichen Informationen über ihre Nutzer? Drohen eventuell Gefahren durch die Preisgabe dieser Daten, und welche Auswirkungen ergeben sich durch ihre Nutzung? Das sind nur einige der Fragen, denen wir in diesem Überblick nachgehen.

Rückblende: Software für Spracherkennung existiert schon seit den 1990er-Jahren, doch ihre Qualität war enttäuschend. Zwar funktionierte im Prinzip das Diktieren am PC, praxistauglich aber war die Erkennung nicht. In der Folge sind die meisten Programmhersteller wieder vom Markt verschwunden, und bis auf wenige Nischen wie in der Medizin und der Justiz hat sich Diktier-Software nie wirklich durchgesetzt. Eine funktionierende Spracherkennung aber ist essentielle Voraussetzung für digitale Assistenten: Wenn der Assistent nicht versteht, was der Benutzer von ihm möchte, kann er natürlich auch keine ordentliche Antwort geben.

In der Zwischenzeit aber haben sich Voraussetzung und Funktionsweise völlig geändert. Arbeitete die Sprach-Software früher auf einem einzelnen PC, läuft sie heute in der Cloud. Einzige Voraussetzung ist also eine ausreichend schnelle Verbindung, die Rechenpower für die Sprachanalyse selbst ist dann praktisch unbegrenzt. Wie leistungsfähig solche ins Internet ausgelagerten Anwendungen bereits sind, illustriert Skype. Der Dienst ermöglicht Telefongespräche mit Übersetzung praktisch in Echtzeit. Aktuell unterstützt er Englisch, Spanisch, Französisch, Deutsch, Italienisch und Mandarin, weitere Sprachen sollen folgen. Der Schreib-/Chat-Modus verarbeitet sogar über 50 Sprachen, ebenso der Online-Übersetzer von Google.

Skype Translator übersetzt Telefonate über das Internet praktisch in Echtzeit in andere Sprachen.
Skype Translator übersetzt Telefonate über das Internet praktisch in Echtzeit in andere Sprachen.
Foto: Skype

Big Data und fast unbegrenzte Rechenpower in der Cloud

Auf künstliche Intelligenz setzt Google auch bei der Datenanalyse von Google Inbox und Google Photos. Das Mailprogramm gruppiert eingehende Nachrichten automatisch und hebt wichtige Infos hervor, ohne dass man eine Mail erst öffnen muss. Zudem werden die Termin-und Aufgabenverwaltung automatisiert.

Was die Inbox für Mails ist, ist Google Photos für Bilder und Videos. Die Android-und Web-App durchsucht die eigenen Aufnahmen nach Stichwörtern, ohne dass man zuvor Stichworte vergeben muss. Google erkennt also die Inhalte der Bilder automatisch und ordnet ihnen dann Tags zu. Das funktioniert auch für Personen und Gesichter.

Über die Performance aus der Cloud hinaus benötigen die digitalen Helfer weitere Informationen, wenn sie wirklich persönliche Hilfen darstellen sollen. Sonst kann der Nutzer zwar sein Smartphone mit Navigiere mich zum Ort X anweisen, doch inzwischen leisten Google Now und Co. längst mehr: Beispielsweise erinnern sie in Abhängigkeit der Verkehrslage daran, rechtzeitig zum Termin am Ort X aufzubrechen. Damit der Assistent dies eigenständig erkennt, muss er aber Einblick in den Kalender des Nutzers haben und dem eingetragenen Termin einen Ort zuordnen können. Zusammen mit den Verkehrsinfos in Echtzeit wissen Apple und Google dann, wann man tatsächlich aufbrechen muss.

Dieses Beispiel verdeutlicht, dass die digitalen Helfer sowohl auf allgemeine als auch auf persönliche Daten zugreifen müssen. Dazu zählen unter anderem E-Mails, Termine, Kontakte und Adressen, den Such-und Browserverlauf, den Aufenthaltsort und Ähnliches. Im neuen Android 6 geht Google sogar noch einen Schritt weiter: „Now on Tap“ heißt die Erweiterung auf alle Apps, die den Inhalt der aktiven Applikation oder Webseite analysiert. Egal, ob man gerade Musik abspielt, das Kinoprogramm liest oder sich per Chat mit Freunden unterhält, Google ermöglicht jeweils kontextspezifische Informationen. Tippt man den Home-Button kurz an und hält ihn anschließend gedrückt, zeigt das Mobilgerät die passenden Einzelheiten. Auch kann man unspezifisch Wann hat das Restaurant geöffnet? fragen, wenn zuvor von einem bestimmten Lokal die Rede war.

Bei den proaktiven Funktionen hinkte Siri bisher hinter Google her, doch mit iOS 9 hat Apple nun aufgeholt. Der neue „Proactive Assistent“ koordiniert App-Inhalte, Termine und Orte. So versucht Apple bei einem ankommenden Anruf ohne sichtbare Rufnummer anhand der letzten Chats und Mails den möglichen Anrufer mit einer Einblendung wie „Vielleicht: Hermann Maier“ zu identifizieren. Und „Siri Suggestions“ schlägt in der neuen Spotlight-Suche Informationen, Apps oder Kontakte vor, die zu Aufenthaltsort, Uhrzeit oder den persönlichen Vorlieben passen könnten. Insgesamt hat Siri gegenüber iOS 8 deutlich zugelegt und arbeitet jetzt viel stärker personalisiert.