Künstliche Intelligenz bei der Spracherkennung und -ausgabe

    Aus WISSEN-digital.de

    Ki sprache.jpg Digitale Stimmen sind aus unserem Alltag nicht mehr wegzudenken. Sie informieren uns über den Wetterbericht, leiten uns sicher durch den Straßenverkehr oder informieren uns noch in der U-Bahn über die nächste Haltestelle. Sprechende Assistenten wie bei der Autonavigation, Siri, Alexa oder Google Assistant, sind längst ein Teil unseres Lifestyles und finden sich auf unseren Smartphones oder in unseren Wohnzimmern. Dabei ist digitale Stimmerzeugung nicht nur auf Sprachassistenten beschränkt.

    Übersetzungssoftware

    Auch automatisch erzeugte Tonspuren bei übersetzten Filmsequenzen bedienen sich der modernen Technologie der Stimmnachbildung. Dank dieser neuen Technik ist es möglich aus der Tonspur in einer Sprache, dutzende Tonspuren in verschiedenen Sprachen zu generieren. Dies stellt eine unglaubliche Innovation dar, die auch kleine Firmen geschickt für sich nutzen können. Die Idealvorstellung dahinter: Videos in beliebiger Sprache können zukünftig nicht nur natürlich übersetzt, sondern auch in der jeweiligen Wunsch-Sprache synchronisiert werden.

    Übersetzungssoftware, wie sie zum Beispiel von der Firma vidby angeboten wird, macht dies möglich. Als Beispiel für die Leistungsfähigkeit kann man sich beispielhaft dieses Video ansehen, dessen Audiospur ausschließlich durch die Software generiert wurde. Sprache in Kombination mit visuellen Inhalten ist wohl das effektivste Kommunikationsmittel. Wenn es einer Firma gelingt, ihre Videoinhalte in Dutzenden Sprachen zu präsentieren, ist dies ein enormer Wettbewerbsvorteil. Durch die Erreichbarkeit der Kunden in allen relevanten Ländern können neue Märkte schneller als je zuvor erschlossen werden.

    Egal ob PR-Clips, Tutorials, Produktpräsentationen, Aufbauanleitungen oder die Weihnachtsansprache des CEOs: Endlich ist es möglich, seine Kunden in ihrer Landessprache zu erreichen und für die Firma oder das Produkt zu begeistern. Dank leistungsstarker Übersetzungssoftware können diese Prozesse vollkommen automatisiert ablaufen. Dabei wird nur ein einziger Mitarbeiter benötigt, um aus dem Originalvideo Dutzende Versionen in verschiedenen Sprachen zu erstellen. Die Vorteile einer schnellen Übersetzungssoftware sind immens. Sie ermöglicht eine effektive Ausweitung der Reichweite, spart Zeit und Kosten und liefert schnell und zuverlässig hochqualitative Ergebnisse.

    Künstliche Intelligenz in der Spracherkennung

    Für Nutzer von Übersetzungssoftware sind vor allem die Zuverlässigkeit und die Nutzerfreundlichkeit von zentraler Bedeutung. Untertitel bei fremdsprachigen Filmen werden immer öfter durch synthetische Sprachausgabe ersetzt. Kommunikation soll schnell, intuitiv und bequem sein. Sprachgesteuerte Geräte, Voice User Interfaces (VUI) genannt werden immer beliebter und schon ein Drittel der jungen Generation nutzt Sprachassistenten von Apple, Windows oder Google. Die Eingabe von Befehlen erfolgt nicht mehr über Tastatur oder Touchscreens, sondern über Sprachanweisungen. Auch sind wir es mittlerweile gewohnt, das Feedback der Maschine nicht mehr auf einem LCD-Display abzulesen, sondern es uns per Sprachassistent ansagen zu lassen.

    Was sind Conversational User Interfaces (CUIs)?

    Bei CUIs handelt es sich um eine Technik, die den Dialog zwischen Mensch und Maschine via Sprache möglich macht. Die Interaktion findet durch natürliche Sprache statt. Ein spezielles Sprachinterface ermöglicht es dem Nutzer, mit der Maschine zu kommunizieren. Hierfür wird selbstlernende Software trainiert. Wir finden sie in Chatbots, und Sprachassistenten. Chatbots arbeiten etwas anders als Sprachassistenten über eine Texteingabe und Textausgabe. Die dahinterstehende Software ist allerdings relativ identisch. Der Sinn der menschlichen Nachricht muss erfasst werden, eine Antwort gefunden und diese dann als Text oder Sprache wieder ausgegeben werden. Sprachassistenten sind einen Schritt weiter. Sie benötigen keine Texteingabe, sondern analysieren das gesprochene Wort.

    Entwicklungsstand der Voice User Interfaces

    Nach anfänglichen Schwierigkeiten hat es die immer schneller werdende Entwicklung der Spracherkennung mittlerweile weit gebracht. Benutzer werden nun verlässlich von digitalen Assistenten verstanden und der Sinn der Sprachinhalte wird erfasst. User erhalten brauchbare Antworten zurück. Tausende Stunden Gesprächsmaterial, welches genutzt wurde, um die KI (künstliche Intelligenz) zu trainieren, führen dazu, dass Missverständnisse kaum noch vorkommen und manche sprachgesteuerten Assistenten sogar Sinn für Humor zeigen. Es lässt sich also mit Sicherheit sagen, dass Voice User Interfaces die Erprobungsstufe hinter sich gelassen haben.

    Anwendungsgebiete für Voice User Interfaces

    Smart Phone, Smart Home und Smart Car sind nur einige Beispiele für den Einsatz von VUI. Die Firma Bosch hat den intelligenten Fahrassistenten Casey entwickelt. Die Software versteht und spricht etwa 30 verschiedene Sprachen und kann auch mit Dialekten umgehen. Amazon hat „Alexa for Business“ vorgestellt, eine Anwendung des Sprachassistenten für geschäftsinterne Anwendungen. Ob europäische Firmen auf amerikanische Lösungen zugreifen werden, ist wegen Fragen des Datenschutzes noch ungewiss. Deutsche Firmen sind sicher nicht daran interessiert, dass ihre Firmeninterna auf amerikanischen Servern landen und dort verarbeitet werden.

    Neben den großen Platzhaltern auf dem Sprachassistenten-Markt werden sich weitere kleine Nischen-Firmen finden und neue Möglichkeiten für einen intelligenten Mensch-Maschine-Dialog schaffen. So wird es in Zukunft möglich sein, mit der Stimme in Echtzeit auf Wissensdatenbanken zuzugreifen und Antworten per Sprachausgabe zu erhalten. Tätigkeiten vom Handwerker, über den Laborant, bis zum Chirurgen können damit nachhaltig unterstützt werden, beispielsweise in Szenarien, in denen beide Hände für andere Aufgaben genutzt werden müssen.

    KALENDERBLATT - 16. August

    1717 Österreichs Prinz Eugen besiegt die Türken unter Pascha Mustafa in der Schlacht von Belgrad.
    1876 Uraufführung der Oper "Siegfried" von Richard Wagner.
    1924 Abschluss der Londoner Reparationskonferenz.



    Film und Fernsehen

    Zehn aus fast 300 Fragen zu Film und Fernsehen warten auf Sie. Also: Füße hoch, Popcorn und los!
    Jetzt quizzen!