Mit Flow ermöglichen wir unseren Kund:innen, ihre individuellen Voicebots schnell und einfach mit der sipgate Telefonie zu verbinden.
Als AI-Innovationsteam bei sipgate stehen wir immer wieder vor derselben Herausforderung: Wie übersetzen wir aktuelle Hype-Themen in wirklich sinnvolle und wertvolle Anwendungen für unsere Kund:innen? Eine weitere Frage kommt nun hinzu: Nachdem LLM-basierte Features zur Produktivitätssteigerung Commodity sind, wie geht es in Zukunft eigentlich weiter?
AI-Infrastruktur statt Features
Beobachtet man die aktuellen Trends auf dem AI-Markt, zeichnet sich eine Tendenz ganz klar ab: Statt einzelne Features bereitzustellen, geht es nun darum, die gesamte Infrastruktur rund um generative AI aufzubauen und zugänglich zu machen. Gleichzeitig sehen wir, dass unsere Kund:innen selbst enormes Know-how zu AI-Anwendungen entwickeln und immer häufiger spezifische Use Cases umsetzen wollen – in ihren eigenen Umgebungen, mit ihren eigenen Tools.
Das spiegelt sich auch in den Anfragen, die wir bekommen, wider: Kund:innen haben bereits einen auf ihren Use Case abgestimmten Voicebot entwickelt, oder zumindest ein konkretes Szenario im Kopf. Aber ihnen fehlte eine unkomplizierte Möglichkeit, diese direkt in ihre Telefonielösung zu integrieren. Das war bislang nur über Umwege, z.B. via Twilio, möglich.
Die einfachste Real-Time-Voice-API überhaupt
Genau an dieser Anforderung haben wir angesetzt. Telefonie? Können wir! APIs? Können wir (schließlich bauen wir hier auf umfangreiche sipgate.io-Expertise auf)! Das Ganze so aufzubauen, dass Kund:innen mit wenigen Zeilen Code ihre eigenen Anwendungen an den Start bringen? Definitiv eine Herausforderung, aber machbar!
Der eigentliche “AI-Part”, also die Inhalte, die generiert oder verarbeitet werden, liegt komplett in den Händen unserer Nutzer:innen. AI ist dabei natürlich kein Muss. In unserem ersten Proof of Concept haben wir mit nur fünf Zeilen Code eine Anwendung geschrieben, die schlicht wiederholt, was die Gesprächspartnerin am anderen Ende der Leitung gesagt hat – simpel, aber genau das, was wir brauchten, um die Kernidee zu validieren. Die Anwendungsfälle, egal wie simpel oder komplex, kommen am Ende ja von den Usern.
Speech to Text (STT) und Text to Speech (TTS) inklusive
Genau genommen liefern wir mit AI Flow alles, außer der AI selbst. Wobei das so auch nicht stimmt. Ein wenig AI-Magie ist trotzdem noch dabei. Wir übernehmen die Echtzeit-Transkription des Gesprächsinputs. Hierfür nutzen wir, wie auch bei unseren AI-Assist-Features, Whisper. Das Modell hosten wir selbst, was uns nicht nur Fine-Tuning und die Integration von Customer Words ermöglicht, sondern auch klare Vorteile beim Datenschutz bringt. So können wir dann einen einfachen Output im JSON Format liefern, dessen Inhalt weiterverarbeitet werden kann.
Auf dem “Rückweg” brauchen wir wiederum ebenfalls nur ein JSON File und übernehmen darauf basierend die Sprachsynthese, damit Antworten auch wieder in gesprochener Form beim Gesprächspartner ankommen. Dafür stehen verschiedene synthetische Stimmen unterschiedlicher Anbieter zur Auswahl, die über die API ausgewählt werden können.
Zusätzlich ermöglichen wir gängige Modifikationen, etwa die Nutzung von SSLM und weiteren Parametern, damit die Konversation den gewünschten persönlichen Touch und die nötige technische Komplexität erhält.
Und jetzt?
Aktuell befinden wir uns im Endspurt, die technischen Grundlagen für die Real Time Integration auf unserer neuen Telefonie-Plattform zu schaffen. Wir wollen schon bald in die Closed Alpha starten.
Wenn du Lust hast, eigene Ideen mit AI Flow zu testen, melde dich bei uns. Wir sind neugierig auf deine Use Cases!