Architektur

Wie VoiceA technisch aufgebaut ist

VoiceA besteht aus fünf Diensten, die als Container auf Ihrer Infrastruktur laufen: ein ASR-Dienst (Whisper large-v3-turbo), ein TTS-Dienst (Piper), ein LLM-Dienst (Ollama + feinabgestimmte Modelle), ein Vektor-Retrieval-Dienst (Qdrant) und eine Operator-API. Eine Bayesianische Fusionsschicht verrechnet die Signale aller Dienste zu einer kalibrierten Verstehensbewertung. Jedes Ereignis wird in einer SHA-256-verketteten Auditkette persistiert.

Systemüberblick

Die Komponenten kommunizieren über internes gRPC; nach außen exponiert VoiceA nur zwei Endpunkte — SIP-Trunk / WebRTC für die Audio-Ebene und ein geschütztes HTTPS-Interface für die Operator-UI. Kein Dienst benötigt Internet-Zugriff, Updates werden als signierte OCI-Images auf einer behördeneigenen Registry bereitgestellt.

ASR & TTS

Der ASR-Dienst verwendet Whisper large-v3-turbo, feinabgestimmt auf deutschen Verwaltungswortschatz, sächsische, österreichische und alemannische Dialektvarianten sowie Migrationssprachen (Türkisch, Arabisch, Russisch, Französisch). Die Wortfehlerquote liegt in internen Benchmarks unter 6 Prozent auf typischen Bürgeramts-Telefonaten. Der TTS-Dienst verwendet Piper und liefert Antworten mit weniger als 150 ms Latenz auf handelsüblicher CPU-Hardware.

LLM & RAG

Der LLM-Dienst läuft auf Ollama mit einem feinabgestimmten deutschsprachigen 8-Milliarden-Parameter-Modell. Der Retriever (Qdrant) indiziert die Wissensbasis Ihrer Behörde — Formulare, Fristenrechner, Anspruchsvoraussetzungen, interne Dienstanweisungen — und reichert jede Anfrage semantisch an. Das LLM generiert ausschließlich Antworten, die sich auf mindestens ein indiziertes Dokument stützen; andernfalls wird die Anfrage an eine Sachbearbeiterin weitergeleitet.

Integrationen

VoiceA integriert sich über folgende Schnittstellen: SIP-Trunk für klassische Telefonie (Asterisk, FreeSWITCH), WebRTC für Browser- und App-basierte Anrufe, REST für Fachverfahrens-Anbindung (ELAK, EVA, ePostfach). Die Operator-UI ist eine Progressive Web App, die auch offline im Behörden-Netz lauffähig ist. Standards: OAuth 2.1 / OIDC für Anmeldung, SAML 2.0 für föderierte Identitäten, audit-sicheres Logging nach BSI TR-03107.

Sicherheitsprofil

Jeder Anruf wird in einer SHA-256-verketteten Ereigniskette dokumentiert (ASR-Transkript, Intent-Klassifikation, Übergabeentscheidung, Sachbearbeiter-Aktion). Die Kette ist append-only, Prüfsummen werden stündlich auf ein schreibgeschütztes Volumen gespiegelt. Die gesamte Sitzung wird verschlüsselt (TLS 1.3 nach außen, mTLS innerhalb des Clusters). Rollenmodell: Operatorinnen, Supervisorinnen, Datenschutzbeauftragte, Systemadministration — jeweils mit minimalen Privilegien.