KI-Moderatorinnen, Voice Cloning und Medienethik: Was öffentlich-rechtliche Sender jetzt entscheiden müssen

28. Mai 2025

Der Status quo: KI im Radiobetrieb – noch kein Takeover, aber mitten im Experiment

Die Frage, ob künstliche Intelligenz das Radio übernommen hat, beantwortet Frederik Peters, Tech Innovation Strategist beim Südwestrundfunk (SWR) und Teil des ARD-KI-Leitungsteams, klar und nüchtern: Nein – aber der Experimentierraum ist real und wächst. Im Gespräch mit "Digitalize Your Passion" verortete Peters die aktuelle Entwicklung treffend im Gartner Hype Cycle: Man befinde sich eher auf der Rutsche Richtung Produktivplateau, also im sogenannten "Tal der Tränen", als auf dem Höhepunkt der Erwartungen.

Das bedeutet: Technologische Möglichkeiten sind vorhanden, die praktische Umsetzung im Regelbetrieb ist jedoch komplex, und die Qualität der Ergebnisse variiert stark je nach Anwendungsfall. Im SWR existieren aktuell keine KI-Systeme, die generisch und vollautomatisch Sendeinhalte produzieren. Stattdessen gibt es Einzelfallentscheidungen und gezielte Pilotprojekte.

Der Australien-Fall: Sechs Monate unbemerkt auf Sendung

Als konkretes Fallbeispiel diskutierten die drei Gesprächspartner den australischen Radiosender CADA (Australian Radio Network), bei dem eine vollständig KI-generierte Moderatorin namens "Thy" sechs Monate lang auf Sendung war – ohne dass Hörerinnen und Hörer dies bemerkten. Der Sender bewarb sie aktiv als reale Persönlichkeit.

Peters analysiert diesen Fall strukturell: Radio ist in weiten Teilen ein Nebenher-Medium. Die Musik steht im Vordergrund, die Worte werden weniger kritisch wahrgenommen. Mit den aktuellen Qualitäten synthetischer Stimmen ist es durchaus möglich, ein Radioprogramm zu erzeugen, das selbst geschulte Hörerinnen und Hörer nicht sicher als KI-generiert erkennen – vor allem dann nicht, wenn erhebliche Ressourcen in die Stimmensynthese investiert werden. Im direkten A/B-Test, so Peters, hätten selbst Fachleute keine verlässliche Chance, Mensch von Maschine zu unterscheiden.

Kennzeichnungspflichten und regulatorische Grauzonen

Der australische Fall wirft eine zentrale Frage auf: Wann muss KI-generierter Inhalt gekennzeichnet werden – und wann ist Kennzeichnung kontraproduktiv?

Peters beschreibt die ARD-interne Herangehensweise differenziert:

Kein generischer KI-Content im Regelbetrieb: Derzeit gibt es keine vollautomatisierte KI-Ausspielung bei der ARD.
Einzelfallentscheidungen mit Redaktionen: Für jeden Anwendungsfall – etwa ein KI-generiertes Podcast-Coverbild – wird im ARD-KI-Hub mit den Redaktionen besprochen, ob und wie gekennzeichnet wird.
Nachrichtenbereich ausgenommen: Im nachrichtlichen Bereich wird KI grundsätzlich nicht eingesetzt, weil bereits die blosse Kennzeichnung "KI-generiert" das Publikum verunsichern und vom eigentlichen Inhalt ablenken würde.
Adobe-Suite als Grauzone: Tools wie Adobe Firefly oder KI-Features in Adobe Premiere sind im Einsatz. Die Frage, ob ein KI-gestütztes Bildqualitäts-Enhancement (SD auf HD, ohne inhaltliche Veränderung) kennzeichnungspflichtig ist, bleibt derzeit offen.

Derzeit erarbeitet die ARD gemeinsam mit der EU eine kohärente Kennzeichnungsstrategie. Ein eigener Arbeitskreis "Regulation" ist damit beauftragt.

Das Prinzip der Gesamtverantwortung

Im Gespräch wird eine in Journalismuskreisen diskutierte Position eingebracht: Nicht jede einzelne KI-Nutzung müsse gekennzeichnet werden – entscheidend sei, dass das Medium die redaktionelle Gesamtverantwortung behält. Peters teilt diese Einschätzung grundsätzlich, betont aber, dass die Frage nach der "Information Pollution" durch übermässige oder unklare Kennzeichnungen ebenfalls ernst genommen werden müsse.

Konkrete Anwendungsfälle: Wetter, Verkehr, Jingles und synthetische Stimmen

Automatisierter Verkehrsservice und Wettermeldungen

Bei einem ostdeutschen Radiosender, so Peters, wird der Verkehrsservice bereits vollständig KI-generiert ausgestrahlt. Die Idee, Wetter- und Verkehrsmeldungen zu automatisieren, liegt nahe: Diese Inhalte sind relativ statisch, ändern sich vorhersehbar und werden zu festen Zeiten ausgestrahlt.

Dennoch nennt Peters konkrete Hürden:

Phonetik der deutschen Sprache: Ortsbezeichnungen wie "Grevenbroich" haben eine Schreibweise, aber eine abweichende Phonetik – ein nicht-triviales Problem für Sprachsynthese-Systeme.
Datenkohärenz: Für den ARD-weiten Einsatz müsste eine kohärente, verlässliche Datenbasis aufgebaut werden.
Regionalität: Ton, Wording und Länge der Meldungen müssen dem jeweiligen regionalen Programm entsprechen.

Zugleich skizziert Peters ein überzeugendes Zukunftsszenario: Personalisierte Wettermeldungen in Echtzeit, die im Fahrzeug via DAB+ auf den aktuellen Standort des Hörers zugeschnitten werden – etwa auf einen Radius von 30 Kilometern. Ein echter Mehrwert, der durch Automatisierung überhaupt erst realisierbar wäre.

Voice Cloning verstorbener Moderatorinnen und Moderatoren

Chris Jon Graf bringt einen ethisch aufgeladenen Case ein: Was wäre, wenn man die Stimme eines legendären, verstorbenen Radiomoderators auf Basis historischer Audioaufnahmen mit KI rekonstruieren und für neue Sendungen nutzen würde? Peters sieht darin ein klares Spannungsfeld:

Technische Machbarkeit: Bei ausreichend Trainingsmaterial ist dies heute möglich – und das Ergebnis wäre kaum von der Originalstimme zu unterscheiden.
Ethische Komplexität: Wer gibt die Freigabe? Angehörige? Was, wenn die betreffende Person nie einer solchen Nutzung zugestimmt hätte? Was, wenn die synthetisierte Stimme für Werbezwecke eingesetzt wird?
Positiver Gegenfall: Eine erkrankte Moderatorin, die nach einem Kehlkopfkarzinom nicht mehr sprechen kann, könnte mit ihrer eigenen synthetischen Stimme weiter arbeiten – mit ihrer eigenen informierten Zustimmung. Dies wäre ein legitimes, sogar wertvolles Anwendungsszenario.

Barrierefreiheit und Echtzeit-Übersetzung

Peters sieht im Bereich Barrierefreiheit eines der stärksten Argumente für KI im Rundfunk:

Automatisierte Untertitelung: YouTube zeigt, dass dies in hoher Qualität und skalierbar funktioniert.
Gebärdensprachen-Avatare: Technologisch ist es bereits möglich, nahezu jeden Livestream mit einem Gebärdensprachen-Avatar zu versehen.
Speech-to-Speech-Übersetzung: Aktuell liegt die Korrektheit von Live-Sprachübersetzung bei etwa 80 bis 85 Prozent. Für Barrierefreiheitsanwendungen bereits ein bedeutender Mehrwert; für den Nachrichtenbereich noch nicht ausreichend präzise.
Mehrsprachige Inhalte: Reinhold Würth (Würth-Konzern) präsentierte laut Gesprächserwähnung eine lippensynchrone, KI-generierte Übersetzung seiner deutschen Rede ins Chinesische – ein praxisnaher Beleg für das Potenzial.

UKW, Stromausfall und die Resilienz des Radios

Ein überraschend pragmatischer Aspekt kommt aus dem Alltag: Beim massiven Schneechaos über Ostern 2025 im Wallis (Schweiz) war das batteriebetriebene UKW-Radio das einzige funktionsfähige Kommunikationsmittel. Kein Mobilfunk, kein Internet, kein Spotify, kein DAB+. Die lokalen UKW-Sender – dank Notstromaggregaten – sendeten weiter.

Peters kommentiert dies nüchtern: UKW ist infrastrukturell noch lange nicht abgeschaltet. Die Frage, wie der Übergang zu DAB+ bei gleichzeitig zunehmenden Naturkatastrophen gestaltet wird, ist eine medienpolitisch hochrelevante. Spotify und rein digitale Streamingdienste versagen in solchen Szenarien strukturell.

Zehnjahresperspektive: Hyperpersonalisierung, Fragmentierung und der Wert menschlicher Inhalte

Peters lehnt konkrete Zehn-Jahres-Prognosen methodisch ab – zu Recht. In der Zukunftsforschung arbeite man auf diesem Zeithorizont nur noch mit "Uncertainties". Dennoch zeichnet er drei plausible Entwicklungslinien:

Hyperpersonalisierung: Individuelle Mediennutzer erhalten nur noch Inhalte, die exakt auf ihren Wissensstand und ihre Interessen zugeschnitten sind. Das spart Zeit, birgt aber die Gefahr einer selbstverstärkenden Informationsblase.
Fragmentierung und Qualitätsdifferenzierung: Weltweite Nachrichten werden von unzähligen KI-Systemen in tausendfacher Iteration produziert. Lokale, investigative Recherche bleibt der unverzichtbare Kern professionellen Journalismus.
Premium-Menschlichkeit: In einer Welt voller KI-generierter Inhalte könnte authentisches, menschliches Gespräch – wie dieser Podcast – zum Luxusgut werden, für das Nutzerinnen und Nutzer bereit sind zu zahlen.

Die Analogie zur MP3-Revolution ist erhellend: Damals prophezeite man den Untergang der Musikindustrie. Spotify zeigt, dass Menschen für Mehrwert zahlen, wenn das Erlebnis stimmt. KI ist disruptiver als MP3 – aber das Grundmuster der Adaption dürfte ähnlich verlaufen.

Executive Takeaways

Kennzeichnung ist kein Selbstzweck: Pauschale KI-Labels können Vertrauen beschädigen, statt es zu stärken. Differenzierte Einzelfallentscheidungen sind bis zur regulatorischen Klärung die seriösere Wahl.
Technische Machbarkeit ≠ strategische Weisheit: Voice Cloning, automatisierte Moderation und synthetische Nachrichten sind technisch realisierbar. Die entscheidende Frage ist: Wollen wir das – und unter welchen Bedingungen?
UKW-Resilienz ist ein Standortargument: Für Krisenszenarien bleibt terrestrisches Radio ein systemrelevantes Kommunikationsmittel, das digitale Alternativen strukturell nicht ersetzen können.
Barrierefreiheit ist der überzeugendste Use Case: Hier schafft KI echten gesellschaftlichen Mehrwert ohne die ethischen Zielkonflikte, die im Unterhaltungsbereich entstehen.
Hyperpersonalisierung hat ihren Preis: Wer nur noch Inhalte konsumiert, die dem eigenen Profil entsprechen, verliert zufällige Entdeckungen und gesellschaftliche Breitenresonanz.

Häufige Fragen

Welche Kennzeichnungspflichten gelten aktuell für KI-generierte Inhalte im öffentlich-rechtlichen Rundfunk in Deutschland?

Eine verbindliche, flächendeckende Kennzeichnungspflicht existiert derzeit noch nicht. Die ARD erarbeitet gemeinsam mit der EU-Regulierung einen einheitlichen Rahmen. Bis dahin gilt das Prinzip der Einzelfallentscheidung: Redaktionen klären zusammen mit dem ARD-KI-Hub, ob und wie KI-Nutzung ausgewiesen wird. Im Nachrichtenbereich wird KI grundsätzlich nicht eingesetzt, um keine Verwirrung über die Authentizität von Inhalten zu erzeugen.

Ist es technisch möglich, eine KI-Moderatorin im Radio so überzeugend zu gestalten, dass selbst Fachleute sie nicht erkennen?

Ja, bei ausreichendem Investitionsaufwand in die Stimmensynthese ist dies heute schon möglich. Der Fall des australischen Senders CADA, bei dem eine vollständig KI-generierte Moderatorin sechs Monate unbemerkt on air war, belegt dies eindrücklich. Radio ist zudem ein Nebenher-Medium, was die Entdeckungswahrscheinlichkeit zusätzlich reduziert. Im direkten A/B-Test wäre auch für Radiofachleute keine verlässliche Unterscheidung mehr möglich, wenn die Stimmqualität entsprechend hoch ist.

Wo liegt der ethische Unterschied zwischen Voice Cloning lebender und verstorbener Persönlichkeiten des öffentlichen Lebens?

Bei lebenden Personen ist die informierte Zustimmung die zentrale Voraussetzung – wie im Fall einer erkrankten Moderatorin, die ihre eigene synthetische Stimme zur Weiterführung ihrer Arbeit nutzt. Bei Verstorbenen fehlt diese Möglichkeit grundsätzlich, und Angehörige können möglicherweise Freigaben erteilen, die dem Willen der ursprünglichen Person widersprechen – etwa für Werbekampagnen. Dies wird von Experten als ethisch hochproblematisch eingestuft und dürfte künftig Gegenstand gerichtlicher Auseinandersetzungen werden.

Warum ist UKW-Radio trotz Digitalisierung weiterhin systemrelevant?

Bei grossflächigen Infrastrukturausfällen – wie dem Stromausfall im Schweizer Wallis über Ostern 2025 – versagen digitale Kommunikationsmittel wie Internet, Mobilfunk und DAB+ vollständig, während UKW-Sender dank Notstromaggregaten weiterhin senden können. Ein batteriebetriebenes UKW-Radio bleibt damit das resilienteste Massenmedium in Katastrophenszenarien. Dies ist ein medienpolitisches Argument gegen eine verfrühte vollständige Abschaltung der UKW-Infrastruktur.

Welche KI-Tools werden beim SWR und der ARD konkret eingesetzt?

Im Produktionsumfeld kommen vor allem Tools der Adobe-Suite zum Einsatz, darunter Adobe Firefly für Bildgenerierung sowie KI-Features in Adobe Premiere für Audio- und Videobearbeitung. Zusätzlich werden ChatGPT und vergleichbare Sprachmodelle in der Redaktionsarbeit genutzt. Der RBB setzt in seiner App bereits synthetische Stimmen zur Audiowiedergabe von Inhalten ein. Im redaktionellen Kernangebot – insbesondere im Nachrichtenbereich – werden generative KI-Systeme bewusst nicht eingesetzt.

Wie verändert KI-gestützte Echtzeit-Übersetzung die Reichweite von Radioformaten?

Speech-to-Speech-Übersetzung in Echtzeit erreicht aktuell eine Korrektheit von etwa 80 bis 85 Prozent und ermöglicht bereits heute eine mehrsprachige Ausspielung von Inhalten mit geringem zeitlichen Versatz. Für Barrierefreiheitsanwendungen – etwa für Menschen mit Hörbeeinträchtigungen oder Migranten in einem neuen Sprachraum – ist dies ein enormer Mehrwert. Für den Nachrichtenbereich sind 85 Prozent Genauigkeit noch unzureichend, da Nuancierungen und Präzision dort entscheidend sind.

Welche Risiken birgt Hyperpersonalisierung durch KI für den öffentlichen Diskurs?

Wenn Medieninhalte algorithmisch exakt auf individuelle Profile zugeschnitten werden, entfallen zufällige Entdeckungen und gesellschaftlich relevante Themen, für die sich die Nutzerin oder der Nutzer nicht aktiv interessiert. Dies kann Informationsblasen verstärken und die gemeinsame Öffentlichkeit fragmentieren, auf der demokratische Gesellschaften basieren. Gleichzeitig besteht das Risiko, dass eine extreme Datenmacht über Nutzerprofile entsteht, die neue Fragen zum Datenschutz und zur Meinungsfreiheit aufwirft.

Hat Radio als Medium eine realistische Zukunft im KI-Zeitalter?

Ja, nach aktuellem Erkenntnisstand schlägt sich Radio strukturell gut. Aktuelle ARD-Nutzerstudien zeigen wachsende Reichweiten, insbesondere über digitale Plattformen und Mediatheken. Das Medium hat historisch bewiesen, dass es technologische Umbrüche – von der Schallplatte über die Kassette bis zum Streaming – adaptieren kann. KI bietet Effizienzgewinne in Produktion und Personalisierung; authentische, spontane Moderationspersönlichkeiten und lokaler Journalismus dürften jedoch langfristig das Differenzierungsmerkmal gegenüber vollautomatisierten Formaten bleiben.