KI-gestützte Spracherkennung mit OpenAI Whisper-Technologie. Funktioniert offline mit 99% Genauigkeit. Kostenloser Plan mit 500 Wörtern pro Tag.
Gute Spracherkennungssoftware deutsch macht mehr als Laute in Buchstaben umwandeln — sie versteht Kontext, Satzmelodie und Fachbegriffe.
Das OpenAI Whisper-Modell wurde mit 680.000 Stunden mehrsprachiger Audiodaten trainiert. Bei klarem Mikrofon und ruhiger Umgebung erreicht es Genauigkeitswerte, die mit professionellen Schreibkräften mithalten.
Alle Verarbeitung findet lokal auf Ihrem Rechner statt. Kein Audio verlässt Ihr Gerät. Ideal für DSGVO-konforme Arbeitsumgebungen, in Kanzleien, Arztpraxen und Behörden.
Wer eine NVIDIA-Grafikkarte besitzt, profitiert von drastisch schnellerer Transkription. Eine RTX 3060 verarbeitet Sprache in Echtzeit, ohne CPU-Last zu erzeugen.
Deutsch, Englisch, Französisch, Spanisch, Japanisch, Arabisch — StarWhisper erkennt alle ohne separate Sprachpakete. Ideal für international tätige Teams.
Das kompakte Floating-Widget liegt über jeder App. Egal ob Word, Outlook, Notepad oder Slack — Text wird direkt eingefügt, kein Copy-Paste nötig.
Im kostenlosen Plan sind tiny, base und small enthalten — ausreichend für den Alltag. Pro-Nutzer schalten medium und large frei, die mit medizinischem Fachjargon oder schwerem Dialekt besser umgehen.
Spracherkennungssoftware deutsch muss Herausforderungen bewältigen, die für andere Sprachen nicht im gleichen Maß gelten: lange Komposita wie „Donaudampfschifffahrtsgesellschaft", regionale Akzente von Bayern bis Norddeutschland, und die grammatikalische Komplexität der deutschen Sprache mit ihren vier Fällen und drei Geschlechtern.
Viele ältere Systeme haben hier versagt, weil sie einfach amerikanische Sprachmodelle auf Deutsch übertragen haben. Das OpenAI Whisper-Modell, auf dem StarWhisper aufbaut, wurde hingegen mit tatsächlichen deutschen Audiodaten aus vielfältigen Quellen trainiert — Podcasts, Nachrichtensendungen, Alltagsgespräche, Fachvorträge. Das Ergebnis: natürlich klingende Transkription, die auch „Wiederholungsuntersuchung" oder „Qualitätsmanagementsystem" ohne zu stolpern wiedergibt.
Ein weiterer Unterschied ist die Zeichensetzung. Deutschsprachige Nutzer sind es gewohnt, dass korrekte Kommasetzung wichtig ist — besonders in offiziellen Dokumenten. StarWhisper setzt Kommata bei Nebensätzen automatisch korrekt ein, erkennt Fragen und beendet Sätze mit dem richtigen Satzzeichen.
Moderne KI-basierte Spracherkennungssoftware arbeitet in mehreren Stufen. Zunächst erfasst das System den Schallwellenstrom vom Mikrofon und wandelt ihn in digitale Samples um — typischerweise mit 16.000 Samples pro Sekunde. Diese Rohdaten werden in ein Mel-Spektrogramm umgerechnet, eine Art visuelle Darstellung des Klanges, bei der Frequenz, Zeit und Intensität sichtbar werden.
Das neuronale Netz — im Fall von Whisper ein Transformer-Modell — analysiert diese Spektrogramm-Abschnitte und sucht nach Mustern, die gelernten Phonemen und Wörtern entsprechen. Durch den trainierten Sprachkontext kann das System nicht nur einzelne Laute erkennen, sondern auch wahrscheinliche Wortfolgen vorhersagen. Das verhindert typische Fehler wie Verwechslungen von „das" und „dass" oder von ähnlich klingenden Fachbegriffen.
Die Qualität des Mikrofons spielt eine erhebliche Rolle. Ein hochwertiges USB-Headset wie das HyperX QuadCast oder das Blue Yeti kann die Erkennungsgenauigkeit gegenüber einem eingebauten Laptop-Mikrofon um fünf bis acht Prozentpunkte steigern. Für professionellen Einsatz lohnt sich die Investition von 50–100 Euro allemal.
Hinweis für DSGVO-Verantwortliche: StarWhisper verarbeitet alle Audiodaten lokal. Es werden keine Audiodateien, Transkripte oder Metadaten an externe Server übertragen. Das macht die Software für Unternehmen geeignet, die personenbezogene oder vertrauliche Gespräche transkribieren — ohne gesonderten Auftragsverarbeitungsvertrag mit einem Cloud-Anbieter.
500 Wörter täglich im kostenlosen Plan. Keine Kreditkarte. Keine Registrierung. Einfach herunterladen und loslegen.
StarWhisper herunterladenIn Deutschland, Österreich und der Schweiz nutzen Fachleute aus sehr unterschiedlichen Bereichen Spracherkennung. Hier die häufigsten Einsatzszenarien — mit den spezifischen Anforderungen, die jedes Berufsfeld stellt.
Niedergelassene Ärzte in deutschen Praxen verbringen nach Studien bis zu zwei Stunden täglich mit Dokumentationsarbeit. Befunde, Epikrisen, Arztbriefe — all das lässt sich per Diktat deutlich schneller erledigen als mit der Tastatur. Der entscheidende Vorteil von StarWhisper: Da sämtliche Audiodaten lokal verbleiben, ist die Software DSGVO-konform für die medizinische Dokumentation einsetzbar, ohne dass ein Datenschutzbeauftragter Einwände erheben kann.
Psychotherapeuten und Psychiater profitieren besonders, weil Sitzungsnotizen häufig sensible Inhalte enthalten. Kein Cloud-Dienst der Welt bietet hier die gleiche Sicherheit wie eine vollständig lokale Verarbeitung.
Kanzleien in Frankfurt, München oder Hamburg verwenden seit Jahrzehnten Diktierlösungen — oft teure proprietäre Systeme mit langen Vertragslaufzeiten. StarWhisper bietet eine moderne Alternative für juristische Diktation zum Bruchteil der Kosten: 9,17 Euro pro Monat (80 $ Jahresplan, umgerechnet) statt mehrerer hundert Euro für Dragon Legal.
Schriftsätze, Mandantenmemos, Vertragsentwürfe — all das kann per Sprache in Word oder das Kanzleiverwaltungssystem eingegeben werden. Das Transkriptionsergebnis ist direkt bearbeitbar, kein Umweg über einen Sekretariatsdienst.
Texter, Übersetzer, Unternehmensberater und andere Selbstständige schreiben täglich tausende Wörter. Wer beim Diktieren schneller ist als beim Tippen, kann sein Tagesvolumen spürbar steigern — und die Handgelenke schonen. Besonders nützlich: StarWhisper läuft auch im Zug oder im Homeoffice ohne WLAN.
Freelancer, die mehrere Sprachen bedienen — etwa deutsch und englisch — können die Erkennungssprache in den Einstellungen jederzeit wechseln, ohne das Programm neu zu starten.
Wer Vorlesungen mitschreibt, Seminararbeiten verfasst oder Interviews für die Bachelorarbeit transkribiert, kennt das Problem: Es geht nicht schnell genug. StarWhisper transkribiert aufgenommene Audiodateien — MP3, WAV, M4A — direkt zu Text. Das spart bei 60-minütigen Interviews mehrere Stunden Arbeit.
Für Erstsemester ohne Budget: Der kostenlose Plan mit 500 Wörtern täglich reicht für gelegentliches Diktat von Kurznotizen vollständig aus.
Für Nutzer mit Karpaltunnelsyndrom, RSI oder anderen Beschwerden, die das Schreiben mit der Tastatur erschweren, ist Spracheingabe keine Bequemlichkeit — sie ist Notwendigkeit. StarWhisper funktioniert als systemweites Diktierwerkzeug in jeder Windows-Anwendung. Der globale Hotkey (Standard: Ctrl+Space) lässt sich auch mit der Maus oder einem Fußtaster auslösen.
Wer nach Spracherkennungssoftware deutsch sucht, stößt meist auf dieselben Namen: Dragon, Windows-Spracherkennung, Google Docs Spracheingabe. Hier ein ehrlicher Vergleich — ohne Marketingfloskeln.
| Kriterium | StarWhisper | Dragon Home | Windows Win+H | Google Docs |
|---|---|---|---|---|
| Preis (EUR) | Kostenlos / ~9 €/Mo. | ~180 € Einmalkauf | Kostenlos | Kostenlos |
| Offline-Betrieb | ✓ Vollständig | ✓ Vollständig | △ Eingeschränkt | ✗ Nein |
| DSGVO-konform | ✓ Lokal | ✓ Lokal | △ MS-Server | ✗ Google-Server |
| Sprachunterstützung | 29+ Sprachen | 6 Sprachen | ~15 Sprachen | 100+ Sprachen |
| KI-Modell | OpenAI Whisper | Nuance-Engine | Azure Speech | Google Speech |
| GPU-Beschleunigung | ✓ NVIDIA CUDA | ✗ | ✗ | N/A (Cloud) |
| Datei-Transkription | ✓ MP3, WAV, MP4 | ✗ | ✗ | ✗ |
Der wesentliche Unterschied zu Dragon: Dragon ist seit Jahrzehnten Marktführer bei professioneller Spracherkennung — und hat entsprechend seinen Preis. StarWhisper nutzt ein technisch überlegenes Modell (Whisper wurde von OpenAI mit deutlich mehr Trainingsdaten entwickelt als die Nuance-Engine) und bietet es zu einem Bruchteil des Preises an. Für Selbstständige und kleinere Unternehmen ist das ein erheblicher Vorteil.
Externe Referenz: Die Architektur des Whisper-Modells ist im Whisper-Paper von OpenAI auf arXiv dokumentiert. Wer wissen möchte, warum das Modell mit Akzenten und Hintergrundgeräuschen so gut umgeht, findet dort die technischen Details.
Die Installation ist bewusst einfach gehalten. Kein Stimmtraining, keine Konfigurationswizards, keine Registrierung. Herunterladen, installieren, Hotkey drücken — fertig.
Laden Sie den Installer von starwhisper.ai herunter oder installieren Sie direkt aus dem Microsoft Store. Die Installationsdatei ist knapp 150 MB groß und enthält das small Whisper-Modell als Standardpaket.
Beim ersten Start öffnet sich die Einstellungsseite. Stellen Sie die Erkennungssprache auf „Deutsch". StarWhisper erkennt den Dialekt automatisch — ob Berlinerisch, Bayerisch oder Schweizerdeutsch.
Wechseln Sie zu Word, Outlook, Notepad oder einer beliebigen anderen Anwendung. Klicken Sie ins Textfeld und drücken Sie Ctrl+Space. Das Mikrofon wird aktiviert und das Widget erscheint.
Sprechen Sie in normaler Gesprächsgeschwindigkeit. Der Text erscheint in Echtzeit im Widget-Vorschaufeld und wird nach einer kurzen Pause automatisch in das Textfeld eingefügt. Kein Bestätigen nötig.
Für schwere Akzente oder Fachvokabular empfehlen wir das medium-Modell (Pro-Plan). Es ist rund 1,5 GB groß, lädt einmalig herunter und bleibt dann lokal — kein erneuter Download nötig.
Halten Sie das Mikrofon etwa eine Handbreit (10–15 cm) vom Mund entfernt. Sprechen Sie leicht seitlich ins Mikrofon, um Plopp-Laute bei P und B zu vermeiden. In lauten Büros empfiehlt sich ein Headset mit Rauschunterdrückung — das kann die Genauigkeit bei störendem Hintergrundlärm um mehrere Prozentpunkte verbessern.
„Ich bin Hausarzt in München und diktiere seit drei Monaten meine Arztbriefe mit StarWhisper. Die Erkennungsgenauigkeit für medizinisches Vokabular ist beeindruckend — bessere Ergebnisse als mit meinem alten Philips-System. Und das zu einem Zehntel des Preises."
„Als Freelance-Texterin schreibe ich täglich 8.000–10.000 Wörter. StarWhisper hat mein Arbeitstempo um rund 40 % gesteigert. Besonders gut: Es funktioniert im Zug ohne WLAN, was für mich als Pendlerin Gold wert ist."
„Wir haben StarWhisper in unserer Kanzlei für vier Anwälte eingeführt. Der Datenschutz-Aspekt war entscheidend — keine Mandantendaten gehen an irgendeinen Server. Und der Preis ist lächerlich günstig verglichen mit Dragon Legal."
Verfügbar im Microsoft Store und als direkter Download. Windows 10 und Windows 11 werden unterstützt.
Antworten auf die häufigsten Fragen, die uns deutschsprachige Nutzer stellen.
Ja. Da StarWhisper alle Audiodaten ausschließlich lokal auf Ihrem Rechner verarbeitet und keine Daten an externe Server sendet, fallen keine personenbezogenen Daten bei einem Auftragsverarbeiter an. Ein Auftragsverarbeitungsvertrag ist daher nicht erforderlich. Für medizinische, rechtliche und behördliche Nutzung ist das ein entscheidender Vorteil gegenüber Cloud-basierten Diensten.
Das Whisper-Modell wurde mit Audiomaterial aus vielen deutschen Dialektregionen trainiert. In der Praxis erkennt es bayerischen, österreichischen und schweizerischen Akzent deutlich besser als ältere Systeme. Für sehr starken Dialekt empfehlen wir das medium-Modell (Pro-Plan), das mehr Kapazität für seltene Lautmuster mitbringt.
Der Pro-Plan kostet 10 US-Dollar pro Monat oder 80 US-Dollar pro Jahr — das entspricht bei aktuellem Kurs etwa 9,20 € bzw. 73 € pro Jahr. Für Privatkunden aus der EU wird die gesetzliche Mehrwertsteuer beim Checkout ausgewiesen und abgeführt. Der Jahresplan entspricht einer Ersparnis von rund 30 % gegenüber dem monatlichen Abo.
Ja. StarWhisper funktioniert als systemweites Diktierwerkzeug in jeder Windows-Anwendung, also auch in Word, Outlook, Excel-Kommentarfeldern, im Browser oder in jedem anderen Textfeld. Das Floating-Widget liegt über der aktiven Anwendung und fügt Text per Hotkey direkt ein.
Spracherkennung (auch: Diktiersoftware) wandelt Sprache in Echtzeit in Text um — ideal für Live-Eingabe. Transkription bezeichnet die nachgelagerte Umwandlung aufgenommener Audiodateien in Text. StarWhisper kann beides: Live-Diktat per Hotkey und Datei-Transkription für MP3-, WAV- und MP4-Dateien.
Für das standard small-Modell sind 8 GB RAM und ein moderner Intel/AMD-Prozessor ausreichend. Das medium-Modell empfiehlt 16 GB RAM. Mit einer NVIDIA-GPU (RTX-Serie) läuft auch das large-Modell in Echtzeit. StarWhisper ist so optimiert, dass es im Hintergrund minimal Ressourcen verbraucht und erst bei aktivem Diktat voll arbeitet.
Ob Arztpraxis in Stuttgart, Kanzlei in Wien oder Homeoffice in Zürich — StarWhisper bietet DSGVO-konforme, hochgenaue Spracherkennungssoftware für den deutschen Sprachraum. Kostenloser Plan ohne Kreditkarte. Pro-Plan für 9,20 € pro Monat.
Weitere Informationen zur OpenAI Whisper-Technologie: openai.com/research/whisper — Wikipedia: Spracherkennung
Jetzt kostenlos herunterladen