Transkription auf Deutsch für $2 pro Stunde
Lade dein deutschsprachiges Audio oder Video hoch und erhalte eine präzise Transkription mit Sprechererkennung in wenigen Minuten. Hochdeutsch, österreichisches und Schweizer Deutsch — automatisch erkannt. EU-Verarbeitung, GDPR-konform, $2 pro Stunde. Kein Abonnement.
DACH-Varianten unterstützt
Deutschland, Österreich, Schweiz — die wichtigsten regionalen Varianten werden automatisch erkannt. Schwäbisch, Bairisch, Sächsisch und österreichische Akzente werden gut transkribiert; sehr breite Dialekte erreichen geringere Genauigkeit.
Sprechererkennung
Mehrere Stimmen in einer Aufnahme? Wir trennen die Sprecher automatisch und kennzeichnen jeden Beitrag. Nützlich für Interviews, Panels, Vorstandssitzungen und Forschungsaufnahmen.
$2 pro Stunde, fester Preis
Ein 30-minütiges Interview kostet $2 (Mindestpreis pro Datei). Eine 4-stündige Konferenz kostet $8. Kein Abo, keine versteckten Gebühren.
EU-Verarbeitung, GDPR-konform
Audio wird in EU-Rechenzentren verarbeitet (Frankfurt) und 90 Tage nach deinem letzten Login automatisch gelöscht. Kein Modelltraining mit deinen Daten.
Von Audiodatei zur Transkription in 3 Schritten
Datei hochladen
Ziehe eine MP3-, WAV-, M4A- oder MP4-Datei in den Upload-Bereich. Dateien bis zu 500 MB / 10 Stunden funktionieren direkt. Keine Formatkonvertierung nötig.
Wir transkribieren
Die Sprache wird automatisch erkannt (Deutsch ohne manuelle Auswahl). Sprecher werden getrennt, eine wortgetreue Transkription mit Zeitstempeln wird erstellt. Ein 1-stündiges Interview ist in 4–6 Minuten fertig.
Text herunterladen
Text kopieren, als SRT exportieren (für Untertitel) oder als Word-Dokument mit Sprecherkennzeichnung herunterladen. Audio wird neben dem Text im Editor abgespielt zur Verifikation.
DACH-Varianten und Genauigkeit auf Deutsch
Deutsch hat eine bedeutende regionale Variation: Hochdeutsch in Deutschland, österreichisches Deutsch (mit eigenen Lexemen wie "Jänner", "Erdäpfel", "Sackerl"), Schweizer Hochdeutsch (mit eigenen Aussprachebesonderheiten und Anglizismen), und natürlich die Mundarten in jeder Region. Whisper-Klasse-Modelle (was wir verwenden) werden mit mehreren tausend Stunden Deutsch aus allen drei Ländern trainiert und können diese Varianten ohne manuelle Konfigurationunterscheiden.
Realistische Erwartungen:
- Hochdeutsch in Studioqualität: 93–96% Genauigkeit. Eine der genauesten Sprachen in unserer Pipeline neben Englisch.
- Österreichisches Deutsch: 92–95%. Lexikalische Eigenheiten (Jänner, Erdäpfel, Spital) werden korrekt transkribiert. Wiener Akzent wird gut gehandhabt.
- Schweizer Hochdeutsch: 90–94%. Achtung: dies istSchweizer Hochdeutsch — die Standardsprache. Schweizerdeutsch (Schwyzerdütsch, die Mundart) ist signifikant schwieriger und erreicht typischerweise nur 75–85% Genauigkeit. Für Schwyzerdütsch ist eine menschliche Transkription oft die bessere Wahl.
- Bairisch, Schwäbisch, Sächsisch (in moderater Form): 88–92%. Sehr breite Dialekte können auf 80–87% fallen.
- Code-Switching Deutsch-Englisch: häufig in IT-, Tech- und Wirtschaftsmeetings ("deployen", "Sprint Review", "Board Meeting"). Modell wechselt zwischen den Sprachen korrekt innerhalb der gleichen Transkription.
Was die Genauigkeit am meisten beeinflusst: Mikrofonqualität, Hintergrundgeräusche, sich überlappende Sprecher, Sprechgeschwindigkeit. Dies sind universelle Faktoren — sie betreffen Englisch und Deutsch gleichermaßen.
DSGVO-konforme Transkription für deutsche und österreichische Unternehmen
DSGVO-Compliance ist für deutschsprachige Unternehmen ein zentrales Auswahlkriterium bei Drittanbietern. TranscribeCat wird aus Norwegen (EWR-Land) betrieben mit Verarbeitung in der EU — was konkret bedeutet:
- Audiospeicherung in der EU (Region Frankfurt). 90 Tage Aufbewahrung ab letztem Login, dann automatische Löschung. Auf Wunsch sofort löschbar.
- Verarbeitung in der EU. Unser Transkriptions-Subprozessor (OpenAI Whisper-Klasse) hat EU-Verarbeitungsregionen und arbeitet unter einer Zero-Retention-Vereinbarung.
- Kein Modelltraining mit Kundendaten. Datenzugriff ist auf die eigentliche Transkriptionsaufgabe beschränkt.
- Standard-DSGVO ohne Zusatzverträge: Da der Dienst vom EWR aus betrieben wird, sind keine Standard Contractual Clauses oder Datenresidenz-Sondervereinbarungen erforderlich.
- Auftragsverarbeitungsvertrag (AVV) auf Anfrage: Für Unternehmen, die einen formalen AVV benötigen, sind wir vorbereitet — kontaktiere uns direkt unter /contact.
Wo TranscribeCat gut passt: Forschung, Journalismus, Vorstandssitzungen, interne Meetings, Schulungen, Kundengespräche (mit Einwilligung), Podcasts. Wo es nicht passt: Verarbeitung von besonders sensiblen Daten nach Art. 9 DSGVO (Gesundheitsdaten ohne Einwilligung, biometrische Daten zur eindeutigen Identifikation, etc.) — wir sind nicht HIPAA-zertifiziert und nicht für strenge Gesundheitsdaten-Workflows ausgelegt.
Vollständige Subprozessor-Liste: /trust.
Was kostet deutsche Transkription?
$2 pro Stunde, unabhängig von der Variante:
$2
30-min Interview
$4
2-stündige Vorstandssitzung
$10
5-stündige Konferenz
Menschliche Transkription kostet in DACH typischerweise 80–150 € pro Stunde Audio. AI-Transkription übernimmt ~99% der Arbeit zu einem Bruchteil — deine Überprüfung ist der variable Aufwand.
Frequently asked questions
Wie genau ist die Transkription auf Deutsch?+
Bei Hochdeutsch in Studioqualität: 93–96%. Bei normalen Meeting-Aufnahmen: 88–94%. Bei Mobiltelefon-Aufnahmen mit Hintergrundgeräuschen: 80–88%. Hochdeutsch, österreichisches Deutsch und Schweizer Hochdeutsch werden automatisch erkannt.
Funktioniert es mit Schweizerdeutsch?+
Schweizer Hochdeutsch (Standardsprache): ja, gut, 90–94% Genauigkeit. Schweizerdeutsch (Schwyzerdütsch, Mundart): herausfordernder, typischerweise 75–85%. Für reine Schwyzerdütsch-Aufnahmen ist menschliche Transkription oft die bessere Wahl.
Werden österreichische Lexeme korrekt transkribiert?+
Ja. Spezifische Wörter wie "Jänner" (Januar), "Erdäpfel" (Kartoffeln), "Sackerl" (Tüte), "Spital" (Krankenhaus) werden in ihrer österreichischen Form transkribiert, nicht durch hochdeutsche Äquivalente ersetzt.
Welche Dateiformate werden unterstützt?+
MP3, WAV, M4A, MP4, FLAC, OGG, WebM und Opus. Dateien bis zu 500 MB und 10 Stunden funktionieren direkt ohne Konvertierung.
Wo wird das Audio gespeichert? DSGVO?+
Audio wird in EU-Rechenzentren (Frankfurt) verarbeitet und 90 Tage nach deinem letzten Login automatisch gelöscht. Wir trainieren keine Modelle mit deinen Aufnahmen. Subprozessor (OpenAI) arbeitet unter einer Zero-Retention-Vereinbarung. DSGVO gilt ohne zusätzliche Verträge, da der Dienst vom EWR aus betrieben wird.
Bietet ihr einen Auftragsverarbeitungsvertrag (AVV) an?+
Ja, für Unternehmen die einen formalen AVV benötigen. Kontaktiere uns über /contact mit den Anforderungen deiner Compliance-Abteilung.
Wie lange dauert es?+
Die meisten Dateien unter 1 Stunde sind in 4–6 Minuten fertig. Eine 4-stündige Datei dauert typischerweise 12–18 Minuten.
Wie wird bezahlt?+
Mit Visa, Mastercard oder American Express via Stripe. Du zahlst nur, wenn du transkribierst — kein Abo, keine Monatsrechnung.
Verwandte Ressourcen
Lade deine erste deutsche Audiodatei hoch
EU-verarbeitet, Sprechererkennung, $2 pro Stunde. DSGVO-konform ohne Zusatzverträge.
Transkription starten ($2/Stunde)Free to sign up · Pay only when you transcribe