Trascrivi WAV in testo a 2 $/ora
Registrazioni WAV di qualità studio — export da DAW, interviste multi-microfono, deposizioni, audio d'archivio — trascritte con etichette dei parlanti in meno di 5 minuti per la maggior parte dei file. 2 $ all'ora, senza abbonamento.
Audio lossless in ingresso
Carica WAV PCM non compresso a qualsiasi sample rate o bit depth (16-bit, 24-bit, 32-bit float — tutto bene). Non ricomprimiamo; il modello riceve il segnale di massima qualità.
Diarizzazione dei parlanti
Registrazioni multitraccia, interviste in panel, deposizioni — identifichiamo ed etichettiamo automaticamente ciascun parlante, anche con parlato sovrapposto.
2 $ all'ora, fisso
Una registrazione di studio da 4 ore costa quanto un MP3 da 4 ore: 2 $ all'ora. L'audio lossless non costa di più, anche se i file sono 10× la dimensione di un MP3.
Fino a 500 MB / 10 ore
Un WAV da 4 ore a 24-bit/48 kHz stereo pesa circa 2,4 GB e non entra. Converti in FLAC (anch'esso lossless) o dividi la sessione — 10 ore di WAV mono a 16-bit/16 kHz pesano circa 1,1 GB.
Dal file WAV alla trascrizione pulita in 3 passi
Carica il tuo WAV
Rilascia il file .wav nell'area di caricamento. Mono o stereo, qualsiasi sample rate, qualsiasi bit depth comune. Niente conversione.
Trascriviamo
I file WAV vengono decodificati direttamente — saltiamo la decodifica lossy, il che significa nessun artefatto di encoder in input. La maggior parte dei WAV sotto le 2 ore termina in 4-7 minuti.
Ottieni una trascrizione verbatim
Input lossless significa la massima precisione che la nostra pipeline può produrre. Copia come testo, esporta come SRT o scarica come documento Word con etichette dei parlanti.
Perché i professionisti scelgono WAV (e quando MP3 basta)
Il WAV è audio non compresso — la forma d'onda grezza archiviata campione per campione in un contenitore semplice. Un WAV stereo da 1 ora a 44,1 kHz / 16-bit (qualità CD) è di circa 600 MB; a 48 kHz / 24-bit (standard broadcast) è di ~1 GB all'ora. I file sono enormi perché non c'è compressione — ogni campione è preservato esattamente come l'ha catturato il microfono.
Per la trascrizione in particolare, il WAV produce risultati marginalmente migliori dell'MP3 in tre casi:
- Setup multi-microfono in cui ogni parlante ha il proprio canale. Possiamo usare la separazione di canale per migliorare la diarizzazione.
- Livelli di segnale molto bassi (parlato sussurrato, microfono lontano), dove la compressione MP3 scarta dettagli che aiutano il modello.
- Rumore o musica di sottofondo intensi, dove il range dinamico extra del WAV dà al modello più materiale per separare.
Per tutto il resto — podcast puliti, registrazioni a singolo parlante, audio normale di riunione — un MP3 a 192 kbps trascrive entro l'1 % di precisione del WAV. Se la differenza tra il 96 % e il 97 % di precisione conta, usa WAV. Altrimenti lo storage extra è sprecato in un flusso di trascrizione.
Da dove vengono i file WAV nei flussi reali
- DAW pro (Pro Tools, Logic, Reaper, Audacity): WAV è l'export di default per i master d'archivio. Le sessioni sono tipicamente a 24-bit / 48 kHz. Li accettiamo così come sono.
- Registratori da campo (Zoom H5/H6, Tascam DR-40, Sound Devices MixPre): registrano direttamente in WAV. Le registrazioni multi-mic sul campo producono spesso file WAV a 4 o 8 tracce — vanno bene; li sommiamo a mono internamente per la trascrizione.
- Sistemi di broadcast e archiviazione: BBC, NPR, cancellieri di tribunale e molti contesti legali/medici impongono WAV (o BWF — Broadcast WAV — che leggiamo allo stesso modo) perché la compressione lossy è considerata un problema di catena di custodia.
- Doppiaggio e ADR: il WAV preserva la take esattamente come registrata per l'editing successivo.
- Vecchie app di registrazione Windows: usano ancora WAV come default. Se hai una registrazione di dieci anni fa, probabilmente è WAV.
Consiglio per sessioni molto lunghe: se hai un WAV di deposizione da 5 ore a 24-bit/48 kHz da 5+ GB, converti prima in FLAC. Anche il FLAC è lossless, trascrive in modo identico al WAV e tipicamente dimezza la dimensione. Accettiamo FLAC direttamente.
Quanto costa davvero la trascrizione WAV
2 $ all'ora, indipendentemente da bit depth o sample rate. Esempi reali:
$2
WAV di intervista da 30 min
$8
Sessione di studio da 4 ore
$20
Deposizione da 10 ore
L'audio lossless non costa di più. I file WAV sono più grandi ma la trascrizione si paga a durata, non a dimensione.
Frequently asked questions
Quali bit depth e sample rate WAV sono supportati?+
Tutti quelli comuni: 16-bit, 24-bit, 32-bit intero e 32-bit float. Sample rate da 8 kHz (telefono legacy) fino a 192 kHz (alta risoluzione) si decodificano. Facciamo resampling internamente per la trascrizione.
Una trascrizione WAV sarà più precisa dello stesso audio in MP3?+
Marginalmente — tipicamente <1 % di differenza di precisione per audio parlato pulito. I casi in cui il WAV vince in modo significativo: registrazioni multi-mic, audio a basso livello e rumore di fondo intenso. Per audio normale di riunione/intervista, l'MP3 a 192 kbps è praticamente identico.
Il mio WAV è 4 GB e non si carica — cosa faccio?+
Converti in FLAC (anch'esso lossless, molto più piccolo) usando Audacity, ffmpeg o qualsiasi strumento audio pro. Un WAV tipico da 4 GB diventa un FLAC da 1,5-2 GB senza perdita di qualità audio. Oppure dividi la sessione in due metà in corrispondenza di una pausa naturale. I nostri limiti sono 500 MB e 10 ore per file.
Gestite WAV multitraccia (BWF, multicanale)?+
Sì. I file WAV multicanale (4 tracce, 8 tracce) vengono decodificati e sommati a mono prima della trascrizione. Non possiamo ancora usare le etichette di canale individuali per la diarizzazione — l'identificazione dei parlanti gira ancora sull'audio sommato. La diarizzazione multicanale è in roadmap.
I file BWF (Broadcast WAV) sono supportati?+
Sì — il BWF è semplicemente WAV con metadati extra in un chunk "bext". Ignoriamo i metadati e decodifichiamo l'audio come WAV standard. Timecode e metadati del registratore vengono preservati nel nostro backend ma non ancora esposti nell'editor della trascrizione.
Posso ottenere timestamp a livello di parola da un WAV?+
Attualmente forniamo timestamp a livello di segmento (frase) nella trascrizione e nell'export SRT. I timestamp a livello di parola sono in roadmap. Il formato di partenza — WAV vs MP3 — non cambia ciò che restituiamo.
Per cancellieri o deposizioni legali, il WAV è preferibile?+
Molti flussi legali impongono audio lossless per il master di archivio. Carica il WAV direttamente — niente passaggio di transcoding nella catena di custodia. Nota: TranscribeCat non è certificato per uso in tribunale; la trascrizione IA dovrebbe essere rivista da un umano prima dell'uso ufficiale.
Risorse correlate su WAV e audio pro
MP3 in testo
Quando l'MP3 basta (la maggior parte dei casi) e quando vince il WAV.
Per studi legali
Trascrizione di deposizioni e riservatezza.
Per il giornalismo
Trascrizione di interviste a più fonti con etichette dei parlanti.
Migliora la precisione della trascrizione
Posizionamento del microfono, rumore di fondo e cosa muove davvero la precisione.
Rilascia il tuo WAV e ottieni una trascrizione pulita
Audio di studio in ingresso, testo con etichette dei parlanti in uscita. 2 $ all'ora senza artefatti di compressione.
Start transcribingNo card needed to sign up.