Loading...

Trascrivi WAV in testo a 2 $/ora

Registrazioni WAV di qualità studio — export da DAW, interviste multi-microfono, deposizioni, audio d'archivio — trascritte con etichette dei parlanti in meno di 5 minuti per la maggior parte dei file. 2 $ all'ora, senza abbonamento.

Audio lossless in ingresso

Carica WAV PCM non compresso a qualsiasi sample rate o bit depth (16-bit, 24-bit, 32-bit float — tutto bene). Non ricomprimiamo; il modello riceve il segnale di massima qualità.

Diarizzazione dei parlanti

Registrazioni multitraccia, interviste in panel, deposizioni — identifichiamo ed etichettiamo automaticamente ciascun parlante, anche con parlato sovrapposto.

2 $ all'ora, fisso

Una registrazione di studio da 4 ore costa quanto un MP3 da 4 ore: 2 $ all'ora. L'audio lossless non costa di più, anche se i file sono 10× la dimensione di un MP3.

Fino a 500 MB / 10 ore

Un WAV da 4 ore a 24-bit/48 kHz stereo pesa circa 2,4 GB e non entra. Converti in FLAC (anch'esso lossless) o dividi la sessione — 10 ore di WAV mono a 16-bit/16 kHz pesano circa 1,1 GB.

Dal file WAV alla trascrizione pulita in 3 passi

1

Carica il tuo WAV

Rilascia il file .wav nell'area di caricamento. Mono o stereo, qualsiasi sample rate, qualsiasi bit depth comune. Niente conversione.

2

Trascriviamo

I file WAV vengono decodificati direttamente — saltiamo la decodifica lossy, il che significa nessun artefatto di encoder in input. La maggior parte dei WAV sotto le 2 ore termina in 4-7 minuti.

3

Ottieni una trascrizione verbatim

Input lossless significa la massima precisione che la nostra pipeline può produrre. Copia come testo, esporta come SRT o scarica come documento Word con etichette dei parlanti.

Perché i professionisti scelgono WAV (e quando MP3 basta)

Il WAV è audio non compresso — la forma d'onda grezza archiviata campione per campione in un contenitore semplice. Un WAV stereo da 1 ora a 44,1 kHz / 16-bit (qualità CD) è di circa 600 MB; a 48 kHz / 24-bit (standard broadcast) è di ~1 GB all'ora. I file sono enormi perché non c'è compressione — ogni campione è preservato esattamente come l'ha catturato il microfono.

Per la trascrizione in particolare, il WAV produce risultati marginalmente migliori dell'MP3 in tre casi:

Setup multi-microfono in cui ogni parlante ha il proprio canale. Possiamo usare la separazione di canale per migliorare la diarizzazione.
Livelli di segnale molto bassi (parlato sussurrato, microfono lontano), dove la compressione MP3 scarta dettagli che aiutano il modello.
Rumore o musica di sottofondo intensi, dove il range dinamico extra del WAV dà al modello più materiale per separare.

Per tutto il resto — podcast puliti, registrazioni a singolo parlante, audio normale di riunione — un MP3 a 192 kbps trascrive entro l'1 % di precisione del WAV. Se la differenza tra il 96 % e il 97 % di precisione conta, usa WAV. Altrimenti lo storage extra è sprecato in un flusso di trascrizione.

Da dove vengono i file WAV nei flussi reali

DAW pro (Pro Tools, Logic, Reaper, Audacity): WAV è l'export di default per i master d'archivio. Le sessioni sono tipicamente a 24-bit / 48 kHz. Li accettiamo così come sono.
Registratori da campo (Zoom H5/H6, Tascam DR-40, Sound Devices MixPre): registrano direttamente in WAV. Le registrazioni multi-mic sul campo producono spesso file WAV a 4 o 8 tracce — vanno bene; li sommiamo a mono internamente per la trascrizione.
Sistemi di broadcast e archiviazione: BBC, NPR, cancellieri di tribunale e molti contesti legali/medici impongono WAV (o BWF — Broadcast WAV — che leggiamo allo stesso modo) perché la compressione lossy è considerata un problema di catena di custodia.
Doppiaggio e ADR: il WAV preserva la take esattamente come registrata per l'editing successivo.
Vecchie app di registrazione Windows: usano ancora WAV come default. Se hai una registrazione di dieci anni fa, probabilmente è WAV.

Consiglio per sessioni molto lunghe: se hai un WAV di deposizione da 5 ore a 24-bit/48 kHz da 5+ GB, converti prima in FLAC. Anche il FLAC è lossless, trascrive in modo identico al WAV e tipicamente dimezza la dimensione. Accettiamo FLAC direttamente.

Quanto costa davvero la trascrizione WAV

2 $ all'ora, indipendentemente da bit depth o sample rate. Esempi reali:

$2

WAV di intervista da 30 min

$8

Sessione di studio da 4 ore

$20

Deposizione da 10 ore

L'audio lossless non costa di più. I file WAV sono più grandi ma la trascrizione si paga a durata, non a dimensione.

Frequently asked questions

Quali bit depth e sample rate WAV sono supportati?+

Tutti quelli comuni: 16-bit, 24-bit, 32-bit intero e 32-bit float. Sample rate da 8 kHz (telefono legacy) fino a 192 kHz (alta risoluzione) si decodificano. Facciamo resampling internamente per la trascrizione.

Una trascrizione WAV sarà più precisa dello stesso audio in MP3?+

Marginalmente — tipicamente <1 % di differenza di precisione per audio parlato pulito. I casi in cui il WAV vince in modo significativo: registrazioni multi-mic, audio a basso livello e rumore di fondo intenso. Per audio normale di riunione/intervista, l'MP3 a 192 kbps è praticamente identico.

Il mio WAV è 4 GB e non si carica — cosa faccio?+

Converti in FLAC (anch'esso lossless, molto più piccolo) usando Audacity, ffmpeg o qualsiasi strumento audio pro. Un WAV tipico da 4 GB diventa un FLAC da 1,5-2 GB senza perdita di qualità audio. Oppure dividi la sessione in due metà in corrispondenza di una pausa naturale. I nostri limiti sono 500 MB e 10 ore per file.

Gestite WAV multitraccia (BWF, multicanale)?+

Sì. I file WAV multicanale (4 tracce, 8 tracce) vengono decodificati e sommati a mono prima della trascrizione. Non possiamo ancora usare le etichette di canale individuali per la diarizzazione — l'identificazione dei parlanti gira ancora sull'audio sommato. La diarizzazione multicanale è in roadmap.

I file BWF (Broadcast WAV) sono supportati?+

Sì — il BWF è semplicemente WAV con metadati extra in un chunk "bext". Ignoriamo i metadati e decodifichiamo l'audio come WAV standard. Timecode e metadati del registratore vengono preservati nel nostro backend ma non ancora esposti nell'editor della trascrizione.

Posso ottenere timestamp a livello di parola da un WAV?+

Attualmente forniamo timestamp a livello di segmento (frase) nella trascrizione e nell'export SRT. I timestamp a livello di parola sono in roadmap. Il formato di partenza — WAV vs MP3 — non cambia ciò che restituiamo.

Per cancellieri o deposizioni legali, il WAV è preferibile?+

Molti flussi legali impongono audio lossless per il master di archivio. Carica il WAV direttamente — niente passaggio di transcoding nella catena di custodia. Nota: TranscribeCat non è certificato per uso in tribunale; la trascrizione IA dovrebbe essere rivista da un umano prima dell'uso ufficiale.

Risorse correlate su WAV e audio pro

MP3 in testo

Quando l'MP3 basta (la maggior parte dei casi) e quando vince il WAV.

Per studi legali

Trascrizione di deposizioni e riservatezza.

Per il giornalismo

Trascrizione di interviste a più fonti con etichette dei parlanti.

Migliora la precisione della trascrizione

Posizionamento del microfono, rumore di fondo e cosa muove davvero la precisione.

Rilascia il tuo WAV e ottieni una trascrizione pulita

Audio di studio in ingresso, testo con etichette dei parlanti in uscita. 2 $ all'ora senza artefatti di compressione.

Start transcribing

No card needed to sign up.

See also

M4A in testo

Memo vocali iPhone e file AAC.

MP4 in testo

File video con estrazione dell'audio.

Vedi una trascrizione di esempio

Output reale con etichette dei parlanti.

Prezzi della trascrizione

2 $/h per qualsiasi formato.