Transcribe WAV a texto por 2 $/hora
Grabaciones WAV de calidad estudio — exportaciones de DAW, entrevistas con varios micros, declaraciones, audio de archivo — transcritas con etiquetas de hablante en menos de 5 minutos para la mayoría de archivos. 2 $ por hora, sin suscripción.
Audio sin pérdida de entrada
Sube WAV PCM sin comprimir a cualquier frecuencia de muestreo o profundidad de bits (16-bit, 24-bit, 32-bit float — todo válido). No recomprimimos; el modelo recibe la señal de máxima calidad.
Diarización de hablantes
Grabaciones multipista, entrevistas en panel, declaraciones — identificamos y etiquetamos cada hablante automáticamente, incluso con habla solapada.
2 $ por hora, plano
Una grabación de estudio de 4 horas cuesta lo mismo que un MP3 de 4 horas: 2 $ por hora. El audio sin pérdida no cuesta más, aunque los archivos sean 10× más grandes que un MP3.
Hasta 500 MB / 10 horas
Un WAV de 4 horas a 24-bit/48 kHz estéreo pesa unos 2,4 GB y no entrará. Convierte a FLAC (también sin pérdida) o divide la sesión — 10 horas de WAV a 16-bit/16 kHz mono pesan unos 1,1 GB.
De archivo WAV a transcripción limpia en 3 pasos
Sube tu WAV
Suelta el archivo .wav en el área de subida. Mono o estéreo, cualquier frecuencia de muestreo, cualquier profundidad común. Sin conversión.
Transcribimos
Los WAV se decodifican directamente — saltamos el paso de decodificación con pérdida, lo que significa sin artefactos de codificador en la entrada. La mayoría de WAV de menos de 2 horas terminan en 4-7 minutos.
Obtén una transcripción literal
Entrada sin pérdida significa la mayor precisión que nuestro pipeline puede producir. Copia como texto, exporta como SRT o descarga como documento Word con etiquetas de hablante.
Por qué los profesionales eligen WAV (y cuándo MP3 basta)
WAV es audio sin comprimir — la forma de onda cruda almacenada muestra a muestra en un contenedor simple. Un WAV estéreo de 1 hora a 44,1 kHz / 16-bit (calidad CD) pesa unos 600 MB; a 48 kHz / 24-bit (estándar de broadcast) son ~1 GB por hora. Los archivos son enormes porque no hay compresión — cada muestra se preserva tal como la captó el micro.
Para transcripción concretamente, WAV produce resultados marginalmente mejores que MP3 en tres casos:
- Configuraciones multi-micrófono donde cada hablante tiene su canal. Podemos usar la separación de canales para mejorar la diarización.
- Niveles de señal muy bajos (voz susurrada, micro colocado lejos), donde la compresión MP3 descarta detalle que ayuda al modelo.
- Ruido o música de fondo intensos, donde el rango dinámico extra de WAV da al modelo más con qué trabajar para la separación.
Para todo lo demás — podcasts limpios, grabaciones de un solo hablante, audio normal de reuniones — un MP3 a 192 kbps transcribe con menos de 1 % de diferencia respecto a WAV. Si la diferencia entre 96 % y 97 % de precisión importa, usa WAV. En otro caso, el almacenamiento extra es derrochado en un flujo de transcripción.
De dónde vienen los archivos WAV en flujos reales
- DAWs profesionales (Pro Tools, Logic, Reaper, Audacity): WAV es la exportación por defecto para masters de archivo. Las sesiones suelen ser 24-bit / 48 kHz. Las aceptamos tal cual.
- Grabadoras de campo (Zoom H5/H6, Tascam DR-40, Sound Devices MixPre): graban directamente a WAV. Las grabaciones multi-mic de campo a menudo producen archivos WAV de 4 u 8 pistas — están bien; las sumamos a mono internamente para transcribir.
- Sistemas de broadcast y archivo: BBC, NPR, taquígrafos de tribunal y muchos contextos legales/médicos exigen WAV (o BWF — Broadcast WAV — que leemos idéntico) porque la compresión con pérdida se considera un problema de cadena de custodia.
- Doblaje y ADR: WAV preserva la toma exactamente como se grabó para edición posterior.
- Apps de grabación antiguas de Windows: siguen siendo WAV por defecto. Si tienes una grabación de hace una década, probablemente es WAV.
Consejo para sesiones muy largas: si tienes un WAV de declaración de 5 horas a 24-bit/48 kHz que pesa 5+ GB, convierte primero a FLAC. FLAC también es sin pérdida, transcribe idéntico a WAV y suele reducir el archivo a la mitad. Aceptamos FLAC directamente.
Lo que cuesta la transcripción WAV
2 $ por hora, sin importar profundidad de bits ni frecuencia de muestreo. Ejemplos reales:
$2
WAV de entrevista de 30 min
$8
Sesión de estudio de 4 horas
$20
Declaración de 10 horas
El audio sin pérdida no cuesta más. Los WAV son más grandes pero la transcripción se cobra por duración, no por tamaño.
Frequently asked questions
¿Qué profundidades de bits y frecuencias de muestreo se admiten en WAV?+
Todas las comunes: 16-bit, 24-bit, 32-bit entero y 32-bit float. Frecuencias de 8 kHz (teléfono antiguo) a 192 kHz (alta resolución) decodifican. Remuestreamos internamente para transcribir.
¿Una transcripción WAV será más precisa que el mismo audio en MP3?+
Marginalmente — normalmente menos del 1 % de diferencia en audio de voz limpio. Los casos donde WAV gana significativamente: grabaciones multi-mic, audio de bajo nivel y ruido de fondo intenso. Para audio normal de reunión/entrevista, MP3 a 192 kbps es prácticamente idéntico.
Mi WAV pesa 4 GB y no sube — ¿qué hago?+
Convierte a FLAC (también sin pérdida, mucho más pequeño) usando Audacity, ffmpeg o cualquier herramienta de audio pro. Un WAV típico de 4 GB se convierte en un FLAC de 1,5-2 GB sin pérdida de calidad. O divide la sesión en dos mitades por una pausa natural. Nuestros límites son 500 MB y 10 horas por archivo.
¿Manejan WAV multipista (BWF, multicanal)?+
Sí. Los WAV multicanal (4 pistas, 8 pistas) se decodifican y suman a mono antes de transcribir. Aún no podemos usar etiquetas de canal individual para diarizar — la identificación de hablante sigue corriendo sobre el audio sumado. La diarización multicanal está en el roadmap.
¿Se admiten los archivos BWF (Broadcast WAV)?+
Sí — BWF es WAV con metadatos extra en un chunk "bext". Ignoramos los metadatos y decodificamos el audio como WAV estándar. El timecode y metadatos de grabadora se preservan en nuestro backend pero aún no se muestran en el editor.
¿Puedo obtener marcas de tiempo a nivel de palabra desde WAV?+
Actualmente damos marcas de tiempo a nivel de segmento (frase) en la transcripción y exportación SRT. Las marcas de tiempo a nivel de palabra están en el roadmap. El formato de partida — WAV vs MP3 — no cambia lo que devolvemos.
Para uso por taquígrafos o declaraciones legales, ¿se prefiere WAV?+
Muchos flujos legales exigen audio sin pérdida para el archivo maestro. Sube el WAV directamente — sin paso de transcodificación en la cadena de custodia. Nota: TranscribeCat no está certificado para tribunales; la transcripción IA debería ser revisada por un humano antes del uso oficial.
Recursos relacionados WAV y audio pro
MP3 a texto
Cuándo basta MP3 (la mayoría de casos) y cuándo gana WAV.
Para legal
Transcripción de declaraciones y confidencialidad.
Para periodismo
Transcripción de entrevistas con varias fuentes y etiquetas.
Mejora la precisión de la transcripción
Posicionamiento del micro, ruido de fondo y qué mueve realmente la precisión.
Suelta tu WAV y obtén una transcripción limpia
Audio de estudio dentro, texto con etiquetas de hablante fuera. 2 $ por hora sin artefactos de compresión.
Start transcribingNo card needed to sign up.