Transcribe video MP4 a texto por 2 $/hora
Suelta tu MP4 — extraemos la pista de audio automáticamente y devolvemos una transcripción con etiquetas de hablante. Funciona para grabaciones de Zoom, grabaciones de pantalla, clases, charlas y videos descargados. 2 $ por hora, mínimo 2 $.
Extraemos el audio
No conviertas tu MP4 a MP3 antes — sube el video tal cual. Sacamos la pista de audio en el servidor y descartamos el video. La transcripción sale igual.
Etiquetas de hablante para reuniones
MP4 es el formato dominante para grabaciones de Zoom, Teams y Meet. ¿Varios hablantes? Los separamos y etiquetamos cada segmento.
2 $ por hora, video o audio
Pagas por duración, no por formato. Una clase MP4 de 1 hora cuesta 2 $, lo mismo que un podcast MP3 de 1 hora. Que esté el video no añade coste.
Exportación SRT para subtítulos
¿Necesitas subtítulos para el mismo video en YouTube o redes? Descarga la transcripción como SRT y quémalos o súbelos a tu video — las marcas de tiempo ya están alineadas.
De video MP4 a texto en 3 pasos
Sube tu MP4
Suelta el .mp4 en el área de subida. Funcionan archivos hasta 500 MB / 10 horas. No hace falta extraer el audio antes ni convertir a MP3.
Extraemos y transcribimos
Nuestro pipeline saca la pista de audio, la pasa por diarización y transcripción Whisper. La mayoría de MP4 de menos de 2 horas terminan en 4-8 minutos.
Descarga texto o SRT
Copia la transcripción, exporta como SRT para subtítulos de video (marcas de tiempo ya alineadas) o descarga como Word. El MP4 se reproduce junto al texto.
Formatos de video, códecs y por qué MP4 es la apuesta segura
MP4 es técnicamente un contenedor, como ZIP para video. Dentro normalmente encuentras:
- Pista de video: normalmente H.264 (AVC), cada vez más H.265 (HEVC), ocasionalmente códecs nuevos como AV1. No nos importa — descartamos el video.
- Pista de audio: normalmente AAC, ocasionalmente AC-3 o MP3. Es la única parte que importa. La extraemos, decodificamos, transcribimos.
- Pistas de subtítulos: las ignoramos. Generamos las nuestras desde el audio.
No hace falta que extraigas el audio tú mismo. Herramientas como Audacity, Handbrake o ffmpeg permiten sacar un WAV o MP3 de un MP4 — pero hacerlo no cambia la transcripción. Sáltate el paso. Sube el MP4 directamente.
Un consejo de ancho de banda: si tu video fuente es enorme (una grabación de pantalla 4K puede fácilmente llegar a 5 GB en 1 hora) y solo te importa el audio para transcribir, exportar solo audio con QuickTime o Audacity ahorra tiempo de subida. Pero una grabación típica de Zoom (1080p, 1 hora) ronda 200-400 MB y sube bien tal cual.
Fuentes comunes de MP4 y qué esperar
- Grabaciones de Zoom en la nube: 1080p H.264 + AAC. Transcripciones limpias, las etiquetas de hablante funcionan bien porque Zoom graba a cada participante con volumen parecido. Archivo típico de 1 hora: 250 MB.
- Grabaciones de Microsoft Teams: guardadas en OneDrive/SharePoint, normalmente 720p H.264 + AAC. Misma precisión que Zoom. Descarga desde Stream/SharePoint como MP4.
- Grabaciones de Google Meet en la nube: función solo de Workspace. 720p H.264 + AAC, bitrate ligeramente menor que Zoom. La precisión de hablante es buena pero un poco menos nítida en cross-talk.
- Grabaciones de pantalla con QuickTime / OBS / iPhone: H.264 + AAC. Excelente calidad. Comunes para tutoriales de producto, pantallas compartidas de clase y demos de software.
- Material de cámara (iPhone, GoPro, DSLR): normalmente H.264 o HEVC + AAC. Las grabaciones de campo suelen tener ruido de viento o de fondo — la precisión depende del micro, no del formato.
- Descargas de YouTube: herramientas como cobalt o yt-dlp dan MP4. Asegúrate de tener derecho a transcribir (tu propio video o con permiso).
Lo que cuesta la transcripción MP4
2 $ por hora de video, independientemente de resolución o códec. Ejemplos reales:
$2
Grabación de Zoom de 45 min
$4
Clase de 2 horas
$10
Charlas de congreso de 5 horas
Mínimo de 2 $ por archivo. La resolución no importa — solo transcribimos el audio.
Frequently asked questions
¿Tengo que extraer el audio del MP4 antes?+
No. Sube el .mp4 directamente — sacamos la pista de audio en el servidor. Pre-extraerlo a WAV o MP3 no cambia la transcripción y solo añade un paso.
¿Y si mi MP4 supera 500 MB?+
O comprimes el video primero (Handbrake deja una grabación típica de Zoom 1080p bastante por debajo de 500 MB) o extraes el audio a MP3/M4A (QuickTime: Archivo → Exportar como → Solo audio). Los archivos solo audio pesan aproximadamente 5-10 % del video.
¿Cuánto tarda un MP4 en transcribirse?+
La mayoría de MP4 de menos de 2 horas terminan en 4-8 minutos. El paso de extracción añade unos 30 segundos respecto a empezar desde MP3. Un MP4 de 4 horas suele tardar 12-18 minutos.
¿Obtendré subtítulos que pueda meter en mi video?+
Sí. La exportación SRT usa las mismas marcas de tiempo que el audio fuente, así que puedes adjuntar el .srt al MP4 en cualquier reproductor o subirlo como subtítulos en YouTube/Vimeo. El formato es SubRip estándar.
¿Importa el códec — H.264 vs H.265 vs AV1?+
No. Descartamos la pista de video entera. Mientras el archivo se reproduzca en cualquier reproductor moderno, nuestro pipeline lo lee. Audio AAC, MP3 y AC-3 están todos soportados.
¿Y las grabaciones de pantalla sin audio hablado?+
Un video silencioso produce una transcripción vacía y un reembolso — reembolsamos automáticamente cualquier archivo en el que la transcripción falle o no encuentre voz. Si la grabación solo tiene música de fondo, obtendrás salida tipo detección de canción, no una transcripción útil.
¿La transcripción integrada de Zoom funciona igual de bien?+
La transcripción integrada de Zoom es decente para algo gratuito, pero le falta precisión de etiquetas en cross-talk, no soporta más de 100 idiomas y no está disponible en Zoom gratuito. Si solo necesitas transcripciones en inglés de reuniones limpias y tienes plan de pago, la integrada está bien. Para todo lo demás, subir el MP4 es la respuesta consistente.
Recursos relacionados de MP4 y video
Suelta tu MP4 y obtén una transcripción
Grabaciones de Zoom, clases, capturas de pantalla — 2 $ por hora con etiquetas de hablante y exportación SRT.
Start transcribingNo card needed to sign up.