AI Simplificada
🎙️Voicebox
Herramienta·16 de abril de 2026·6 min

Adiós ElevenLabs: Voicebox clona voces gratis en tu PC 🎙️

Voicebox es la alternativa open source y local a ElevenLabs. Clonación de voz, 5 motores TTS, 23 idiomas y efectos — todo corre en tu ordenador, gratis y sin nube.

Imagina clonar cualquier voz sin pagar ni subir nada a la nube

Eso es Voicebox — un estudio de síntesis y clonación de voz que corre 100% en tu ordenador. Gratis, open source y con licencia MIT. Y lo mejor: está casi al nivel de ElevenLabs.

¿Qué es Voicebox?

Voicebox es una aplicación de escritorio (Mac, Windows, Linux) que integra los mejores modelos open source de text-to-speech y voice cloning en una sola interfaz. Todo el procesamiento ocurre en tu máquina — tus voces y tus textos nunca salen de tu PC.

Está creado por Jamie Pine, el mismo desarrollador detrás de [Spacedrive](https://www.spacedrive.com). No es un proyecto cualquiera.

¿Qué puedes hacer?

Voicebox incluye funcionalidades que normalmente exigen varias herramientas por separado:

  • 5 motores TTS — Qwen3-TTS, LuxTTS, Chatterbox y TADA, entre otros
  • 23 idiomas soportados — español incluido, por supuesto
  • Clonación de voz desde una muestra de audio
  • Editor multi-pista para diálogos, historias y podcasts
  • Transcripción integrada con Whisper
  • 8 efectos de audio — pitch shift, reverb, delay, compresión...
  • API REST para integrarlo en tus apps
  • El detalle que marca la diferencia: tags paralingüísticos

    Puedes escribir directamente en el texto cosas como [laugh], [sigh] o [gasp] y la voz reacciona como si fuera humana. Ríe, suspira, suelta aire. Brutal para podcasts o narrativas.

    Voicebox vs ElevenLabs

    ElevenLabsVoicebox **Dónde corre**En la nubeEn tu ordenador **Precio**Desde $5/mesGratis (MIT) **Privacidad**Tus audios pasan por sus servidoresTodo local, nunca sale de tu PC **Límites**Caracteres por planTexto ilimitado **Motores TTS**Los suyos propios5 motores open source **Código**CerradoOpen source en GitHub

    ElevenLabs sigue siendo más refinado en cuanto a calidad y naturalidad. Pero Voicebox no se queda atrás — y gana por goleada en privacidad, coste y flexibilidad.

    Cómo empezar en 2 comandos

    Si ya tienes [Just](https://github.com/casey/just) instalado:

    
    

    git clone https://github.com/jamiepine/voicebox

    cd voicebox

    just setup && just dev

    También hay instaladores pre-compilados para macOS y Windows, y soporte para Docker.

    ¿Funciona con tu GPU?

    Sí, con casi cualquiera:

  • Apple Silicon (M1, M2, M3, M4) — MLX nativo, volando
  • NVIDIA — CUDA
  • AMD — ROCm
  • Intel Arc y DirectML
  • Linux vía Docker
  • En un MacBook Pro M3 genera voz clonada en tiempo real sin despeinarse.

    Casos de uso reales

  • Podcasters — clonar tu propia voz para corregir errores sin regrabar
  • Desarrolladores de juegos — voces para NPCs sin licenciar actores
  • Accesibilidad — generar audiolibros o descripciones para personas con discapacidad visual
  • Asistentes de voz — montar tu propio Alexa/Siri 100% privado
  • Content automation — doblar videos a otros idiomas automáticamente
  • La conclusión

    Voicebox es la prueba de que el open source va a seguir comiéndole terreno a los SaaS de IA. No es perfecto — ElevenLabs sigue ganando en calidad fina — pero:

  • Es **gratis**
  • Es **privado**
  • Es **local**
  • Y no deja de mejorar
  • Con 18.400+ estrellas en GitHub y subiendo, es solo cuestión de tiempo que alcance a los servicios de pago. Y entonces, será difícil volver atrás.

    Repo oficial: [github.com/jamiepine/voicebox](https://github.com/jamiepine/voicebox)

    VoiceboxElevenLabsVoice CloningOpen SourceTTSJamie Pine

    Aprende IA cada semana

    Vídeos prácticos semanales. Sin spam, sin tecnicismos.

    Suscríbete en YouTube