* texto sin formato: El formato más común, que contiene solo caracteres y puntuación.
* Texto formateado: Incluye elementos de formato como Bold, Cursals y Line Breaks.
* Transcripciones fonéticas: Usando símbolos fonéticos para representar los sonidos del texto.
* Información prosódica: Información adicional sobre el ritmo, la entonación y el énfasis del texto.
Más allá del texto, algunos sintetizadores del habla pueden aceptar entradas adicionales:
* Parámetros de voz: Permitiendo a los usuarios personalizar la voz sintetizada, como género, edad, acento y tono emocional.
* Señales de audio: Para aplicaciones como la conversión de voz en tiempo real, donde el sintetizador modifica una señal de audio existente.
La forma en que el sintetizador procesa estas entradas pueden variar mucho, desde sistemas simples basados en reglas hasta modelos de aprendizaje profundo complejos. Sin embargo, el principio central sigue siendo el mismo: Convertir el texto en señales de habla.