Inicio Artículos de fondo Dispositivos electrónicos con orientación por voz

Dispositivos electrónicos con orientación por voz

1473
0

Genera fácilmente archivos de voz desde archivos de texto

ESPER2 puede importar frases ya formuladas, que estén en formato CSV, y generar archivos de idioma desde ellas. Para este propósito, ESPER2 analiza los textos con relación a la estructura de la sentencia y la posición de las palabras para proceder – junto con un diccionario muy amplio y almacenado – a la pronunciación correcta y el énfasis de las sílabas y las palabras. El resultado es un archivo de audio generado por ordenador de alta calidad que apenas difiere de las palabras expresadas por una persona.

La pronunciación de las palabras que no están guardadas en el diccionario o tienen un énfasis especial, como los nombres de producto, se puede adaptar por parte del desarrollador usando la función de edición integrada.

La herramienta de orientación por voz se encuentra disponible en doce idiomas (inglés estadounidense, español americano, francés canadiense, inglés británico, francés, alemán, italiano, ruso, español, chino, japonés y coreano) y ahora presta servicio al área lingüística europea, además de los idiomas americanos y asiáticos. No obstante, resulta importante mencionar que no existe una función de traducción. Esto implica que el texto debe estar en el idioma deseado en formato CSV e importado en ESPER2 o introducido manualmente en la propia ESPER2. Cada idioma soporta una voz femenina. La velocidad y el tono se pueden ajustar de forma variable para reflejar las características específicas del idioma.

Los usuarios pueden continuar usando los actuales datos de voz y audio (WAV, ratio de muestreo de 16 kHz y formato mono) en los diseños existentes. Para este fin, el desarrollador importa los ficheros WAV en el entorno de desarrollo y, posteriormente, sólo tiene que conectar los ficheros con los archivos generados por ESPER2. Epson sigue trabajando para ofrecer sonidos simples y una librería a la hora de generar archivos de voz y audio de alta calidad para unidades comunes como monedas, pesos y tamaños similares. Las grabaciones ya definidas se pueden exportar como una descarga de Excel en formato CSV para un procesamiento más profundo.

Optimiza el espacio de almacenamiento sin pérdida en la calidad de voz

La ESPER2 Voice Creation Tool de Epson usa el propio formato de códec EOV (Epson Own Voice) de Epson para disminuir el tamaño de archivo y así lograr una transmisión o un almacenamiento eficaz en la orientación por voz. En comparación con la ADPCM (Adaptive Differential Pulse Code Modulation) de compresión estándar, EOV puede reducir el tamaño del fichero entre un cuarto y dos tercios. Aun así, la transmisión de voz todavía alcanza alta calidad a 16, 24, 32 o 40 kbps.

El archivo .eov (memoria de datos de voz y audio) consta de una tabla de búsqueda y los datos de audio. Si una frase con un determinado significado se asigna al mismo ID en los diferentes idiomas, resulta muy fácil reproducir esta oración en varias lenguas al seleccionar el mismo ID de la tabla de búsqueda. Esto aporta a los desarrolladores un “resumen”, especialmente si hay que elaborar muchas frases diferentes en varios idiomas.

Es posible minimizar el espacio de memoria al insertar una barra diagonal convencional (/) para frases básicas o repetitivas cuando, por ejemplo, se indican temperaturas. La ESPER2 Voice Creation Tool las entiende y organiza y conecta automáticamente todos los enunciados como en este ejemplo:

  • Número de ID 1: «La temperatura/es de 38 grados Celsius».
  • Número de ID 2: «La temperatura es de 39 grados Celsius».
  • Número de ID 3: «La temperatura es de 40 grados Celsius».

Los datos de voz generados aquí son: «La temperatura/es de 38 grados Celsius», «es de 39 grados Celsius» y «es de 40 grados Celsius».

Dejar una respuesta

Please enter your comment!
Please enter your name here

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.