English Version # Preprocesamiento de Textos para TTS en Español <img style="float: right" src="./files/tts.png"> Un sistema de **conversión de texto en habla** (**TTS**, del inglés text-to-speech) recibe como entrada un texto y produce como salida un audio con el habla correspondiente. Este proyecto consiste en implementar los módulos de preprocesamiento del texto de entrada, para un lector de artículos de Wikipedia en español. Este proceso involucra varios pasos: 1. extraer el texto relevante de la página HTML; 1. segmentar el texto de entrada en oraciones; 1. transcribir fonéticamente las palabras extranjeras (e.g., 'hello' → 'jalóu'); 1. expandir abreviaturas y expresiones numéricas (e.g., '$2' → 'dos pesos', 'DGI' → 'de ge i'). Estos módulos fueron implementados como parte de las Tesis de Licenciatura de Ezequiel Saudino (3/2015) y Verónica Pechersky (12/2012) (director: A. Gravano). ## Documentación Los módulos implementados en este proyecto se describen en detalle en: * Ezequiel Saudino, "[Preprocesamiento y Normalización del Texto de un Sistema de Conversión Texto-Habla](http://www.dc.uba.ar/academica/tesis-de-licenciatura/2015/saudino.pdf)", Tesis de Licenciatura, Departamento de Computación, FCEyN, Universidad de Buenos Aires. Marzo de 2015. Además, la metodología empleada en el módulo de normalización del texto se describe en: * Verónica Pechersky, "[Normalización del texto de entrada para un sistema de síntesis del habla](http://www.dc.uba.ar/academica/tesis-de-licenciatura/2012/pechersky.pdf)", Tesis de Licenciatura, Departamento de Computación, FCEyN, Universidad de Buenos Aires. Diciembre de 2012. ## Código fuente y otros recursos El código fuente de los módulos implementados está liberado bajo la [Licencia Apache 2.0]((http://www.apache.org/licenses/) y puede bajarse gratuitamente de [GitHub](https://github.com/aganha/tts-preprocessing). Otros recursos disponibles: * [Listado de abreviaturas](https://github.com/aganha/tts-preprocessing/blob/master/Normalizador-0.3/Abreviaturas.txt). * [Listado de siglas y acrónimos](https://github.com/aganha/tts-preprocessing/blob/master/Normalizador-0.3/siglas.txt). * [Listado de transcripciones fonéticas de palabras en inglés](https://github.com/aganha/tts-preprocessing/blob/master/Traductor-0.3/PalabrasIngles.txt). --- **Última modificación:** 30 Ago 2016