La conversión de
texto en habla
Text-to-speech
synthesis
La conversión
de texto en habla permite a un ordenador transformar automáticamente un texto
en su correspondiente forma sonora, lo más parecida posible a como lo haría un
ser humano. Entre otras aplicaciones, esta tecnología lingüística permite
acceder a través del teléfono a textos digitales (como una página web o un
mensaje de correo electrónico), o facilitar el uso de los sistemas informáticos
a personas con necesidades especiales.
The conversion of text into speech allows
computers to automatically transform a text into its corresponding sounds, as
close as possible to the way humans read. Among other applications, this
linguistic technology provides telephone access to digital texts (such as web
pages or e-mail messages), and facilitates the use of computerized system to
people with special needs.
El segundo componente, al que nos referiremos
específicamente en este trabajo, realiza exactamente la operación inversa:
transforma un texto escrito en su forma oral. Para ello utiliza las técnicas de
síntesis del habla y, en concreto, la denominada conversión de texto en
habla (CTH o TTS, text-to-speech
en inglés).
Finalmente, la interacción entre
la persona y la máquina se dirige desde un módulo denominado habitualmente
gestor del diálogo, que controla la secuencia, en general de preguntas y
respuestas, producidas por quien habla y por el ordenador.
Estas tres tecnologías (reconocimiento del habla,
síntesis del habla y gestión del diálogo) se integran en los llamados sistemas
de diálogo o sistemas conversacionales, mediante los cuales se puede obtener
información o realizar transacciones mediante el habla con la ayuda de un
sistema informático (fig. 1).
Las «máquinas
parlantes»
La posibilidad de producir artificialmente habla
similar a la humana ha despertado desde siempre el interés de los científicos.
Una muestra de los esfuerzos realizados para conseguir este objetivo la
encontramos en la «máquina parlante» del barón Wolfgang von Kempelen, descrita
en 1791. La «máquina» intentaba reproducir fielmente la anatomía del aparato
fonador humano, al igual que lo haría más tarde el sistema diseñado por sir
Charles Wheatstone en 1835.
Más adelante, los componentes mecánicos se
sustituyeron por los circuitos eléctricos, como en el Voder (Voice Demonstrator) de Homer Dudley,
presentado en dos ferias mundiales en 1939. Un paso crucial se dio en los años
sesenta, cuando el control de los ya denominados sintetizadores de habla
empezó a realizarse desde un sistema informático completamente automático,
abriendo así el camino a los productos actuales, cuyas primeras versiones se
comercializaron en la década de los ochenta.
Hemos pasado, pues, de los fuelles, las lengüetas y
las palancas a programas fácilmente accesibles a todos, que permiten que un
ordenador lea en voz alta un texto cualquiera, cada vez de una forma más
natural y en un creciente número de lenguas. En los apartados siguientes se
intenta exponer sucintamente qué conocimientos y tecnologías son necesarios
para convertir automáticamente un texto escrito en su manifestación oral.
La producción de
los sonidos del habla
Un modelo acústico de producción del habla
Un avance fundamental para llegar a los actuales
sistemas de síntesis fue la posibilidad de modelar el proceso de producción de los
sonidos del habla mediante un procedimiento relativamente simple, distinguiendo
dos componentes principales: la fuente y el filtro.
En el habla humana, los sonidos se originan gracias
al aire que sale de los pulmones y que llega al exterior a través de la laringe
y del tracto vocal. En la laringe existen dos pliegues musculares (las cuerdas
vocales) que al abrirse y cerrarse provocan la vibración de las moléculas del
aire, emitiendo de este modo sonidos llamados sonoros como, por ejemplo, las vocales; en otras clases de sonidos,
como en ciertas consonantes ([f] o [s], por ejemplo), el aire simplemente pasa
entre las cuerdas vocales abiertas.
Este mecanismo permite dividir los sonidos en dos
clases: los denominados sonoros, en los que vibran las cuerdas vocales
–como se observa colocando las yemas de los dedos a la altura de la laringe y
pronunciado una vocal alargada– y los sordos, en los que no se produce
esta vibración (y que puede comprobarse por el mismo procedimiento,
pronunciando una [s] larga).
La principal propiedad de los sonidos sordos es que
acústicamente consisten en una onda sonora periódica, en la que se repite un
patrón de vibración que corresponde al ritmo de abertura y cierre de las
cuerdas vocales, mientras que en los sonidos sonoros la onda sonora resultante
es aperiódica, sin una regularidad apreciable en su estructura acústica.
Para producir artificialmente estos dos tipos de
sonidos basta con disponer de un mecanismo, conocido en síntesis como la fuente,
capaz de generar ondas sonoras periódicas y ondas sonoras aperiódicas. De este
modo puede imitar las características acústicas de los sonidos sordos y sonoros
(fig. 2).
El siguiente elemento necesario para la síntesis es
un procedimiento para reproducir la acción del tracto vocal (la faringe, la
cavidad bucal y la cavidad nasal) en la producción de los sonidos. El tracto
vocal puede considerarse como una cavidad de resonancia, similar a la de un
instrumento musical.
Además de su periodicidad, las ondas sonoras
correspondientes a los sonidos sonoros tienen otra propiedad: poseen una
frecuencia, denominada fundamental, que corresponde al tono agudo o
grave con el que los percibimos y que está relacionada con el tamaño de las
cuerdas vocales y la velocidad a la que se abren y cierran y una serie de
armónicos, que son los responsables de que cada sonido se perciba con un timbre
(claro, oscuro) diferente. Simplificando, se puede equiparar las cuerdas
vocales con las cuerdas de un instrumento, y el tracto vocal con su caja de
resonancia, de modo que una misma nota producida por un violín o por un
contrabajo, por ejemplo, se percibe con un timbre diferente, lo que nos permite
distinguir entre ambos instrumentos, aunque la frecuencia fundamental o tono
(la nota, en términos musicales) sea la misma.
El tracto vocal no adopta la
misma configuración en el momento de producir cada sonido; esto puede
observarse, por ejemplo, comprobando que en una vocal como [i] la lengua se
sitúa hacia la parte anterior de la cavidad bucal (al introducir un lápiz entre
los labios se llega de inmediato a tocar la punta de la lengua), mientras que
en una vocal como [u] la lengua se sitúa en la parte posterior (el mismo
experimento permite observar que el lápiz puede introducirse mucho más entre
los labios). Por otra parte, una vocal como [a] exige que la mandíbula inferior
se desplace hacia abajo, abriendo bien la cavidad bucal; si bien se puede
pronunciar con relativa facilidad [i] o [u] sosteniendo un cigarrillo entre los
dientes, la misma operación es más difícil con la vocal [a]. Técnicamente, se
habla en fonética de vocales anteriores en el caso de [i], posteriores en el
caso de [u] y abiertas en el caso de [a], frente a [i] e [u], que se consideran
cerradas (fig. 3).
Estos cambios en la posición de la lengua y la
mandíbula hacen que la forma del tracto vocal sea diferente para cada sonido.
En cierto modo, se puede equiparar a lo que sucedería con un instrumento que
dispusiera de las mismas cuerdas y de diferentes cajas de resonancia, o de una
caja que pudiera variar su tamaño y forma.
Desde el punto de vista acústico, este hecho tiene
consecuencias importantes, pues la caja de resonancia del tracto vocal altera
las propiedades de la onda sonora que se ha creado en las cuerdas vocales, modificando
la amplitud de los armónicos, responsables del timbre con el que percibimos
cada sonido.
Esta acción del tracto vocal sobre los armónicos de
la onda sonora que se crea en la laringe puede imitarse en la síntesis con lo
que se denomina un filtro, es decir, un mecanismo que aumenta la amplitud de
determinados armónicos y reduce la de otros, dotando así a cada sonido de una
configuración acústica diferente (fig. 4).
Con ello tenemos ya los dos elementos básicos para
imitar artificialmente el mecanismo de producción del habla: una fuente, con
una acción análoga a la de las cuerdas vocales, y un filtro que hace las veces
de tracto vocal. En 1960, Gunnar Fant formuló detalladamente este modelo
(conocido como el modelo de la fuente y el filtro y que todavía se
utiliza en la actualidad en los sistemas de conversión de texto a habla) y lo
puso en práctica en el diseño de uno de los primeros sintetizadores modernos.
Asimismo, es preciso conocer cuáles de estas
características acústicas contribuyen a distinguir perceptivamente los sonidos
entre sí puesto que, en última instancia, en el proceso de comunicación entre
personas se transmiten ondas sonoras que interpretamos como sonidos de la
lengua.
Un avance muy significativo en este sentido se
realizó a finales de los años cincuenta, con el Pattern Playblack (fig. 5) de los Laboratorios Haskins. En esencia,
consistía en un sistema que permitía «dibujar» representaciones acústicas
esquematizadas de los sonidos –en forma de espectrogramas, representaciones
utilizadas habitualmente en fonética en las que se puede observar la
frecuencia, la intensidad y la duración de los sonidos que componen un
enunciado– y reproducirlas para observar los cambios en la percepción que se
producían en función de las variaciones en los parámetros acústicos. De este
modo se pudo determinar cuáles son las propiedades acústicas esenciales que
distinguen diversas clases de sonidos, propiedades que se relacionan, en la
síntesis, con la información que debe llegar a la fuente y al filtro para la
producción de cada sonido.
Los estudios en fonética acústica y perceptiva,
apoyados en el modelo de la fuente y el filtro y en herramientas como el
espectrógrafo y el Pattern Playback, han permitido llegar a una
caracterización de las propiedades de cada uno de los sonidos, información
esencial si se desean reproducir de forma artificial.
Por ejemplo, una vocal puede caracterizarse
acústicamente en términos de su frecuencia fundamental –responsable del tono o
altura tonal con que la percibimos–, de su duración y de la frecuencia e
intensidad de sus componentes principales. Estos componentes se denominan
formantes y se identifican como F1 (primer formante), F2 (segundo formante),
etcétera, y son responsables del timbre, propiedad que nos permite diferenciar
la percepción, pongamos por caso, de una [a] o de una [i].
Así pues, la síntesis de una vocal requeriría
disponer de información sobre su frecuencia fundamental y la frecuencia de sus
formantes. El primer aspecto se relaciona con la fuente, mientras que el
segundo depende del filtro, ya que los formantes no son más que armónicos cuya
amplitud se realza en función de la forma que adopte el tracto vocal, creando
diferentes cajas de resonancia para cada sonido, tal como veíamos en el ejemplo
anterior con [a], [i] y [u].
Cabría pensar que para que funcione un sistema de síntesis
del habla basta con disponer de la información sobre los parámetros acústicos
necesarios para que la acción conjunta de una fuente y un filtro proporcione
cada uno de los sonidos del enunciado a reproducir.
Se podría imaginar la posibilidad de que un locutor
grabara cada uno de los sonidos de la lengua en la que deseamos crear
enunciados sintetizados; a continuación, se analizarían las propiedades
acústicas de cada sonido, y se guardarían esas propiedades en una tabla. En el
momento de la síntesis, dicha tabla proporcionaría a la fuente y el filtro del
sintetizador la información necesaria.
Sin embargo, con el conocimiento de las propiedades
de cada sonido no se puede lograr todavía que un sintetizador genere enunciados
completos. Para ello faltan como mínimo dos aspectos esenciales: en primer
lugar, la información sobre el modo como los sonidos del habla se enlazan unos
con otros o, expresado en terminología de los sistemas de síntesis, se
concatenan; y en segundo lugar, la información sobre las propiedades más
globales del enunciado, agrupadas generalmente bajo la denominación de prosodia
o elementos suprasegmentales. A continuación haremos un breve repaso a ambos
aspectos.
De forma análoga, en el paso de una consonante
oclusiva como [p], [t] o [k] –articulada con una obstrucción de la salida del
aire seguida de una liberación del aire acumulado durante el cierre del tracto
vocal– a una vocal, pueden observarse en un espectrograma los cambios de
configuración de la cavidad bucal en el cambio de un sonido a otro, en forma de
las llamadas transiciones de los formantes.
Conseguir habla sintetizada de calidad a base de
concatenar sonidos aislados e intentando imitar el resultado acústico de los
movimientos del tracto vocal en las transiciones entre sonidos es una operación
muy difícil. Por ello, las unidades a partir de las cuales se construye un
sistema de síntesis no suelen ser sonidos aislados, sino combinaciones de
sonidos.
Son habituales los denominados difonemas, que
consisten en una combinación entre la mitad del primer sonido y la mitad del
segundo, o las semisílabas, formadas por el primer sonido completo y la mitad
del segundo. Con ello se persigue que al concatenar las unidades la unión se
produzca por las partes en las que existe una menor variación acústica
(típicamente en el «centro» de un sonido) y no por aquellas en las que se
encuentra la transición de un sonido a otro. Para sintetizar la palabra casa
mediante difonemas se recurriría a juntar [ka] con [as] y [as] con [sa], de
modo que la unión de realizaría entre dos mitades de [a] y entre dos mitades de
[s], zonas en las que la cavidad bucal se mantiene en una posición
relativamente estable en comparación con el momento de cambio de [k] a [a] o de
[s] a [a].
En un sistema de síntesis real, se dispondrá pues de
la grabación de todos los difonemas existentes en la lengua para la que se
desarrolla el sistema (el conjunto que constituye el diccionario de unidades de
síntesis), y, para cada una de ellos se guardará debidamente codificada la
información correspondiente a las propiedades acústicas que necesitan la fuente
y el filtro del sintetizador para su reproducción.
Por una parte, la duración de cada uno de los
sonidos no es siempre la misma, pues se ve influida por diversos factores, como
la velocidad a la que se habla, los sonidos anteriores o posteriores, el hecho
de que aparezcan en una sílaba acentuada o no, la realización de una pausa,
etc. Por ello, los sistemas de síntesis disponen de reglas que permiten alterar
la duración de cada uno de los sonidos originalmente recogido en el diccionario
de unidades para adaptarla en propiedad al habla natural en un determinado
contexto o en un determinado tipo de frase.
Algo similar puede decirse respecto a la intensidad,
responsable de que un sonido se perciba con mayor fuerza que otro. Puede
observarse fácilmente que un sonido no posee la misma intensidad al principio
de un enunciado que al final, por lo que es preciso realizar algún ajuste si se
desea una síntesis natural.
En tercer lugar, los enunciados que producimos
poseen una melodía específica. La melodía es responsable de la variación en la
frecuencia de vibración de las cuerdas vocales o, en términos acústicos, la
variación a lo largo del tiempo de la frecuencia fundamental, que puede ser
importante, por ejemplo, para distinguir Ha llegado de ¿Ha llegado?
y de ¡Ha llegado! (fig. 6).
En la síntesis tiene que ser posible «imitar» los
cambios melódicos que dotan de diferente significado a los enunciados. Para
ello es preciso aplicar lo que se denomina un patrón melódico, obtenido
a partir del análisis de la entonación en el habla natural, estudiada a partir
de representaciones acústicas conocidas como curvas melódicas.
El patrón se aplica a cada una de las oraciones,
reproduciendo los cambios en la melodía que se darían en ese mismo enunciado
pronunciado por un hablante humano. Ésta es uno de las áreas a los que
actualmente se dedican más esfuerzos en el campo de la síntesis. La melodía de
un enunciado no sólo se relaciona con su modalidad (enunciativa, interrogativa
y exclamativa en el caso de los ejemplos anteriores), sino también con otros
aspectos de su significado, como la intención del hablante de comunicar
determinados matices o determinados estados de ánimo.
El tratamiento del
texto
Una vez que se dispone de
los elementos necesarios debería ser posible abordar la producción de mensajes
verbales por parte de un ordenador. Simplificando mucho, estos elementos son un
diccionario de unidades de síntesis con la información acústica correspondiente
a cada unidad debidamente recogida; un conjunto de reglas prosódicas que
asignen correctamente la duración e intensidad de cada sonido y que
proporcionen la melodía adecuada a todo un enunciado; y un programa que haga
las funciones de fuente y filtro de un modo análogo al aparato fonador humano.
Puesto que las unidades almacenadas en el
diccionario de síntesis son de naturaleza fonética es preciso transformar de
algún modo el texto, que estará escrito en la ortografía convencional de cada
lengua, en una representación más cercana a los sonidos incluidos en el
diccionario.
Para ello se utilizan programas que realizan lo que
se conoce como una transcripción fonética automática. Es decir, que convierten
las grafías del texto en símbolos fonéticos correspondientes a los sonidos
guardados en el diccionario de unidades. En el caso de lenguas como el castellano
o el catalán, esta transcripción se realiza mediante un conjunto de reglas que
asocian cada grafía al modo como se pronuncia en un determinado contexto: se
establece, por ejemplo, que la grafía g se pronuncia como el sonido que
se transcribe [x] (el sonido inicial de jamón) ante [e, i] pero se
pronuncia [g] (el sonido inicial de gato) cuando va seguida de la grafía
u. De este modo, a la hora de realizar la síntesis, se elige
correctamente el difonema [xe] cuando aparece la grafía je o el difonema
[ge] cuando aparece la grafía gue.
Aunque en principio pueda
parecer un proceso trivial esconde ciertos problemas. Por ejemplo, en catalán 2
debe asociarse a dos para el masculino y a dues para el femenino,
y el sistema de transcripción debe elegir la forma correcta utilizando
información sobre el género del nombre que sigue.
También es preciso tomar decisiones sobre la pronunciación de nombres
extranjeros, adoptando una versión más o menos cercana a la nativa según las
tradiciones de cada lengua, con el problema añadido de que los sonidos que no
formen parte de la lengua no se encontrarán en el diccionario de unidades de
síntesis si no se ha previsto anteriormente (un sistema de síntesis del
catalán, por mencionar un caso concreto, debería incluir el sonido [x] no
existente en esta lengua para pronunciar los nombres castellanos que lo
contienen). Estas cuestiones y otras de naturaleza similar se abordan en la
fase que suele denominarse procesamiento previo del texto.
En el caso de las pausas, cabe considerar que un
buen lector introduce en ocasiones silencios sin que aparezca un signo de
puntuación, basándose en su interpretación del texto. Lo mismo puede decirse de
la melodía, puesto que leer un texto con las inflexiones melódicas adecuadas
requiere necesariamente su comprensión. Por ello se está trabajando para
integrar en los conversores de texto en habla analizadores morfológicos que
determinen la parte de la oración a la que pertenece cada palabra (de modo que
por ejemplo no aparezca una pausa entre un artículo y un nombre); sintácticos,
para mejorar la entonación con la que se sintetiza el texto; y a más largo
plazo, analizadores semánticos y pragmáticos que ayuden a determinar aspectos
como el foco o la intención comunicativa del enunciado.
La estructura del
sistema
A pesar de que hemos simplificado mucho su
descripción, puede apreciarse que la transformación automática de un texto
escrito a su manifestación sonora (denominada conversión de texto en habla,
como se indicaba al principio) es un proceso complejo.
El texto debe ser preprocesado para realizar su
transcripción fonética sin dificultades y transcrito para localizar las
unidades fonéticas en el diccionario de síntesis.
Estas unidades fonéticas deben concatenarse y
modificarse a fin de adaptar la duración y la intensidad de los sonidos a cada
enunciado, y debe aplicarse también el patrón melódico adecuado al significado
y a la forma del enunciado.
Por último, esta información debe convertirse en un
conjunto de parámetros acústicos, encargados de que la fuente y el filtro del
sintetizador produzcan la onda sonora que llegará el receptor del enunciado y
que, de forma ideal, debería parecerse todo lo posible a la lectura que realiza
un hablante humano (fig. 7).
Una tarea de tal naturaleza es de difícil abordaje
si no se lleva a cabo por un equipo interdisciplinario, que incorpore a
especialistas en fonética, en análisis lingüístico, en tratamiento de la señal
sonora y en informática. Como en otras áreas de las tecnologías lingüísticas,
la conjunción de disciplinas es indispensable para conseguir que un ordenador
realice de forma automática algo aparentemente tan simple para una persona como
leer un texto en voz alta.
Denes, P.B.; Pinson, E.N.: The Speech Chain; the Physics and Biology of
Spoken Language, Garden City, Nueva York, Anchor Press / Doubleday (Anchor
Science Study Series), 1963. [Existe una 2ª edición en: Nueva York, W.H.
Freeman, 1993.]
Gil
Fernández, J.: Los sonidos del lenguaje, Madrid,
Síntesis, 1988 (Textos de apoyo, Lingüística 3, 1993).
Ladefoged, P.: Elements of Acoustic Phonetics (2ª ed.), Chicago –
Londres, University of Chicago Press, 1996.
Llisterri
Boix, J.: «Los sonidos del
habla», en: Martín Vide, C.
(ed.), Elementos de lingüística,
Barcelona, Octaedro (Octaedro Universidad, Textos), 1996: 67-128.
Carlson, R., Granström, B.: «Speech
Synthesis», en: Hardcastle, W.J.; Laver,
J. (eds.), The Handbook of
Phonetic Sciences, Oxford, Blackwell Publishers (Blackwell Handbooks in
Linguistics, 5), 1997: 768-788.
Flanagan, J.L.: «The synthesis of
Speech», Scientific American 1972; 226, 2: 45-58.
Javkin, H.R.: «Speech
analysis and synthesis», en: Lass,
N.J (ed.), Principles of Experimental
Phonetics, St Louis, Mosby, 1996: 245-276.
OLIVE, J.P.: «The Talking Computer': Text to Speech Synthesis», en
STORK, D.G. (ed.), Hal's Legacy: 2001's
Computer as Dream and Reality, Cambridge, Mass., The MIT Press, 1998 [http://mitpress.mit.edu/e-books/Hal/chap6/six1.html].
RODRÍGUEZ CRESPO,
M.A.: «Introducción a la conversión texto-voz», Philologia Hispalensis 1997; 11 (2): 177-192.
BONAFONTE, A.; ESQUERRA, I.; FEBRER, A.; FONOLLOSA, J.A.; VALLVERDÚ, F.:
«The UPC Text-to-Speech System for Spanish and Catalan», en: Proceedings of the 5th International
Conference on Spoken Language Processing, ICSLP'98, Sydney, Australia, 30th
November-4th December 1998 [http://gps-tsc.upc.es/veu/research/pubs/download/Bon98c.pdf], 1999.
CASTEJÓN LAPEYRA, F.;
ESCALADA SARDINA, G.; MONZÓN SERRANO, L.; RODRÍGUEZ CRESPO, M.A.; SANZ VELASCO,
P.: «Un conversor texto-voz para el español», Comunicaciones de Telefónica I+D 1994; 5 (2): 114-131. http://www.tid.es/presencia/publicaciones/comsid/esp/articulos/vol52/artic8/8.html
MONTERO, J.M.; GUTIÉRREZ ARRIOLA, J.; COLÁS, J.; MACÍAS GUARASA, J.;
ENRÍQUEZ, E.; PARDO, J.M.: «Development of an emotional speech synthesiser in
Spanish», en: Eurospeech99, 6th European
Conference on Speech Communication and Technology, September 5-9, 1999,
Budapest, Hungría, pp. 2099-2102 [http://www-gth.die.upm.es/~macias/doc/pubs/eurosp99/submitted/m058.pdf],
1999.
ALLEN, J.; HUNNICUTT, M.S.; KLATT, D.H. (con R.C. ARMSTRONG y D.
PISONI): From Text to Speech: The MITalk
System, Cambridge, Cambridge University Press (Cambridge Studies in Speech
Science and Communication), 1987.
BAILLY, G.; BENOÎT, C. (eds.): Talking
Machines. Theories, Models and Designs, Amsterdam, North-Holland / Elsevier
Science Publishers, 1992.
COLE, R.: «Spoken Output Technologies», en: COLE, R.A.; MARIANI, J.;
USZKOREIT, H.; ZAENEN, A.; ZUE, V. (eds.), Survey
of the State of the Art in Human Language Technology, Cambridge, Cambridge
University Press [http://cslu.cse.ogi.edu/HLTsurvey/ch5node2.html#Chapter5],
1997.
DUTOIT, T.: An Introduction to
Text-to-Speech Synthesis, Dordrecht, Kluwer Academic Publishers (Text,
Speech and Language Technology, 3), 1997.
LLISTERRI, J.;
AGUILAR, L.; GARRIDO, J.M.; MACHUCA, M.J.; MARÍN, R.; DE LA MOTA, C.; RÍOS, A.:
«Fonética y tecnologías del habla», en: BLECUA, J.M.; CLAVERÍA, G.; SÁNCHEZ,
C.; TORRUELLA, J. (eds.), Filología e
informática. Nuevas tecnologías en los estudios filológicos, Barcelona,
Seminario de Filología e Informática, Departamento de Filología Española,
Universidad Autónoma de Barcelona, Editorial Milenio, 1999: 449-479.
SPROAT, R. (ed.): Multilingual
Text-to-Speech Synthesis: The Bell Labs Approach, Dordrecht, Kluwer
Academic Publishers, 1997.
VAN SANTEN, J.H.P.; SPROAT, R.; OLIVE, J.; HIRSCHBERG, J. (eds.): Progress in Speech Synthesis, Nueva
York, Springer-Verlag, 1996.
DUDLEY, H.; TARNOCZY, T.H.: «The Speaking Machine of Wolfgang von
Kempelen», Journal of the Acoustical Society
of America 1950; 22 (2): 151-166.
KLATT, D.H.: «Review of Tex-to-Speech Conversion for English», Journal of the Acoustical Society of America
1987; 82 (3): 737-793; en: ATAL, B.S.; MILLER, L.J.; KENT, R.D. (eds.), Papers in Speech Communication: Speech
Processing, Nueva York, Acoustical Society of America, 1991: 57-114. [Ejemplos sonoros en: http://www.icsi.berkeley.edu/eecs225d/klatt.html;
http://www-uilots.let.uu.nl/~audiufon/data/e_milestones_in_text-to-speech_conversion.html]
LIENARD, J.S.: «La synthèse de la parole. Historique et réalisations
actuelles», Revue d'Acoustique 1970 ; 3 (11): 204-213.
LIENARD, J.S.: «From speaking machines to speech synthesis», en Actes du XIIème Congrès International des
Sciences Phonétiques. 19-24 août 1991, Aix-en-Provence, France.
Aix-en-Provence, Université de Provence, Service des Publications, 1991 ;
vol. 1: 18-27.
METTAS, O.: «Aperçu historique sur les appareils de synthèse de la parole»,
Travaux de Linguistique et Littérature
1965 ; 3 (1): 185-200.
Profesor titular de lingüística general en la Universitat Autònoma
de Barcelona. Su investigación se ha centrado en la
aplicación de la fonética experimental a las tecnologías del habla,
especialmente en el campo de la síntesis, y a la caracterización de la
interferencia fonética en la adquisición de segundas y terceras lenguas.
También se ha ocupado de temas relacionados con la evaluación del habla
sintetizada y la constitución y anotación de bases de datos y corpus orales,
así como del uso de nuevas tecnologías en la enseñanza de lenguas y la
investigación en lingüística.
http://liceu.uab.es/~joaquim/home.html
Figura 1 El reconocimiento del habla convierte una señal sonora en su representación escrita, mientras que la conversión de texto en habla transforma un texto escrito en su equivalente hablado

Figura 2 La fuente periódica de un sintetizador modela la producción de los
sonidos sonoros (producidos con vibración de las cuerdas vocales) y la fuente
aperiódica la de los sonidos sordos (producidos con las cuerdas vocales
abiertas)

Figura 3 Representación esquematizada de la articulación de las vocales [i] (anterior cerrada), [u] (posterior cerrada) y [a] (media abierta) y de las modificaciones que la resonancia en el tracto vocal produce en los armónicos de la onda sonora creada en las cuerdas vocales. En la representación de la onda sonora el eje vertical indica la amplitud y el horizontal la frecuencia de cada uno de los armónicos. F1 y F2 señalan el primer y el segundo formante

Figura
4 Onda sonora
producida por la vibración de las cuerdas vocales (fuente) y resultado de la
resonancia producida en el tracto vocal (filtro): la amplitud (en el eje
vertical) de determinados armónicos se ve aumentada, mientras que la de otros
se ve reducida, dotando así de un timbre diferente a cada sonido del habla

Figura 5 Esquema simplificado del proceso de conversión de texto en habla
