La Interacción Multimodal o Multimodalidad consiste en un proceso en el cual diversos dispositivos y personas son capaces de llevar a cabo una interacción (auditiva, visual, táctil y gestual) conjunta desde cualquier sitio, en cualquier momento, utilizando cualquier dispositivo y de forma accesible, incrementando así la interacción entre personas, y entre dispositivos y personas.
¿Para qué sirve?
El usuario a través de la interacción multimodal podrá determinar el modo o modos de interacción que quiere utilizar para acceder a la información, lo que extiende y mejora la interfaz del usuario ya que se hace posible la utilización conjunta de la voz y otros tipos de dispositivos de introducción de datos como teclados, ratones, lápices, pantallas táctiles, etc.. Aunque esta forma de interacción conjunta está especialmente dirigida a las aplicaciones móviles, que incorporan controles por voz y disponen de pantallas de dimensiones reducidas, también está pensado para otros sectores como la automoción (navegadores integrados, pantallas táctiles, etc), la oficina (pantallas táctiles de las fotocopiadoras), o los electrodomésticos más avanzados.
¿Cómo funciona?
La manera de hacer que diferentes mecanismos de acceso a la información puedan interactuar conjuntamente ofreciéndonos una experiencia satisfactoria, se hace cada vez más difícil ante un mercado en expansión, en lo que se refiere a dispositivos de acceso a información, arquitecturas, sistemas operativos, etc. Por este motivo la estandarización adquiere una gran importancia.
Actualmente, el W3C trabaja en estándares como VoiceXML, SSML, SRGS, SISR, InkML y herramientas de integración de datos de entrada como EMMA.
- VoiceXML es un lenguaje de etiquetado que permite crear diálogos con los que se puede interactuar escuchando comandos hablados, controlables a través de entradas de voz. VoiceXML se encarga de convertir habla en texto y para ello utiliza, entre otros mecanismos; SRGS (Gramática de Reconocimiento del Habla).
- SRGS tiene como función principal, permitir que una aplicación de voz indique a un reconocedor, qué es lo que tiene que escuchar, es decir, palabras, modelos en los que estas palabras surgen, lenguaje hablado de cada palabra, etc.
- SSML, lenguaje de marcado de Síntesis del Habla, basado en XML, forma parte del proceso de salida de información y funciona como componente de conversión ayudando a generar habla sintética. Este lenguaje tiene como principal objetivo ofrecer a los autores de contenido sintetizable un camino estándar para controlar aspectos del habla como pueden ser la pronunciación, volumen, tono y velocidad, mejorando así la calidad del contenido sintetizado.
- SISR permite describir anotaciones sobre reglas gramaticales para extraer resultados semánticos a través del reconocimiento del habla. El resultado obtenido puede expresarse en formato XML, usando el lenguaje EMMA.
- EMMA es un lenguaje utilizado para el intercambio de datos en sistemas de administración de interacción multimodal. Es una especie de lenguaje común utilizado en la comunicación entre componentes de un sistema multimodal, cuyo objetivo es integrar la entrada de datos procedente de los usuarios desde diferentes recursos, y darle forma para ser procesada en una representación única que será a su vez procesada por componentes avanzados de procesamiento de información.
Componentes de Entrada (Input)
Los componentes de reconocimiento se encargan de capturar la entrada de datos desde el usuario y transformarlos para su posterior procesamiento. Este componente puede usar una gramática descrita por un lenguaje de marcado de gramática como puede ser SRGS. Un componente de reconocimiento incluiría:
- Habla (por ejemplo VoiceXML): Convierte habla en texto. El componente automático de reconocimiento del habla usa un modelo acústico, un modelo de lenguaje, y una gramática específica usando la Gramática de Reconocimiento del Habla (SRGS) del W3C o el Modelo de lenguaje Stochastic (N-Gram) para convertir la voz humana en palabras concretas.
- Escritura (InkML): Convierte en texto símbolos escritos y mensajes. El componente de reconocimiento de escritura puede usar un modelo de gestos de escritura, un modelo de lenguaje, y una gramática para convertir la escritura en palabras especificadas en una gramática.
- Teclado: Convierte el uso del teclado en caracteres de texto.
- Dispositivos de señalización: Convierte la presión de una tecla en coordenadas x-y de una superficie de dos dimensiones.
- Los componentes de interpretación se encargan de procesan aún más los resultados generados por los componentes de reconocimiento. Cada componente de interpretación identifica el significado o semántica deseada por el usuario, mediante SISR. Por ejemplo, algunas palabras que el usuario utiliza, como son:
sí
,afirmativo
,seguro
, yde acuerdo
, podrían ser interpretadas siempre comosí
. - Los componentes de integración se encargan de combinar la salida de datos desde distintos componentes de interpretación. Algunas o todas las funcionalidades de este componente podrían ser implementadas como parte de los componentes de reconocimiento, interpretación e interacción. Por ejemplo, el reconocimiento de habla (tanto visual como auditiva) puede integrar reconocimiento de movimiento de labios y reconocimiento del habla como parte de un componente de lectura de labios, como parte de un componente de reconocimiento del habla o integrado en un componente de integración separado.
Componentes de Salidad (Output)
- Los componentes de generación son los modos de salida que se van a utilizar para presentar la información desde el administrador de interacción hasta el usuario. El componente de generación puede seleccionar un sólo modo de salida o puede seleccionar modos complementarios o suplementarios. El lenguaje de representación interna para describir las salidas del componente de generación está aún por determinar (grupo de trabajo).
- Los componentes de estilo se encargan de añadir datos sobre cómo se va a mostrar la información. Por ejemplo, el componente de estilo puede especificar la forma en la que los objetos gráficos van a situarse en una estructura. Los componentes de estilo de audio pueden insertar pausas e inflexiones de voz en texto a través de un sintetizador de voz. Las Hojas de Estilo en Cascada (CSS) podrían utilizarse para modificar la salida de voz.
- Los componentes de conversión se encargan de transformar la información del componente de estilo en un formato que será de fácil comprensión para el usuario. Por ejemplo, un sistema de síntesis del habla convierte texto en voz sintetizada.
El componente de estilo de voz construye cadenas de texto que contienen etiquetas de lenguaje de marcado de síntesis del habla describiendo cómo se van a pronunciar las palabras. Esto se convierte en voz a través del componente de conversión de voz (SSML). El componente de estilo de voz puede también seleccionar archivos de audio grabados anteriormente para ser reproducidos por el componente de conversión de voz.
El componente de estilo de gráficos crea etiquetas de marcado XHTML , XHTML Basic, o SVG , describiendo la forma en la que los gráficos deben transformarse. El componente de conversión de gráficos transforma la salida procedente del componente de estilo de gráficos en gráficos que se muestran al usuario.
Otros componentes de conversión y estilo son posibles para otros modos de salidas. SMIL puede usarse para coordinar salidas de multimedia.
Ejemplos:
Un usuario señala un lugar en un mapa y dice:
¿cómo se llama este sitio?El sistema de interacción multimodal responde diciendo
La Plaza de Europa, Gijón, Asturias, España, mostrando en el mapa el texto siguiente
La Plaza de Europa, Gijón, Asturias, España. Ahora veamos las acciones llevadas a cabo por los componentes que intervienen en dicha acción:
Usuario: Señala un lugar en el mapa y dice,¿Cómo se llama este sitio?
Componente de reconocimiento del habla: Reconoce las palabras¿Cómo se llama este sitio?
Componente de reconocimiento del ratón: Reconoce las coordenadas x-y que el usuario ha señalado en el mapa.
Componente de interpretación del habla: Convierte las palabras¿Cómo se llama este sitio?en una notación interna.
Componente de interpretación de indicación: Convierte las coordenadas x-y del lugar indicado por el usuario en una notación interna.
Componente de integración: Integra la notación interna de las palabras¿Cómo se llama este sitio?, con la notación interna de las coordenadas x-y.
Componente del administrador de la interacción: Almacena la notación interna en el objeto de la sesión. Convierte la petición en una petición de una base de datos, envía la petición a un sistema de administración de peticiones, la cual devolverá el valorLa Plaza de Europa, Gijón, Asturias, España. Añade la respuesta a la notación interna en el objeto de sesión. El administrador de la interacción convierte la respuesta en una notación interna y envía la respuesta al componente de generación.
Componente de generación: Accede al componente de entorno para determinar que los modelos de voz gráficos están disponibles. Decide presentar el resultado como dos modelos complementarios, voz y gráficos. El componente de generación envía una notación interna representandoLa Plaza de Europa, Gijón, Asturias, Españaal componente de estilo de voz, y envía una notación interna al componente de estilo de gráficos, mostrando la ubicación de La Plaza de Europa.
Componente de estilo de voz: Convierte en SSML la notación interna que representaLa Plaza de Europa, Gijón, Asturias, España.
Componente de estilo de gráficos: Convierte la notación interna que representa la ubicación en un mapa deLa Plaza de Europa, Gijón, Asturias, Españaen una notación HTML.
Componente de conversión de voz: Convierte la notación SSML en voz acústica para que el usuario pueda oírla.
Componente de estilo de gráficos: Convierte la notación HTML en gráficos visuales para que el usuario pueda verlos.
0 comentarios:
Publicar un comentario