Conocimientos adicionales recomendados
IntroducciónUn problema bastante frecuente en procesamiento del lenguaje natural es el cálculo de la verosimilitud (probabilidad) de una secuencia de palabras, por ejemplo para puntuar diversas hipótesis alternativas y seleccionar la más probable. Supongamos que un sistema de reconocimiento de voz identifica una frase y sugiere, debido a su parecido fonético, dos posibles textos alternativos:
A primera vista parece que el texto B es más probable que el A, sin embargo, un sistema automático carece de tal sentido común y deberá basarse en un modelo de lenguaje determinado para evaluar cuál de las dos secuencias de palabras tiene mayor puntuación. Para el cálculo de la probabilidad de la observación (la frase en cuestión) se emplea habitualmente un modelo de k-gramas y es bastante frecuente que determinados k-gramas tengan probabilidad 0, es decir, que no aparecen en el texto. Con las técnicas de suavizado intentamos evitar las probabilidades cero producidas por k-gramas no vistos. Son varios los algoritmos de suavizado que se conocen. A continuación se describen algunos de los más utilzados. Aproximación o descuento de LaplaceEl descuento de Laplace asume que todos los k-gramas se han visto al menos una vez. Por tanto, para evitar probabilidades cero para trigramas no vistos el cálculo quedaría así:
El problema fundamental de esta solución es que da demasiado porcentaje de la masa total de probabilidad a los k-gramas no vistos. Algoritmos de interpolación linealDeleted interpolationEn general:
| V | es el tamaño del vocabulario. Interpolación aproximada
Técnicas de back-offSi N(hw) > 0
Si N(hw) = 0
Otras técnicas de suavizado
Referencias
Véase tambiénEnlaces externos
Categoría: Bioinformática |
|
Este articulo se basa en el articulo Suavizado_de_n-gramas publicado en la enciclopedia libre de Wikipedia. El contenido está disponible bajo los términos de la Licencia de GNU Free Documentation License. Véase también en Wikipedia para obtener una lista de autores. |