Introducción a ROUGE y cómo usarlo para evaluar resúmenes

Introducción a ROUGE y cómo usarlo para evaluar resúmenes

ROUGE son las siglas de Recall-Oriented Understudy for Gisting Evaluation. Es esencialmente un conjunto de métricas para evaluar el resumen automático de textos, así como las traducciones automáticas.

Funciona comparando un resumen o traducción producidos automáticamente con un conjunto de resúmenes de referencia (generalmente producidos por humanos). Digamos que tenemos el siguiente sistema y resúmenes de referencia:

Resumen del sistema (lo que produjo la máquina):

the cat was found under the bed

Resumen de referencia (estándar de oro, generalmente por humanos):

the cat was under the bed

Si consideramos solo las palabras individuales, el número de palabras superpuestas entre el resumen del sistema y el resumen de referencia es 6. Sin embargo, esto no le dice mucho como métrica. Para obtener un buen valor cuantitativo, podemos calcular la precisión y recuperar utilizando la superposición.

En pocas palabras, recordar (en el contexto de ROUGE) se refiere a cuánto del resumen de referenciael resumen del sistema se está recuperando o capturando. Si solo estamos considerando las palabras individuales, se puede calcular como:

En este ejemplo, el retiro sería:

Esto significa que todas las palabras en el resumen de referencia han sido capturadas por el resumen del sistema , que de hecho es el caso de este ejemplo. ¡Voila!

Esto se ve muy bien para un sistema de resumen de texto. Pero no te dice el otro lado de la historia. Un resumen generado por máquina (resumen del sistema) puede ser extremadamente largo y capturar todas las palabras del resumen de referencia. Sin embargo, muchas de las palabras del resumen del sistema pueden ser inútiles, lo que hace que el resumen sea innecesariamente detallado.

Aquí es donde entra en juego la precisión. En términos de precisión, lo que esencialmente está midiendo es, ¿qué parte del resumen del sistema fue realmente relevante o necesario ? La precisión se mide como:

En este ejemplo, la Precisión sería:

Esto simplemente significa que 6 de las 7 palabras del resumen del sistema eran de hecho relevantes o necesarias. Si tuviéramos el siguiente resumen del sistema, a diferencia del ejemplo anterior:

Resumen del sistema 2:

the tiny little cat was found under the big funny bed

La Precision ahora se convierte en:

Ahora, esto no se ve tan bien, ¿verdad? Esto se debe a que tenemos bastantes palabras innecesarias en el resumen. El aspecto de precisión se vuelve realmente crucial cuando se intenta generar resúmenes que sean concisos por naturaleza. Por lo tanto, siempre es mejor para calcular tanto la precisión y la recuperación y luego informar de la F-medida .

Si sus resúmenes se ven obligados de alguna manera a ser concisos debido a algunas restricciones, entonces podría considerar usar solo la recuperación, ya que la precisión es menos preocupante en este escenario.

ROUGE-N, ROUGE-S y ROUGE-L se pueden considerar como la granularidad de los textos que se comparan entre los resúmenes del sistema y los resúmenes de referencia.

  • ROUGE-N - medidas unigram , bigram , trigramay superposición de n-gramas de orden superior
  • ROUGE-L: mide la secuencia de coincidencia más larga de palabras utilizando LCS. Una ventaja de utilizar LCS es que no requiere coincidencias consecutivas, sino coincidencias en secuencia que reflejan el orden de las palabras a nivel de la oración. Dado que incluye automáticamente los n-gramas comunes en secuencia más largos, no necesita una longitud de n-gramo predefinida.
  • ROUGE-S: es cualquier par de palabras en una oración en orden, permitiendo espacios arbitrarios. Esto también se puede llamar concurrencia de omisión de gramática. Por ejemplo, skip-bigram mide la superposición de pares de palabras que pueden tener un máximo de dos espacios entre palabras. Por ejemplo, para la frase "gato en el sombrero", los saltos de bigramas serían "gato adentro, gato, sombrero de gato, en el, sombrero, sombrero".

Por ejemplo, ROUGE-1 se refiere a la superposición de unigramas entre el resumen del sistema y el resumen de referencia. ROUGE-2 se refiere a la superposición de bigramas entre el sistema y los resúmenes de referencia.

Tomemos el ejemplo de arriba. Digamos que queremos calcular la precisión de ROUGE-2 y recuperar las puntuaciones.

Resumen del sistema:

the cat was found under the bed

Resumen de referencia:

the cat was under the bed

Resumen del sistema Bigrams:

the cat, cat was, was found, found under, under the, the bed

Resumen de referencia Bigrams:

the cat, cat was, was under, under the, the bed

Basado en los bigramas anteriores, el retiro de ROUGE-2 es el siguiente:

Esencialmente, el resumen del sistema ha recuperado 4 bigrams de 5 bigrams del resumen de referencia, ¡lo cual es bastante bueno! Ahora la precisión de ROUGE-2 es la siguiente:

La precisión aquí nos dice que de todos los bigramas de resumen del sistema, hay un 67% de superposición con el resumen de referencia. Esto tampoco es tan malo. Tenga en cuenta que a medida que los resúmenes (tanto del sistema como de referencia) se alargan cada vez más, habrá menos bigramas superpuestos. Esto es especialmente cierto en el caso del resumen abstractivo, donde no está reutilizando directamente oraciones para el resumen.

La razón por la que se usaría ROUGE-1 sobre o junto con ROUGE-2 (u otras medidas de ROUGE de granularidad más finas) es para mostrar también la fluidez de los resúmenes o la traducción. La intuición es que si sigue más de cerca el orden de las palabras del resumen de referencia, su resumen es en realidad más fluido.

Para obtener información más detallada sobre estas métricas de evaluación, puede consultar el artículo de Lin. La medida a utilizar depende de la tarea específica que está intentando evaluar. Si está trabajando en un resumen extractivo con un sistema bastante detallado y resúmenes de referencia, entonces puede tener sentido usar ROUGE-1 y ROUGE-L. Para resúmenes muy concisos, ROUGE-1 solo puede ser suficiente, especialmente si también está aplicando lematización y eliminación de palabras vacías.

Papeles para leer

  • ROUGE: un paquete para la evaluación automática de resúmenes