Los documentos empresariales como facturas, contratos, informes, y formularios contienen información valiosa que se presenta tanto en texto como en diseño visual. Comprender estos documentos requiere captar tanto el contenido textual como las pistas visuales proporcionadas por su diseño complejo. Para abordar este desafío, te presento DocLLM, un modelo de lenguaje generativo ligero diseñado para comprender documentos visuales multimodales.
¿Qué es DocLLM?
DocLLM es una extensión de los modelos de lenguaje grandes tradicionales (LLMs), que añade la capacidad de entender el diseño espacial de los documentos sin necesidad de procesadores de imágenes costosos. En lugar de esto, utiliza la información de las cajas delimitadoras del texto para integrar la estructura del diseño espacial.
DocLLM fue diseñado por un equipo de investigación de inteligencia artificial de JPMorgan, formalmente conocido como JPMorgan Chase & Co., es uno de los mayores conglomerados financieros del mundo.
Cómo Funciona
El modelo DocLLM captura la alineación entre el texto y el diseño espacial mediante un mecanismo de atención desentrelazado. Este enfoque descompone la atención en matrices separadas para manejar la dependencia entre los modos textual y espacial.
Además, utiliza un objetivo de pre-entrenamiento que aprende a rellenar segmentos de texto, lo que ayuda a manejar diseños irregulares y contenido heterogéneo que se encuentra comúnmente en documentos visuales.
Ventajas del DocLLM
- Ligero y Eficiente: No depende de componentes complejos de codificación de visión, lo que reduce el tamaño del modelo y los tiempos de procesamiento.
- Manejo de Diseños Complejos: Captura tanto el contenido del texto como la estructura del diseño espacial, mejorando la comprensión de documentos con diseños complejos.
- Objetivo de Pre-entrenamiento Innovador: El objetivo de rellenar bloques de texto mejora la capacidad del modelo para manejar texto desalineado y completar contextos de manera más precisa.
Resultados
DocLLM ha demostrado superar a los modelos de estado del arte en 14 de 16 conjuntos de datos evaluados en tareas de inteligencia documental. También generaliza bien en 4 de 5 conjuntos de datos no vistos previamente, mostrando su capacidad para extraer información significativa de una amplia gama de documentos visuales.
DocLLM es una herramienta poderosa para la comprensión de documentos visuales complejos, integrando eficazmente el diseño espacial y el contenido textual. Con su enfoque innovador y eficiencia, DocLLM abre nuevas posibilidades para la inteligencia documental en diversas aplicaciones empresariales.
Enlace al paper original: https://arxiv.org/pdf/2401.00908
Esto ha sido todo por ahora, espero que este artículo te sea de buen provecho, si llegaste hasta aquí, déjame tu comentario. Nos vemos en otra entrega de «Inteligencia Artificial Para Todos»
Average Rating