iCurbe News
  • Home
  • AI News
    Amazon Olympus IA

    Amazon Olympus IA

    ¿Qué son los agentes de IA?

    ¿Qué son los agentes de IA?

    ChatGPT no te dice la verdad ni está entrenado para ello

    ChatGPT no te dice la verdad ni está entrenado para ello

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    El Futuro ya está aquí (video)

    El Futuro ya está aquí (video)

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

  • Proyectos
  • Ciencias de Datos
    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    ¿Qué es Graph RAG?

    ¿Qué es Graph RAG?

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

No Result
View All Result
iCurbe News
  • Home
  • AI News
    Amazon Olympus IA

    Amazon Olympus IA

    ¿Qué son los agentes de IA?

    ¿Qué son los agentes de IA?

    ChatGPT no te dice la verdad ni está entrenado para ello

    ChatGPT no te dice la verdad ni está entrenado para ello

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    El Futuro ya está aquí (video)

    El Futuro ya está aquí (video)

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

  • Proyectos
  • Ciencias de Datos
    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    ¿Qué es Graph RAG?

    ¿Qué es Graph RAG?

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

No Result
View All Result
iCurbe News
No Result
View All Result

Descubre DocLLM: El Nuevo LLM Para Trabajar con Documentos Complejos

Hector Curbelo Barrios by Hector Curbelo Barrios
junio 17, 2024
in AI, Internet, Tecnología Avanzada
0
Descubre DocLLM: El Nuevo LLM Para Trabajar con Documentos Complejos
Share on FacebookShare on Twitter
4 0
Read Time:2 Minute, 7 Second

Los documentos empresariales como facturas, contratos, informes, y formularios contienen información valiosa que se presenta tanto en texto como en diseño visual. Comprender estos documentos requiere captar tanto el contenido textual como las pistas visuales proporcionadas por su diseño complejo. Para abordar este desafío, te presento DocLLM, un modelo de lenguaje generativo ligero diseñado para comprender documentos visuales multimodales.

¿Qué es DocLLM?

DocLLM es una extensión de los modelos de lenguaje grandes tradicionales (LLMs), que añade la capacidad de entender el diseño espacial de los documentos sin necesidad de procesadores de imágenes costosos. En lugar de esto, utiliza la información de las cajas delimitadoras del texto para integrar la estructura del diseño espacial.

DocLLM fue diseñado por un equipo de investigación de inteligencia artificial de JPMorgan, formalmente conocido como JPMorgan Chase & Co., es uno de los mayores conglomerados financieros del mundo.

Cómo Funciona

El modelo DocLLM captura la alineación entre el texto y el diseño espacial mediante un mecanismo de atención desentrelazado. Este enfoque descompone la atención en matrices separadas para manejar la dependencia entre los modos textual y espacial.

Además, utiliza un objetivo de pre-entrenamiento que aprende a rellenar segmentos de texto, lo que ayuda a manejar diseños irregulares y contenido heterogéneo que se encuentra comúnmente en documentos visuales.

Ventajas del DocLLM

  1. Ligero y Eficiente: No depende de componentes complejos de codificación de visión, lo que reduce el tamaño del modelo y los tiempos de procesamiento.
  2. Manejo de Diseños Complejos: Captura tanto el contenido del texto como la estructura del diseño espacial, mejorando la comprensión de documentos con diseños complejos.
  3. Objetivo de Pre-entrenamiento Innovador: El objetivo de rellenar bloques de texto mejora la capacidad del modelo para manejar texto desalineado y completar contextos de manera más precisa.

Resultados

DocLLM ha demostrado superar a los modelos de estado del arte en 14 de 16 conjuntos de datos evaluados en tareas de inteligencia documental. También generaliza bien en 4 de 5 conjuntos de datos no vistos previamente, mostrando su capacidad para extraer información significativa de una amplia gama de documentos visuales.

DocLLM es una herramienta poderosa para la comprensión de documentos visuales complejos, integrando eficazmente el diseño espacial y el contenido textual. Con su enfoque innovador y eficiencia, DocLLM abre nuevas posibilidades para la inteligencia documental en diversas aplicaciones empresariales.

Enlace al paper original: https://arxiv.org/pdf/2401.00908

Esto ha sido todo por ahora, espero que este artículo te sea de buen provecho, si llegaste hasta aquí, déjame tu comentario. Nos vemos en otra entrega de «Inteligencia Artificial Para Todos»

Share

Facebook
Twitter
Pinterest
LinkedIn

About Post Author

Hector Curbelo Barrios

hcurbelo@gmail.com
https://www.icurbe.com
Happy
Happy
1 100 %
Sad
Sad
0 0 %
Excited
Excited
0 0 %
Sleepy
Sleepy
0 0 %
Angry
Angry
0 0 %
Surprise
Surprise
0 0 %
Post Views: 1.631

Comparte esto:

  • Haz clic para compartir en Facebook (Se abre en una ventana nueva) Facebook
  • Haz clic para compartir en X (Se abre en una ventana nueva) X

Me gusta esto:

Me gusta Cargando...
Tags: DocLLMiaIcurbeInteligencia artificialLLMtecnología avanzada

Related Posts

Resumen Evento: Google I/O 2025
Empresas

Resumen Evento: Google I/O 2025

Infografía: Google I/O 2025 - Tendencias de IA Google I/O 2025 La Inteligencia Artificial Redefine Nuestro Mañana Gemini IA...

by Hector Curbelo Barrios
mayo 21, 2025
OpenAI presenta GPT-4.1: una nueva familia de modelos de IA
Empresas

OpenAI presenta GPT-4.1: una nueva familia de modelos de IA

Este 14 de abril de 2025, OpenAI presentó su nueva familia de modelos de inteligencia artificial: GPT-4.1, junto con...

by Hector Curbelo Barrios
abril 14, 2025
¿Es el fin del RAG por el aumento de la ventana de contexto en los LLMs?
Columna del Autor

¿Es el fin del RAG por el aumento de la ventana de contexto en los LLMs?

En la última semana, se viene debatiendo en las redes sociales, sobre todo, si es el fin del RAG...

by Hector Curbelo Barrios
abril 11, 2025
Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más
Empresas

Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más

Meta ha presentado Llama 4, la última y más avanzada incorporación a su familia de modelos de inteligencia artificial...

by Hector Curbelo Barrios
abril 7, 2025

Populares

  • One-Shot y Few-Shot Prompting: Potenciando el Uso de LLMs con Ejemplos Mínimos

    One-Shot y Few-Shot Prompting: Potenciando el Uso de LLMs con Ejemplos Mínimos

    0 shares
    Share 0 Tweet 0
  • Los 5 mejores modelos de texto a voz (TTS) de código abierto

    0 shares
    Share 0 Tweet 0
  • Los 5 mejores generadores de video AI gratuitos sin marca de agua

    0 shares
    Share 0 Tweet 0
  • Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más

    0 shares
    Share 0 Tweet 0
  • OpenAI presenta GPT-4.1: una nueva familia de modelos de IA

    0 shares
    Share 0 Tweet 0
iCurbe

© 2025 - Noticias de Inteligencia Artificial.

Navegación

  • Home
  • AI News
  • Proyectos
  • Ciencias de Datos

Síguenos

No Result
View All Result
  • Buy JNews
  • Homepage
    • Home – Layout 1
    • Home – Layout 2
    • Home – Layout 3

© 2025 - Noticias de Inteligencia Artificial.

%d