iCurbe News
  • Home
  • AI News
    Amazon Olympus IA

    Amazon Olympus IA

    ¿Qué son los agentes de IA?

    ¿Qué son los agentes de IA?

    ChatGPT no te dice la verdad ni está entrenado para ello

    ChatGPT no te dice la verdad ni está entrenado para ello

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    El Futuro ya está aquí (video)

    El Futuro ya está aquí (video)

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

  • Proyectos
  • Ciencias de Datos
    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    ¿Qué es Graph RAG?

    ¿Qué es Graph RAG?

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

No Result
View All Result
iCurbe News
  • Home
  • AI News
    Amazon Olympus IA

    Amazon Olympus IA

    ¿Qué son los agentes de IA?

    ¿Qué son los agentes de IA?

    ChatGPT no te dice la verdad ni está entrenado para ello

    ChatGPT no te dice la verdad ni está entrenado para ello

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    Gemelos digitales impulsados por IA: explorando el futuro de las relaciones humanas.

    El Futuro ya está aquí (video)

    El Futuro ya está aquí (video)

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    Llama 3.2: Impulsando la Innovación en IA con Modelos Abiertos y Personalizables

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

    Ya está aquí OpenAI o1 «Strawberry» el nuevo modelo de OpenAI (video).

  • Proyectos
  • Ciencias de Datos
    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    La Revolución de la Recuperación de Información: Cómo Anthropic Resucita a RAG con la Recuperación Contextual

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    LOTUS: Un Framework Innovador para Consultas Semánticas en Bases de Datos

    ¿Qué es Graph RAG?

    ¿Qué es Graph RAG?

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

    La Sinergia entre Ciencia de Datos e Inteligencia Artificial

No Result
View All Result
iCurbe News
No Result
View All Result

Cómo Convertir LLMs en Codificadores de Texto Excepcionales con LLM2Vec

Hector Curbelo Barrios by Hector Curbelo Barrios
julio 24, 2024
in AI, Tecnología Avanzada
0
Cómo Convertir LLMs en Codificadores de Texto Excepcionales con LLM2Vec
Share on FacebookShare on Twitter
1 0
Read Time:3 Minute, 40 Second

Los modelos de lenguaje grandes (LLMs) son muy buenos en tareas de procesamiento de lenguaje natural (NLP). Sin embargo, no se usa mucho para codificar texto. Codificar texto significa transformar el texto en representaciones numéricas que los modelos de lenguaje pueden entender y utilizar para diversas tareas, como buscar información o comparar similitudes entre textos.

LLM2Vec es una nueva técnica que transforma estos modelos en fuertes codificadores de texto. Este método tiene tres pasos simples: habilitar la atención bidireccional, predecir la siguiente palabra oculta y aprendizaje contrastivo no supervisado.

¿Qué es codificar texto?

Codificar texto en este contexto significa convertir una secuencia de palabras en una representación numérica, es decir, una serie de vectores que capturan el significado y la estructura del texto. Estas representaciones numéricas permiten a los modelos de lenguaje procesar y analizar el texto de manera más eficiente, facilitando tareas como la búsqueda de información, la clasificación de documentos y la comparación de similitudes entre textos.

Pasos de LLM2Vec

  1. Atención Bidireccional: Normalmente, los LLMs solo miran las palabras anteriores para predecir la siguiente. LLM2Vec cambia esto para que el modelo pueda mirar en ambas direcciones, mejorando la comprensión del contexto. Por ejemplo, en la frase «El gato duerme en la cocina», el modelo puede considerar tanto las palabras antes como después de «duerme» para entender mejor su significado.
  2. Predicción de la Siguiente Palabra Oculta: Se entrena al modelo para que adivine palabras ocultas dentro de una oración, usando el contexto de las palabras a su alrededor. Por ejemplo, si ocultamos la palabra «duerme» en «El gato [oculto] en la cocina», el modelo debe usar «El gato» y «en la cocina» para predecir que la palabra oculta es «duerme».
  3. Aprendizaje Contrastivo no Supervisado: Este paso ayuda al modelo a diferenciar entre oraciones similares y diferentes, mejorando la calidad de las representaciones de las oraciones. Por ejemplo, el modelo aprenderá a distinguir entre «El gato duerme en la cocina» y «El perro juega en el jardín», entendiendo que, aunque ambas son oraciones sobre animales en lugares, su significado es diferente.

Ejemplos de Código

Para ilustrar cómo LLM2Vec mejora la codificación de texto, aquí tienes algunos ejemplos de código que muestran cómo convertir un modelo de lenguaje en un modelo de codificación de texto:

  1. Instalación de Paquetes Necesarios
pip install llm2vec
pip install flash-attn --no-build-isolation
  1. Conversión del Modelo
import torch
from llm2vec import LLM2Vec

l2v = LLM2Vec.from_pretrained(
    "meta-llama/Meta-Llama-3-8B",
    device_map="cuda" if torch.cuda.is_available() else "cpu",
    torch_dtype=torch.bfloat16,
)

l2v.save("Llama-3-8B-Emb")
  1. Entrenamiento con el Objetivo MNTP
import os
import json

# Crear el archivo de configuración para el entrenamiento MNTP
JSON_CONFIG = '''
{
    "model_name_or_path": "meta-llama/Meta-Llama-3-8B",
    "dataset_name": "wikitext",
    "dataset_config_name": "wikitext-103-raw-v1",
    "per_device_train_batch_size": 1,
    "per_device_eval_batch_size": 1,
    "gradient_accumulation_steps": 16,
    "do_train": true,
    "do_eval": true,
    "max_seq_length": 512,
    "mask_token_type": "blank",
    "data_collator_type": "all_mask",
    "mlm_probability": 0.8,
    "overwrite_output_dir": true,
    "output_dir": "Llama-3-8B-llm2vec-MNTP-Emb",
    "evaluation_strategy": "steps",
    "eval_steps": 100,
    "save_steps": 200,
    "stop_after_n_steps": 1000,
    "lora_r": 16,
    "gradient_checkpointing": true,
    "torch_dtype": "bfloat16",
    "attn_implementation": "flash_attention_2"
}
'''

with open("mntp_config.json", 'w') as f:
  f.write(JSON_CONFIG)

# Ejecutar el script de entrenamiento
os.system("python llm2vec/experiments/run_mntp.py mntp_config.json")

Resultados

LLM2Vec se probó en tres modelos populares: S-LLaMA-1.3B, LLaMA-2-7B, y Mistral-7B. En pruebas de tareas de palabra y secuencia, los modelos transformados por LLM2Vec superaron a los modelos tradicionales. Además, combinando LLM2Vec con aprendizaje contrastivo supervisado, se alcanzaron nuevos niveles de rendimiento en tareas de codificación de texto.

Conclusión

LLM2Vec demuestra que los modelos de lenguaje grandes pueden convertirse en poderosos codificadores de texto con pocos cambios. Esto hace que los LLMs sean útiles para muchas aplicaciones de procesamiento de lenguaje natural sin necesidad de grandes adaptaciones. La simplicidad y eficiencia de LLM2Vec abren nuevas posibilidades para utilizar modelos de lenguaje grandes en una variedad de contextos y aplicaciones.

Link del paper original: https://arxiv.org/pdf/2404.05961

Esto ha sido todo por ahora, espero que este artículo te sea de utilidad, si llegaste hasta aquí, déjame tu comentario. Nos vemos en otra entrega de «Inteligencia Artificial Para Todos»

Share

Facebook
Twitter
Pinterest
LinkedIn

About Post Author

Hector Curbelo Barrios

hcurbelo@gmail.com
https://www.icurbe.com
Happy
Happy
0 0 %
Sad
Sad
0 0 %
Excited
Excited
0 0 %
Sleepy
Sleepy
0 0 %
Angry
Angry
0 0 %
Surprise
Surprise
0 0 %
Post Views: 952

Comparte esto:

  • Haz clic para compartir en Facebook (Se abre en una ventana nueva) Facebook
  • Haz clic para compartir en X (Se abre en una ventana nueva) X

Me gusta esto:

Me gusta Cargando...
Tags: IcurbeInteligencia artificialtecnología

Related Posts

Resumen Evento: Google I/O 2025
Empresas

Resumen Evento: Google I/O 2025

Infografía: Google I/O 2025 - Tendencias de IA Google I/O 2025 La Inteligencia Artificial Redefine Nuestro Mañana Gemini IA...

by Hector Curbelo Barrios
mayo 21, 2025
OpenAI presenta GPT-4.1: una nueva familia de modelos de IA
Empresas

OpenAI presenta GPT-4.1: una nueva familia de modelos de IA

Este 14 de abril de 2025, OpenAI presentó su nueva familia de modelos de inteligencia artificial: GPT-4.1, junto con...

by Hector Curbelo Barrios
abril 14, 2025
¿Es el fin del RAG por el aumento de la ventana de contexto en los LLMs?
Columna del Autor

¿Es el fin del RAG por el aumento de la ventana de contexto en los LLMs?

En la última semana, se viene debatiendo en las redes sociales, sobre todo, si es el fin del RAG...

by Hector Curbelo Barrios
abril 11, 2025
Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más
Empresas

Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más

Meta ha presentado Llama 4, la última y más avanzada incorporación a su familia de modelos de inteligencia artificial...

by Hector Curbelo Barrios
abril 7, 2025

Populares

  • One-Shot y Few-Shot Prompting: Potenciando el Uso de LLMs con Ejemplos Mínimos

    One-Shot y Few-Shot Prompting: Potenciando el Uso de LLMs con Ejemplos Mínimos

    0 shares
    Share 0 Tweet 0
  • Los 5 mejores modelos de texto a voz (TTS) de código abierto

    0 shares
    Share 0 Tweet 0
  • Los 5 mejores generadores de video AI gratuitos sin marca de agua

    0 shares
    Share 0 Tweet 0
  • Así es Llama 4, la nueva generación de IA que entiende texto, imágenes y más

    0 shares
    Share 0 Tweet 0
  • OpenAI presenta GPT-4.1: una nueva familia de modelos de IA

    0 shares
    Share 0 Tweet 0
iCurbe

© 2025 - Noticias de Inteligencia Artificial.

Navegación

  • Home
  • AI News
  • Proyectos
  • Ciencias de Datos

Síguenos

No Result
View All Result
  • Buy JNews
  • Homepage
    • Home – Layout 1
    • Home – Layout 2
    • Home – Layout 3

© 2025 - Noticias de Inteligencia Artificial.

%d