Vectorizacion RAG

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 21

Vectorizaci

ón y RAG
AI & ANALYTICS

Cristina García Pérez


Índice
 RAG
 El Proceso del RAG
 Utilizar datos vectoriales para mejorar la respuesta
 Entendiendo los vectores
 ¿Qué son y para qué sirven los Embeddings?
 La Búsqueda basada en vectores
 Principales bases de datos vectoriales y Embeddings más usados
 Funcionamiento interno de las bases de datos vectoriales
 Ventajas de usar bases de datos vectoriales
 Elasticsearch
 ¿Cómo funciona Elasticsearch?
 Alternativas a Elasticsearch
Índice
 Modelos de vectorización (Text Embedding Models)
 all-MiniLM-L6-v2
 paraphrase-multilingual-mpnet-base-v2
RAG
 Marco de la IA para recuperar datos de una base de
conocimientos externa.

 Objetivo: Basar los LLM en la información más precisa y


actualizada.
Beneficios del RAG

1. Garantizar que el modelo tenga acceso a los hechos más


actuales y fiables.

2. Los usuarios tengan acceso a las fuentes del modelo.

El RAG implementa métodos de


recuperación de búsqueda
(semántica/híbrida) para responder al
usuario y ofrecer resultado más relevantes.
Proceso del RAG

1. Usuario introduce pregunta.

2. Búsqueda de información en fuentes de conocimiento


externas.

3. La información relevante es trasferida al LLM junto con la


pregunta del usuario.

4. El LLM es capaz de generar una respuesta acertada.


Entendiendo los vectores
 Vector: Representación matemática que permite codificar
información en un espacio multidimensional.

 Facilita que las máquinas comprendan las relaciones entre


conceptos.

EMBEDDINGS
¿Qué son y para qué sirven los Embeddings?

 Embedding: Técnica de NLP que convierte el lenguaje humano en


vectores matemáticos.

 Capturan el significado semántico de la información.

 Técnica utilizada ampliamente en la IA para tareas como el análisis


de sentimiento, la clasificación de texto y la traducción automática.
¿Qué son y para qué sirven los Embeddings?

 Como las palabras son tratadas como datos significa que,


podemos comparar diferentes embeddings y ver lo similares o
diferentes que son.
La Búsqueda Basada en Vectores

 Búsqueda semántica: Recupera datos por su significado y no


por coincidencia.

 Técnica más popular: Búsqueda de similitud del coseno


(mide el ángulo entre dos vectores para determinar su similitud
direccional).

 El RAG une la búsqueda semántica y la generación de texto


para producir respuestas más precisas y contextualizadas.
Funcionamiento Interno de las Bases de
Datos Vectoriales

 Incrustaciones vectoriales: Representaciones significativas de los


datos.
 Contienen cientos de miles de elementos.

 Pueden capturar miles de características.

 Representan los datos en el “espacio vectorial” de una base de datos


vectorial.
Ventajas de usar Bases de Datos Vectoriales

ESCALABILIDA
BÚSQUEDA D
EFICIENTE DE
SIMILITUDES

EFICIENCIA EN
PROCESAMIENT EL USO DE
O EN TIEMPO RECURSOS
REAL
Elasticsearch

 Base de datos NoSQL, open source y muy popular en Big Data.

 Permite almacenar datos de una forma escalable y realizar


búsquedas de texto más avanzadas.

 Escrito en el lenguaje de programación Java.

 Numerosas herramientas para realizar consultas y explotar los


datos almacenados.
¿Cómo Funciona Elasticsearch?

 Cada documento se trata como un elemento de un índice.

Alternativas
 MongoDB: Base de datos más flexible, orientada a manejar
datos de todo tipo y en prácticamente cualquier proyecto.
Text Embedding Models - all-
MiniLM-L6-v2
 Asigna frases y párrafos a un espacio vectorial denso de 384 dim.

 Tareas: Agrupación o búsqueda semántica.

 Objetivo: Codificar frases y párrafos cortos.

 Vector puede utilizarse para tareas de recuperación de información, agrupación o


similitud de frases.
Text Embedding Models - LaBSE
 Modelo transformador de frases multilingüe.

 Asigna frases y párrafos a un espacio vectorial denso de 768 dim.

 Capaz de manejar varios idiomas identificando y representando similitudes


semánticas entre ellos.
¡MUCHAS GRACIAS!

Vectorizaci
ón y RAG
AI & ANALYTICS

Cristina García Pérez

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy