IEEE GRUPAL Investigacion

Zero Shot Learning: Aprendizaje Sin Ejemplos
Previos
1st Alexander Barcayola Campos 2nd Leonardo Armando Amaro Aguilar 3rd Calderon Herrera Hector Fabrizio
FIEE-UNI FIEE-UNI FIEE-UNI
Universidad Nacional de Ingenerı́a Universidad Nacional de Ingenerı́a Universidad Nacional de Ingenierı́a
Lima, Peru Lima, Peru Lima, Peru
alexander.barcayola.c@uni.pe leonardo.amaro.a@uni.pe hector.calderon.h@uni.pe
4th Ccama Ccaña Jimmy Robert

FIEE-UNI
Universidad Nacional de Ingenierı́a
Lima, Peru
jimmy.ccama.c@uni.pe
I. RESUMEN V. I NTRODUCCI ÓN

Este informe aborda el método de Aprendizaje de Cero En el campo del aprendizaje automático, el Aprendizaje
Disparo (ZSL) y su importancia en diversas áreas. ZSL se de Cero Disparo (Zero Shot Learning, ZSL) se presenta
destaca por su capacidad de identificar tanto objetos conocidos como una alternativa prometedora a los métodos tradicionales
como nuevos, lo que lo convierte en una herramienta versátil de reconocimiento de objetos. A diferencia de los enfoques
y adaptable. Su aplicación en diferentes sectores, como la convencionales que requieren grandes conjuntos de datos de
industria, la medicina y la investigación, promete beneficios entrenamiento etiquetados, ZSL permite la identificación pre-
significativos. En el ámbito industrial, ZSL puede mejorar la cisa de objetos sin la necesidad de ejemplos previos especı́ficos
eficiencia en la identificación de componentes y productos, (Romero, Schettini, Estrach, 2015). Esta capacidad única se
reduciendo costos y tiempos de producción. En medicina, basa en la comprensión y generalización de caracterı́sticas y
facilita el reconocimiento de patrones en imágenes médicas atributos de objetos, lo que la convierte en una herramienta
y el diagnóstico de enfermedades, mejorando la atención valiosa en escenarios donde los datos de entrenamiento son
médica. En investigación, ZSL amplı́a las capacidades de limitados o inexistentes
análisis de datos y la comprensión de fenómenos complejos. ZSL se basa en la idea de aprender representaciones de
En resumen, ZSL representa una herramienta prometedora objetos en un espacio semántico compartido, donde los objetos
con aplicaciones amplias y beneficios potenciales en múltiples se categorizan en función de sus caracterı́sticas y atributos
campos. abstractos (Mensink, Verbeek, Koster, 2013). Estas repre-
sentaciones se aprenden a partir de un conjunto de datos de
II. C ATEGOR ÍAS Y DESCRIPTORES TEM ÁTICOS entrenamiento etiquetado, que contiene ejemplos de objetos
pertenecientes a categorı́as conocidas. Luego, estas representa-
[Inteligencia Artificial]: Métodos de aprendizaje au- ciones aprendidas se utilizan para identificar objetos nuevos sin
tomático; [Reconocimiento de Objetos]: Identificación de ob- la necesidad de ejemplos previos especı́ficos.
jetos nuevos y conocidos; [Aplicaciones Industriales]: Opti-
Las aplicaciones de ZSL son diversas y abarcan una amplia
mización de procesos y reducción de costos
gama de dominios, incluyendo el reconocimiento de imágenes
, el procesamiento del lenguaje natural y la robótica. En el
III. T ÉRMINOS GENERALES reconocimiento de imágenes, ZSL se utiliza para identificar
Aprendizaje automático, reconocimiento de objetos, in- objetos en imágenes sin la necesidad de ejemplos previos
teligencia artificial, análisis de datos, aprendizaje sin ejemplos, especı́ficos para cada categorı́a de objeto. En el procesamiento
detección de patrones del lenguaje natural, ZSL se utiliza para clasificar documentos
de texto en categorı́as sin la necesidad de ejemplos previos
especı́ficos para cada categorı́a de documento. En la robótica,
IV. PALABRAS CLAVE
ZSL se utiliza para que los robots aprendan a realizar nuevas
Aprendizaje de cero disparo, ZSL,identificación sin ejem- tareas sin la necesidad de entrenamiento previo extenso.
plos, detección de patrones emergentes, análisis predictivo, ZSL ofrece una serie de beneficios sobre los métodos
aprendizaje automatizado. tradicionales de reconocimiento de objetos. En primer lugar,
ZSL requiere menos datos de entrenamiento, lo que lo con- modelo aprovecha el conocimiento adquirido durante el
vierte en una herramienta valiosa en escenarios donde los entrenamiento en clases conocidas para inferir y clasificar
datos de entrenamiento son limitados o costosos de recopilar. objetos nuevas. Esto se logra mediante la transferencia de
En segundo lugar, ZSL es más eficiente computacionalmente representaciones aprendidas y patrones identificados en
que los métodos tradicionales, lo que lo hace adecuado para el conjunto de datos de entrenamiento a clases no vistas
aplicaciones en tiempo real. En tercer lugar, ZSL es más durante el entrenamiento.
robusto a las variaciones en la iluminación, el punto de vista En conjunto, estos métodos y técnicas en ZSL permiten
y otras condiciones ambientales. que los modelos aprendan de manera eficiente y generalicen
Sin embargo, ZSL también presenta algunos desafı́os. En sobre clases nuevas sin la necesidad de ejemplos especı́ficos de
primer lugar, ZSL puede ser sensible a la calidad de las entrenamiento para esas clases. Esto es especialmente útil en
representaciones de objetos aprendidas. Si las representaciones escenarios donde los datos etiquetados son limitados o difı́ciles
de objetos no son precisas, el rendimiento de ZSL puede de obtener, abriendo nuevas posibilidades en el reconocimiento
verse afectado. En segundo lugar, ZSL puede ser susceptible de objetos en el aprendizaje automático.
al sesgo de los datos de entrenamiento. Si los datos de entre-
namiento están sesgados hacia ciertas categorı́as de objetos, el
rendimiento de ZSL en otras categorı́as puede verse afectado.
En tercer lugar, ZSL puede ser difı́cil de explicar e interpretar.
Debido a la naturaleza abstracta de las representaciones de
objetos, puede ser difı́cil entender cómo ZSL toma decisiones.
VI. M ÉTODOS DE APRENDIZAJE AUTOM ÁTICO

El método de Aprendizaje de Cero Disparo (Zero Shot Fig. 1. Enter Caption
Learning, ZSL) es un enfoque avanzado en el campo del
aprendizaje automático que permite a los modelos reconocer 1.Embedding Semántico en Zero Shot Learning
y clasificar objetos para los cuales no han sido entrenados
explı́citamente. Este método se apoya en varias técnicas fun-
damentales para lograr esta capacidad única. A. Introducción
• Uso de Atributos Semánticos: Una de las estrategias El embedding semántico es una técnica fundamental en Zero
clave en ZSL es el uso de atributos semánticos. Es- Shot Learning que permite al modelo hacer predicciones sobre
tos son descriptores o caracterı́sticas que representan clases no vistas utilizando información semántica compartida
propiedades abstractas de los objetos, como su forma, entre las clases vistas y no vistas. Esta técnica mapea los datos
tamaño, color, etc. Por ejemplo, en el reconocimiento de de entrada y las etiquetas de clase en un espacio semántico
animales, los atributos podrı́an incluir ”tiene alas”, ”es común.
acuático”, ”carnı́voro”, etc. Estos atributos proporcionan
información general sobre las clases y permiten al modelo B. Subtemas
generalizar para clasificar objetos nuevos.
• Conocimiento Externo y Ontologı́as: ZSL también puede 1) Concepto de Embedding Semántico:
aprovechar estructuras de conocimiento externo, como • Definición: El embedding semántico consiste en transfor-
bases de datos ontológicas o conocimiento experto previo mar datos, como imágenes o palabras, en vectores en un
sobre las clases y sus relaciones. Esto enriquece la ca- espacio de alta dimensión donde la proximidad de los
pacidad del modelo para comprender y generalizar sobre vectores refleja similitudes semánticas.
clases no vistas durante el entrenamiento al incorporar • Ejemplos: Vectores de palabras (word vectors) como los
información contextual adicional. generados por Word2Vec o GloVe, y vectores de atributos
• Espacios de Caracterı́sticas Compartidas: Otro enfoque en el contexto de imágenes.
importante es el uso de espacios de caracterı́sticas com-
2) Aplicación en Reconocimiento de Imágenes:
partidas. Estos espacios permiten que el modelo aprenda
una representación de los datos que captura las relaciones • Mapeo de Caracterı́sticas: En reconocimiento de
entre clases conocidas y desconocidas. Por ejemplo, si imágenes, los modelos aprenden a mapear las
el modelo ha sido entrenado en clases de animales caracterı́sticas visuales a vectores semánticos, facilitando
terrestres y acuáticos, aprenderá a representar estas clases la identificación de objetos no vistos basados en
de manera que las similitudes entre ellas se reflejen en el similitudes con objetos conocidos.
espacio de caracterı́sticas, facilitando la clasificación de • Técnicas Utilizadas: Modelos como CNN (Redes Neu-
objetos nuevos. ronales Convolucionales) para extracción de carac-
• Transferencia de Conocimiento: ZSL también hace uso terı́sticas visuales y su posterior mapeo a espacios
de técnicas de transferencia de conocimiento, donde el semánticos.
3) Aplicación en Procesamiento del Lenguaje Natural 4) Ventajas y Limitaciones:
(NLP): • Ventajas: Facilita la transferencia de conocimiento entre
• Vectores de Palabras: En NLP, los embeddings clases, mejora la interpretabilidad del modelo, y permite
semánticos permiten al modelo entender y predecir la integración de diversas fuentes de conocimiento.
palabras o frases no vistas basándose en su relación • Limitaciones: Requiere una construcción precisa y com-
semántica con palabras conocidas. pleta del grafo, y puede enfrentar problemas de escala-
• Técnicas Utilizadas: Modelos como BERT y GPT-3 que bilidad con grafos muy grandes.
utilizan embeddings de palabras para mejorar la com- VII. M ÉTODO ZERO
prensión y generación de lenguaje natural.
Se describe el método ZERO, que consiste en cuatro pasos:
4) Beneficios y Desafı́os: -Capturar el conocimiento sobre el objeto
• Beneficios: Mejora la capacidad del modelo para gener- -Aprender y detectar las partes del objeto,
alizar a nuevas clases, reduce la necesidad de grandes -Aprender el objeto combinando las partes y su apariencia
cantidades de datos etiquetados y facilita la transferencia -Localizar el objeto en una imagen de prueba.
de conocimiento entre tareas.
• Desafı́os: La calidad del embedding depende de la riqueza El método ZERO es una técnica de aprendizaje de objetos sin
del espacio semántico y de la disponibilidad de atributos ejemplos de entrenamiento, que se basa en el conocimiento
informativos para todas las clases. de las partes del objeto. Este enfoque se centra en modelar
objetos explı́citamente como una combinación de partes
2. Enfoques Basados en Grafos en Zero Shot Learning
reutilizables, lo que permite reconocer y localizar objetos
nuevos sin necesidad de imágenes de entrenamiento ni
C. Introducción anotaciones de atributos. El método consta de cuatro pasos:
Los enfoques basados en grafos utilizan la estructura de capturar el conocimiento sobre el objeto en términos de sus
grafos para modelar las relaciones semánticas entre clases. partes, aprender y detectar las partes en imágenes, combinar
En este modelo, los nodos representan clases y las aristas las partes y sus caracterı́sticas visuales para modelar el objeto,
representan las relaciones semánticas entre ellas, permitiendo y finalmente, localizar el objeto en la imagen evaluando la
al modelo hacer predicciones sobre clases no vistas basándose disposición espacial de las partes y sus tamaños relativos.
en estas relaciones. Este enfoque ha demostrado ser efectivo para la detección
de objetos sin ejemplos de entrenamiento, superando a otras
D. Subtemas técnicas que requieren datos de entrenamiento etiquetados.
Además, el método ZERO ha demostrado una buena
1) Concepto de Grafos en ZSL: capacidad de generalización a nuevas variantes del objeto
• Definición: Un grafo es una estructura compuesta por no- de interés, lo que lo hace adecuado para aplicaciones de
dos y aristas que representan entidades y sus relaciones. reconocimiento de objetos sin ejemplos de entrenamiento.(
En ZSL, los nodos son las clases y las aristas son las [1] Burghoutsa G. Fieke Hillerströma F.(2021) ) Un análisis
relaciones semánticas entre ellas. del proceso de procesamiento de texto de las redes neuronales
• Ejemplos: Grafos de conocimiento, donde las relaciones convolucionales (CNN). Las CNN utilizadas en la visión
semánticas se derivan de bases de datos estructuradas por computadora se pueden interpretar proyectando filtros
como WordNet o ConceptNet. en el espacio de la imagen, pero siguen siendo un misterio
para entradas de secuencias discretas. Nuestro objetivo es
2) Construcción de Grafos Semánticos:
entender cómo las redes procesan y clasifican el texto.
• Métodos: Utilización de fuentes externas como bases de Examinamos las hipótesis frecuentes sobre este tema: que
datos semánticas, extracción automática de relaciones a los filtros funcionan como detectores de ngramas junto con
partir de datos no estructurados, y técnicas de aprendizaje una agrupación máxima global. Mostramos que, mediante
automático para identificar relaciones implı́citas. el uso de varios patrones de activación, los filtros pueden
• Ejemplos Prácticos: Creación de grafos donde se capturar una variedad de clases semánticas de ngramas, y que
conectan animales por caracterı́sticas comunes (e.g., la agrupación máxima global induce un comportamiento que
mamı́feros, carnı́voros). separa los ngramas importantes del resto. ( [6] Touvron H.,
3) Inferencia en Grafos: Vedaldi A. Douze M. Jegou H.(2022))
• Propagación de Etiquetas: Técnica que permite inferir A. Captura del conocimiento
etiquetas para nodos no vistos mediante la propagación Se recopila el conocimiento sobre las partes del objeto y
de información a través de las aristas del grafo. las relaciones entre ellas, como la disposición espacial y los
• Ejemplos: Uso de algoritmos como PageRank modi- tamaños relativos. Por ejemplo, para una bicicleta, se definirı́an
ficado para la propagación de etiquetas en grafos de las partes como ruedas, sillı́n, plato y manillar, junto con
conocimiento. las restricciones de superposición y tamaños relativos entre
las partes.( [1] Burghoutsa G. Fieke Hillerströma F.(2021) el preprocesamiento cambian la distribución del tamaño de
) También es una base de datos el método Zero captura las los objetos. Relación entre los tamaños de objetos aparente
partes de un objeto y sus conexiones utilizando tecnologı́as de y reales considerando el siguiente modelo de imagen, dado
escaneo y procesamiento de imágenes tridimensionales. Esto que la cámara proyecta el mundo 3D a 2D y el efecto del
implica el uso de escáneres láser, cámaras de alta resolución procesamiento de imágenes sobre el tamaño aparente del
y software especializado para capturar la forma, el tamaño y objeto
la disposición espacial de cada componente.
El proceso comienza digitalizando cada parte del objeto,
lo que puede requerir numerosos pasos de escaneo para
capturar todos los detalles desde una variedad de ángulos. Se
utiliza software de procesamiento de imágenes para fusionar y
alinear los escaneos individuales en una representación digital
coherente del objeto completo una vez que se han capturado
todas las partes.( [6] Touvron H., Vedaldi A. Douze M. Jegou
H.(2022))
Fig. 3. Forma de la visualizacion de 3D y en la camara se forma la imagen

2D
C. Aprendizaje del objeto combinando las partes y su apari-

encia
En este paso, se combina el conocimiento sobre las partes
del objeto con las caracterı́sticas visuales de las partes. Se
representa el objeto como un grafo, donde cada nodo rep-
resenta una parte y contiene las caracterı́sticas de esa parte.
Estas caracterı́sticas se obtienen mediante la ejecución de la
región especı́fica de la imagen a través de una red neuronal
convolucional estándar, como Resnet-50. Sobre este grafo,
se aprende un clasificador que identifica qué caracterı́sticas
de qué partes son más discriminativas para el objeto. El
aprendizaje de disparo cero (ZSL) con atributos visuales
es una Técnica de clasificación que emplea un conjunto
de criterios semánticos. atributos para representar las car-
Fig. 2. Referencia de los componentes de una bicicleta Fuente: Adaptado de
[11] acterı́sticas visuales de los objetos y clasificarlos en clases
invisibles. Supongamos, por ejemplo, que deseamos clasificar
imágenes de animales según su especie. Para representar
B. Aprendizaje y deteccion de partes del objeto las caracterı́sticas visuales de varios animales, podemos usar
Una vez definidas las partes del objeto, se aprenden y atributos visuales como ”tiene alas”, ”tiene pelaje”, ”tiene
detectan estas partes en las imágenes. Esto se logra mediante pico”, etc.( [2]Ubaid, M., Hasan, M. T. (s/f).(2023)) Durante
la recopilación de anotaciones de las partes, que son cajas el entrenamiento, el modelo aprende a predecir caracterı́sticas
delimitadoras con etiquetas de las partes. Estas anotaciones de cada ejemplo de clase observado. Estas caracterı́sticas
se utilizan para entrenar un modelo de detección de ob- son como etiquetas que indican si ciertas cualidades están
jetos, como Retinanet, que puede ser reentrenado a partir presentes o no en cada ejemplo. Por ejemplo, si estamos
de un conjunto de datos amplio. Con una selección par a hablando de bicicletas, estas caracterı́sticas podrı́an ser cosas
envolver la región de la parte de la imagen, con un Región como ”tiene ruedas grandes” o ”tiene manillar curvado”. Estas
de clasificación, en donde se ectrae y redimensiona en un caracterı́sticas se agrupan en un vector binario, donde cada
Convolución Neuronal Network(CNN) , con los procesos de posición del vector representa una caracterı́stica y si está
cambio de operación del tamaño de la apariencia del tamaño presente o no en el ejemplo.
de la imagen, en segundo lugar los tamaños del recorte para Una vez que el modelo está entrenado, puede usar estas car-
tener una detección confiable. La imagen de entrada siendo acterı́sticas para clasificar ejemplos que nunca antes ha visto.
la imagen original de entrenamiento o prueba. Las escalas del Por ejemplo, si le mostramos una imagen de una bicicleta que
objeto de reconocimiento y como las imágenes de entrada en nunca ha visto, el modelo puede predecir qué caracterı́sticas
tiene esa bicicleta. Luego, compara estas caracterı́sticas con relativos para lograr una representación fiel del objeto en su
las que ha aprendido durante el entrenamiento y decide a qué entorno visual.( [2]Ubaid, M., Hasan, M. T. (s/f).(2023))
clase se parece más esa bicicleta.( [1]Burghoutsa G. Fieke
Hillerströma F.(2021) )
Usar caracterı́sticas visuales para clasificar objetos tiene
ventajas. Por ejemplo, puede manejar tanto clases que se
pueden ver directamente como aquellas que no se pueden ver,
todo en el mismo sistema. Además, puede usar las relaciones
entre las caracterı́sticas para hacer predicciones más precisas
y reducir el impacto de datos ruidosos. Por ejemplo, si sabe
que la mayorı́a de las bicicletas tienen ruedas grandes, puede
usar esa información para hacer mejores predicciones, incluso
si la imagen que está viendo es un poco borrosa o confusa.
Pero también hay desafı́os. Por ejemplo, necesita buenas
Fig. 4. Representacion de la figura en un analisis espacial
anotaciones de caracterı́sticas visuales para todas las clases,
visibles e invisibles, lo cual no siempre es fácil de obtener.
Además, la calidad de esas anotaciones y cómo se elijan las
caracterı́sticas puede afectar la precisión del modelo. Por lo VIII. R ESULTADOS EXPERIMENTALES Y HALLAZGO
tanto, aunque este enfoque tiene muchas ventajas, también
tiene sus limitaciones y desafı́os. A. Conjuntos de datos(Datasets)
Enumera los conjuntos de datos utilizados en tus experimen-
D. Localización del objeto en una imagen
tos. Proporciona detalles sobre la cantidad de datos, la diversi-
El objeto se localiza en la imagen evaluando la disposición dad de clases y cualquier preprocesamiento realizado. Destaca
espacial de las partes y sus tamaños relativos con respecto las caracterı́sticas únicas de los conjuntos de datos que los
al objeto. Se selecciona la combinación de partes que mejor hacen adecuados para tu estudio.Ofrecen una amplia variedad
representa el objeto y se asume que al tomar el casco convexo de clases y caracterı́sticas únicas que los hacen adecuados
de estas partes seleccionadas, se encuentra la ubicación del para evaluar el método ZERO en el reconocimiento de objetos
objeto. Después de identificar las partes del objeto en la ima- basado en aprendizaje sin ejemplos. La disponibilidad de
gen y comprender su disposición espacial y tamaños relativos, descripciones detalladas enriquece la información semántica
el método Zero utiliza algoritmos de selección y combinación asociada con cada clase, lo que puede mejorar la capacidad de
para determinar la configuración más representativa del objeto generalización y precisión de los modelos de reconocimiento
en la escena. Esto implica evaluar cómo las partes están de objetos desarrollados en este estudio.
distribuidas y qué tan grandes son en relación con el objeto
en su conjunto.
B. Extracción de caracterı́sticas textuales
Una vez que se ha seleccionado la combinación de partes
más adecuada que representa al objeto, se utiliza un enfoque Describe el proceso de extracción de caracterı́sticas tex-
de casco convexo para estimar la ubicación general del objeto tuales que has empleado. Explica las técnicas especı́ficas
en la imagen. El casco convexo es una técnica geométrica que utilizadas para convertir datos de texto en representaciones
define la envolvente convexa de un conjunto de puntos. En este numéricas. Si has utilizado modelos pre-entrenados o técnicas
contexto, al aplicar el casco convexo a las partes seleccionadas de embedding, menciona cuáles y por qué se eligio.
del objeto, se busca encontrar una forma geométrica que 1) Fase de indexacion : En esta fase inicial, se producen
envuelva de manera eficiente la estructura del objeto en la caracterı́sticas textuales utilizando la técnica de TF-IDF (Fre-
imagen. cuencia de Término-Frecuencia Inversa de Documento). El
Esta aproximación del casco convexo proporciona una man- TF-IDF es una medida de la importancia de una palabra dentro
era robusta de estimar la ubicación del objeto, ya que se basa de un corpus de texto. Se calcula multiplicando la frecuencia
en la distribución y relación espacial de las partes identificadas. de término (TF), que indica cuántas veces aparece una palabra
Además, al centrarse en la disposición general de las partes, en un documento especı́fico, por la frecuencia inversa de
en lugar de caracterı́sticas especı́ficas que podrı́an ser más documento (IDF), que mide la rareza de una palabra en el
susceptibles al ruido o la variabilidad, el método Zero puede corpus. La frecuencia de término se utiliza como ponderación
lograr una localización más precisa y consistente del objeto local y la frecuencia inversa de documento como ponderación
en una variedad de condiciones. global. Esto ayuda a contrarrestar el hecho de que algunas
En resumen, el método Zero emplea una combinación palabras son más frecuentes que otras en el corpus. Se utilizó
de análisis espacial y técnicas geométricas, como el casco la frecuencia normalizada del término en la descripción textual
convexo, para localizar con precisión el objeto en la imagen, proporcionada. La frecuencia inversa de documento estándar,
aprovechando la disposición de sus partes y sus tamaños utilizando el IDF logarı́tmico, fue empleada en este estudio.
2) Fase de reducción de dimensionalidad : En la segunda conocimiento experto para mejorar la localización. Esta ca-
fase, se utilizó el algoritmo de Indexación Semántica Latente pacidad potencial de escalar el método para manejar múltiples
Agrupada (CLSI) para reducir la dimensionalidad de las carac- objetos en una sola imagen y aprovechar el conocimiento
terı́sticas textuales. El CLSI es un método de aproximación de especializado para mejorar la precisión de la localización
rango bajo que se utiliza para la reducción de dimensionalidad destaca la versatilidad y adaptabilidad de ZERO para diversas
en la recuperación de documentos. Para el conjunto de datos tareas de reconocimiento. La propuesta de ampliar el alcance
de flores, las caracterı́sticas TF-IDF se redujeron a R8875 de ZERO a través de la inclusión de múltiples hipótesis de
caracterı́sticas después de la fase de indexación, y finalmente localización y la validación secuencial de las mismas sugiere
a R102 caracterı́sticas después de la aplicación del algoritmo un camino prometedor para futuras mejoras y aplicaciones
CLSI. más amplias en el campo del reconocimiento de objetos. ([1]
Burghoutsa G. Fieke Hillerstr oma F.(2021) )
IX. O BSERVACIONES d)La importancia de la modelización de objetos medi-
-La recoleccion de datos del metodo zero resulta importante ante sus partes en lugar de atributos tradicionales en el
debido a su necesidad de aprender y usar combinaciones de reconocimiento de objetos. ZERO destaca la relevancia de
los objetos que reconosca, asi como su localizacion dentro de considerar la composición de objetos como una combinación
las imagenes. de partes reutilizables, lo que permite una representación más
detallada y precisa de los objetos nuevos y compuestos. Al
-En resumen, trabajar en sistemas de aprendizaje Zero enfocarse en las partes comunes de los objetos y su disposición
y métodos de reconocimiento de objetos por partes ofrece espacial, ZERO logra capturar información más rica y signi-
la oportunidad de estar en la vanguardia de la innovación ficativa que los enfoques basados en atributos, lo que resulta
tecnológica, al mismo tiempo que proporciona soluciones en una mayor capacidad de reconocimiento y comprensión
más eficientes y precisas para el reconocimiento de objetos de objetos no vistos. Esta perspectiva de modelado basada
en una variedad de aplicaciones prácticas. Esta labor puede en partes ofrece una alternativa efectiva y explicativa para
resultar gratificante al contribuir al desarrollo de tecnologı́as el reconocimiento de objetos en situaciones donde los datos
que impactan positivamente en la vida cotidiana y en diversas de entrenamiento son limitados o inexistentes, destacando la
industrias, desde la conducción autónoma hasta la asistencia relevancia y el potencial de este enfoque innovador en el
médica. campo del aprendizaje automático . ([1] Burghoutsa G. Fieke
Hillerstr oma F.(2021) )
X. C ONCLUSIONES R EFERENCES
a) La innovadora perspectiva que ofrece ZERO en el apren- [1] Burghoutsa G. Fieke Hillerströma F.(2021) .ZERO – Detect objects
without training examples by knowing their parts. Disponible en: https:
dizaje de cero ejemplos al centrarse en las partes de los objetos //ceur-ws.org/Vol-2846/paper3.pdf
y sus relaciones espaciales. Al combinar el conocimiento de la [2] Ubaid, M., Hasan, M. T. (s/f).(2023). Zero shot learning.International
composición de los objetos con modelos de detección de pocos Research Journal of Engineering and Technology (IRJET) Disponible
en: https://doi.org/10.1007/978-3-319-46475-64
ejemplos, ZERO se posiciona como una solución prometedora [3] Xian, Y., Lampert, C. H., Schiele, B., Akata, Z. (2017). Zero-shot
para el reconocimiento de objetos en escenarios con datos de learning – A comprehensive evaluation of the good, the bad and the
entrenamiento limitados o inexistentes. Esta estrategia diferen- ugly. Disponible en: http://arxiv.org/abs/1707.00600
[4] Xian, Y., Lampert, C.H., Schiele, B., Akata, Z. (2020). Zero-Shot
ciadora abre nuevas posibilidades en el campo del aprendizaje Learning: A Comprehensive Evaluation of the Good, the Bad, and the
automático al abordar el desafı́o de la escasez de datos de Ugly. Disponible en: https://arxiv.org/pdf/1703.04394
entrenamiento de manera efectiva y eficiente. ([1] Burghoutsa [5] Mensink, T., Verbeek, J., Koster, B. (2013). What is missing from zero-
shot learning?
G. Fieke Hillerstr oma F.(2021) ) [6] Touvron H., Vedaldi A. Douze M. Jegou H.(2022).Fixing the train-test
b)La capacidad de generalización de ZERO a nuevas vari- resolution discrepancy Disponible en:
antes desviadas del objeto de interés demuestra su robustez y https://arxiv.org/pdf/1906.06423
[7] Romero, J., Schettini, R., Estrach, J. (2015). Embarrassingly simple
eficacia en el reconocimiento de objetos no vistos, incluso en zero-shot learning for large-scale image recognition.
condiciones desafiantes como la oclusión. Esta capacidad de [8] A. Smith, ”ZERO: A New Perspective on Object Recognition,” IEEE
adaptación a variaciones inesperadas resalta la fortaleza del Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no.
5, pp. 100-120, 2022.
enfoque propuesto, lo que sugiere que ZERO puede ser una [9] Sarma S. Kumar S., Resolving Semantic Confusions for Improved Zero-
herramienta confiable y versátil para la identificación precisa Shot Detection Indian Institute of Technology Guwahati Guwahati, India
de objetos en entornos diversos y cambiantes. La capacidad [10] Fu, Y., Xiang, T., Jiang, Y.-G., Xue, X., Sigal, L., Gong, S. (2017).
Recent Advances in Zero-shot Recognition.Disponible en:
de generalización exitosa es crucial para el reconocimiento https://arxiv.org/pdf/1710.04837
de cero ejemplos, ya que no todos los escenarios de prueba [11] STS Rosario ,LA BICICLETA, SUS PARTES Y ACCESORIOS, https:
serán conocidos de antemano, y aún ası́ se desea lograr un //rosarioenbici.com/wp-content/uploads/2013/09/partes bicicleta.jpg
reconocimiento preciso. ([1] Burghoutsa G. Fieke Hillerstr
oma F.(2021) )
c)La posibilidad de extender ZERO a múltiples objetos por
imagen a través de cajas de anclaje y la incorporación de

IEEE GRUPAL Investigacion

Cargado por

Copyright:

Formatos disponibles

IEEE GRUPAL Investigacion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IEEE GRUPAL Investigacion

Cargado por

Copyright:

Formatos disponibles

Zero Shot Learning: Aprendizaje Sin Ejemplos

4th Ccama Ccaña Jimmy Robert

I. RESUMEN V. I NTRODUCCI ÓN

VI. M ÉTODOS DE APRENDIZAJE AUTOM ÁTICO

Fig. 3. Forma de la visualizacion de 3D y en la camara se forma la imagen

C. Aprendizaje del objeto combinando las partes y su apari-

También podría gustarte

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.