IEEE GRUPAL Investigacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Zero Shot Learning: Aprendizaje Sin Ejemplos

Previos
1st Alexander Barcayola Campos 2nd Leonardo Armando Amaro Aguilar 3rd Calderon Herrera Hector Fabrizio
FIEE-UNI FIEE-UNI FIEE-UNI
Universidad Nacional de Ingenerı́a Universidad Nacional de Ingenerı́a Universidad Nacional de Ingenierı́a
Lima, Peru Lima, Peru Lima, Peru
alexander.barcayola.c@uni.pe leonardo.amaro.a@uni.pe hector.calderon.h@uni.pe

4th Ccama Ccaña Jimmy Robert


FIEE-UNI
Universidad Nacional de Ingenierı́a
Lima, Peru
jimmy.ccama.c@uni.pe

I. RESUMEN V. I NTRODUCCI ÓN


Este informe aborda el método de Aprendizaje de Cero En el campo del aprendizaje automático, el Aprendizaje
Disparo (ZSL) y su importancia en diversas áreas. ZSL se de Cero Disparo (Zero Shot Learning, ZSL) se presenta
destaca por su capacidad de identificar tanto objetos conocidos como una alternativa prometedora a los métodos tradicionales
como nuevos, lo que lo convierte en una herramienta versátil de reconocimiento de objetos. A diferencia de los enfoques
y adaptable. Su aplicación en diferentes sectores, como la convencionales que requieren grandes conjuntos de datos de
industria, la medicina y la investigación, promete beneficios entrenamiento etiquetados, ZSL permite la identificación pre-
significativos. En el ámbito industrial, ZSL puede mejorar la cisa de objetos sin la necesidad de ejemplos previos especı́ficos
eficiencia en la identificación de componentes y productos, (Romero, Schettini, Estrach, 2015). Esta capacidad única se
reduciendo costos y tiempos de producción. En medicina, basa en la comprensión y generalización de caracterı́sticas y
facilita el reconocimiento de patrones en imágenes médicas atributos de objetos, lo que la convierte en una herramienta
y el diagnóstico de enfermedades, mejorando la atención valiosa en escenarios donde los datos de entrenamiento son
médica. En investigación, ZSL amplı́a las capacidades de limitados o inexistentes
análisis de datos y la comprensión de fenómenos complejos. ZSL se basa en la idea de aprender representaciones de
En resumen, ZSL representa una herramienta prometedora objetos en un espacio semántico compartido, donde los objetos
con aplicaciones amplias y beneficios potenciales en múltiples se categorizan en función de sus caracterı́sticas y atributos
campos. abstractos (Mensink, Verbeek, Koster, 2013). Estas repre-
sentaciones se aprenden a partir de un conjunto de datos de
II. C ATEGOR ÍAS Y DESCRIPTORES TEM ÁTICOS entrenamiento etiquetado, que contiene ejemplos de objetos
pertenecientes a categorı́as conocidas. Luego, estas representa-
[Inteligencia Artificial]: Métodos de aprendizaje au- ciones aprendidas se utilizan para identificar objetos nuevos sin
tomático; [Reconocimiento de Objetos]: Identificación de ob- la necesidad de ejemplos previos especı́ficos.
jetos nuevos y conocidos; [Aplicaciones Industriales]: Opti-
Las aplicaciones de ZSL son diversas y abarcan una amplia
mización de procesos y reducción de costos
gama de dominios, incluyendo el reconocimiento de imágenes
, el procesamiento del lenguaje natural y la robótica. En el
III. T ÉRMINOS GENERALES reconocimiento de imágenes, ZSL se utiliza para identificar
Aprendizaje automático, reconocimiento de objetos, in- objetos en imágenes sin la necesidad de ejemplos previos
teligencia artificial, análisis de datos, aprendizaje sin ejemplos, especı́ficos para cada categorı́a de objeto. En el procesamiento
detección de patrones del lenguaje natural, ZSL se utiliza para clasificar documentos
de texto en categorı́as sin la necesidad de ejemplos previos
especı́ficos para cada categorı́a de documento. En la robótica,
IV. PALABRAS CLAVE
ZSL se utiliza para que los robots aprendan a realizar nuevas
Aprendizaje de cero disparo, ZSL,identificación sin ejem- tareas sin la necesidad de entrenamiento previo extenso.
plos, detección de patrones emergentes, análisis predictivo, ZSL ofrece una serie de beneficios sobre los métodos
aprendizaje automatizado. tradicionales de reconocimiento de objetos. En primer lugar,
ZSL requiere menos datos de entrenamiento, lo que lo con- modelo aprovecha el conocimiento adquirido durante el
vierte en una herramienta valiosa en escenarios donde los entrenamiento en clases conocidas para inferir y clasificar
datos de entrenamiento son limitados o costosos de recopilar. objetos nuevas. Esto se logra mediante la transferencia de
En segundo lugar, ZSL es más eficiente computacionalmente representaciones aprendidas y patrones identificados en
que los métodos tradicionales, lo que lo hace adecuado para el conjunto de datos de entrenamiento a clases no vistas
aplicaciones en tiempo real. En tercer lugar, ZSL es más durante el entrenamiento.
robusto a las variaciones en la iluminación, el punto de vista En conjunto, estos métodos y técnicas en ZSL permiten
y otras condiciones ambientales. que los modelos aprendan de manera eficiente y generalicen
Sin embargo, ZSL también presenta algunos desafı́os. En sobre clases nuevas sin la necesidad de ejemplos especı́ficos de
primer lugar, ZSL puede ser sensible a la calidad de las entrenamiento para esas clases. Esto es especialmente útil en
representaciones de objetos aprendidas. Si las representaciones escenarios donde los datos etiquetados son limitados o difı́ciles
de objetos no son precisas, el rendimiento de ZSL puede de obtener, abriendo nuevas posibilidades en el reconocimiento
verse afectado. En segundo lugar, ZSL puede ser susceptible de objetos en el aprendizaje automático.
al sesgo de los datos de entrenamiento. Si los datos de entre-
namiento están sesgados hacia ciertas categorı́as de objetos, el
rendimiento de ZSL en otras categorı́as puede verse afectado.
En tercer lugar, ZSL puede ser difı́cil de explicar e interpretar.
Debido a la naturaleza abstracta de las representaciones de
objetos, puede ser difı́cil entender cómo ZSL toma decisiones.

VI. M ÉTODOS DE APRENDIZAJE AUTOM ÁTICO


El método de Aprendizaje de Cero Disparo (Zero Shot Fig. 1. Enter Caption
Learning, ZSL) es un enfoque avanzado en el campo del
aprendizaje automático que permite a los modelos reconocer 1.Embedding Semántico en Zero Shot Learning
y clasificar objetos para los cuales no han sido entrenados
explı́citamente. Este método se apoya en varias técnicas fun-
damentales para lograr esta capacidad única. A. Introducción
• Uso de Atributos Semánticos: Una de las estrategias El embedding semántico es una técnica fundamental en Zero
clave en ZSL es el uso de atributos semánticos. Es- Shot Learning que permite al modelo hacer predicciones sobre
tos son descriptores o caracterı́sticas que representan clases no vistas utilizando información semántica compartida
propiedades abstractas de los objetos, como su forma, entre las clases vistas y no vistas. Esta técnica mapea los datos
tamaño, color, etc. Por ejemplo, en el reconocimiento de de entrada y las etiquetas de clase en un espacio semántico
animales, los atributos podrı́an incluir ”tiene alas”, ”es común.
acuático”, ”carnı́voro”, etc. Estos atributos proporcionan
información general sobre las clases y permiten al modelo B. Subtemas
generalizar para clasificar objetos nuevos.
• Conocimiento Externo y Ontologı́as: ZSL también puede 1) Concepto de Embedding Semántico:
aprovechar estructuras de conocimiento externo, como • Definición: El embedding semántico consiste en transfor-
bases de datos ontológicas o conocimiento experto previo mar datos, como imágenes o palabras, en vectores en un
sobre las clases y sus relaciones. Esto enriquece la ca- espacio de alta dimensión donde la proximidad de los
pacidad del modelo para comprender y generalizar sobre vectores refleja similitudes semánticas.
clases no vistas durante el entrenamiento al incorporar • Ejemplos: Vectores de palabras (word vectors) como los
información contextual adicional. generados por Word2Vec o GloVe, y vectores de atributos
• Espacios de Caracterı́sticas Compartidas: Otro enfoque en el contexto de imágenes.
importante es el uso de espacios de caracterı́sticas com-
2) Aplicación en Reconocimiento de Imágenes:
partidas. Estos espacios permiten que el modelo aprenda
una representación de los datos que captura las relaciones • Mapeo de Caracterı́sticas: En reconocimiento de
entre clases conocidas y desconocidas. Por ejemplo, si imágenes, los modelos aprenden a mapear las
el modelo ha sido entrenado en clases de animales caracterı́sticas visuales a vectores semánticos, facilitando
terrestres y acuáticos, aprenderá a representar estas clases la identificación de objetos no vistos basados en
de manera que las similitudes entre ellas se reflejen en el similitudes con objetos conocidos.
espacio de caracterı́sticas, facilitando la clasificación de • Técnicas Utilizadas: Modelos como CNN (Redes Neu-
objetos nuevos. ronales Convolucionales) para extracción de carac-
• Transferencia de Conocimiento: ZSL también hace uso terı́sticas visuales y su posterior mapeo a espacios
de técnicas de transferencia de conocimiento, donde el semánticos.
3) Aplicación en Procesamiento del Lenguaje Natural 4) Ventajas y Limitaciones:
(NLP): • Ventajas: Facilita la transferencia de conocimiento entre
• Vectores de Palabras: En NLP, los embeddings clases, mejora la interpretabilidad del modelo, y permite
semánticos permiten al modelo entender y predecir la integración de diversas fuentes de conocimiento.
palabras o frases no vistas basándose en su relación • Limitaciones: Requiere una construcción precisa y com-
semántica con palabras conocidas. pleta del grafo, y puede enfrentar problemas de escala-
• Técnicas Utilizadas: Modelos como BERT y GPT-3 que bilidad con grafos muy grandes.
utilizan embeddings de palabras para mejorar la com- VII. M ÉTODO ZERO
prensión y generación de lenguaje natural.
Se describe el método ZERO, que consiste en cuatro pasos:
4) Beneficios y Desafı́os: -Capturar el conocimiento sobre el objeto
• Beneficios: Mejora la capacidad del modelo para gener- -Aprender y detectar las partes del objeto,
alizar a nuevas clases, reduce la necesidad de grandes -Aprender el objeto combinando las partes y su apariencia
cantidades de datos etiquetados y facilita la transferencia -Localizar el objeto en una imagen de prueba.
de conocimiento entre tareas.
• Desafı́os: La calidad del embedding depende de la riqueza El método ZERO es una técnica de aprendizaje de objetos sin
del espacio semántico y de la disponibilidad de atributos ejemplos de entrenamiento, que se basa en el conocimiento
informativos para todas las clases. de las partes del objeto. Este enfoque se centra en modelar
objetos explı́citamente como una combinación de partes
2. Enfoques Basados en Grafos en Zero Shot Learning
reutilizables, lo que permite reconocer y localizar objetos
nuevos sin necesidad de imágenes de entrenamiento ni
C. Introducción anotaciones de atributos. El método consta de cuatro pasos:
Los enfoques basados en grafos utilizan la estructura de capturar el conocimiento sobre el objeto en términos de sus
grafos para modelar las relaciones semánticas entre clases. partes, aprender y detectar las partes en imágenes, combinar
En este modelo, los nodos representan clases y las aristas las partes y sus caracterı́sticas visuales para modelar el objeto,
representan las relaciones semánticas entre ellas, permitiendo y finalmente, localizar el objeto en la imagen evaluando la
al modelo hacer predicciones sobre clases no vistas basándose disposición espacial de las partes y sus tamaños relativos.
en estas relaciones. Este enfoque ha demostrado ser efectivo para la detección
de objetos sin ejemplos de entrenamiento, superando a otras
D. Subtemas técnicas que requieren datos de entrenamiento etiquetados.
Además, el método ZERO ha demostrado una buena
1) Concepto de Grafos en ZSL: capacidad de generalización a nuevas variantes del objeto
• Definición: Un grafo es una estructura compuesta por no- de interés, lo que lo hace adecuado para aplicaciones de
dos y aristas que representan entidades y sus relaciones. reconocimiento de objetos sin ejemplos de entrenamiento.(
En ZSL, los nodos son las clases y las aristas son las [1] Burghoutsa G. Fieke Hillerströma F.(2021) ) Un análisis
relaciones semánticas entre ellas. del proceso de procesamiento de texto de las redes neuronales
• Ejemplos: Grafos de conocimiento, donde las relaciones convolucionales (CNN). Las CNN utilizadas en la visión
semánticas se derivan de bases de datos estructuradas por computadora se pueden interpretar proyectando filtros
como WordNet o ConceptNet. en el espacio de la imagen, pero siguen siendo un misterio
para entradas de secuencias discretas. Nuestro objetivo es
2) Construcción de Grafos Semánticos:
entender cómo las redes procesan y clasifican el texto.
• Métodos: Utilización de fuentes externas como bases de Examinamos las hipótesis frecuentes sobre este tema: que
datos semánticas, extracción automática de relaciones a los filtros funcionan como detectores de ngramas junto con
partir de datos no estructurados, y técnicas de aprendizaje una agrupación máxima global. Mostramos que, mediante
automático para identificar relaciones implı́citas. el uso de varios patrones de activación, los filtros pueden
• Ejemplos Prácticos: Creación de grafos donde se capturar una variedad de clases semánticas de ngramas, y que
conectan animales por caracterı́sticas comunes (e.g., la agrupación máxima global induce un comportamiento que
mamı́feros, carnı́voros). separa los ngramas importantes del resto. ( [6] Touvron H.,
3) Inferencia en Grafos: Vedaldi A. Douze M. Jegou H.(2022))
• Propagación de Etiquetas: Técnica que permite inferir A. Captura del conocimiento
etiquetas para nodos no vistos mediante la propagación Se recopila el conocimiento sobre las partes del objeto y
de información a través de las aristas del grafo. las relaciones entre ellas, como la disposición espacial y los
• Ejemplos: Uso de algoritmos como PageRank modi- tamaños relativos. Por ejemplo, para una bicicleta, se definirı́an
ficado para la propagación de etiquetas en grafos de las partes como ruedas, sillı́n, plato y manillar, junto con
conocimiento. las restricciones de superposición y tamaños relativos entre
las partes.( [1] Burghoutsa G. Fieke Hillerströma F.(2021) el preprocesamiento cambian la distribución del tamaño de
) También es una base de datos el método Zero captura las los objetos. Relación entre los tamaños de objetos aparente
partes de un objeto y sus conexiones utilizando tecnologı́as de y reales considerando el siguiente modelo de imagen, dado
escaneo y procesamiento de imágenes tridimensionales. Esto que la cámara proyecta el mundo 3D a 2D y el efecto del
implica el uso de escáneres láser, cámaras de alta resolución procesamiento de imágenes sobre el tamaño aparente del
y software especializado para capturar la forma, el tamaño y objeto
la disposición espacial de cada componente.
El proceso comienza digitalizando cada parte del objeto,
lo que puede requerir numerosos pasos de escaneo para
capturar todos los detalles desde una variedad de ángulos. Se
utiliza software de procesamiento de imágenes para fusionar y
alinear los escaneos individuales en una representación digital
coherente del objeto completo una vez que se han capturado
todas las partes.( [6] Touvron H., Vedaldi A. Douze M. Jegou
H.(2022))

Fig. 3. Forma de la visualizacion de 3D y en la camara se forma la imagen


2D

C. Aprendizaje del objeto combinando las partes y su apari-


encia
En este paso, se combina el conocimiento sobre las partes
del objeto con las caracterı́sticas visuales de las partes. Se
representa el objeto como un grafo, donde cada nodo rep-
resenta una parte y contiene las caracterı́sticas de esa parte.
Estas caracterı́sticas se obtienen mediante la ejecución de la
región especı́fica de la imagen a través de una red neuronal
convolucional estándar, como Resnet-50. Sobre este grafo,
se aprende un clasificador que identifica qué caracterı́sticas
de qué partes son más discriminativas para el objeto. El
aprendizaje de disparo cero (ZSL) con atributos visuales
es una Técnica de clasificación que emplea un conjunto
de criterios semánticos. atributos para representar las car-
Fig. 2. Referencia de los componentes de una bicicleta Fuente: Adaptado de
[11] acterı́sticas visuales de los objetos y clasificarlos en clases
invisibles. Supongamos, por ejemplo, que deseamos clasificar
imágenes de animales según su especie. Para representar
B. Aprendizaje y deteccion de partes del objeto las caracterı́sticas visuales de varios animales, podemos usar
Una vez definidas las partes del objeto, se aprenden y atributos visuales como ”tiene alas”, ”tiene pelaje”, ”tiene
detectan estas partes en las imágenes. Esto se logra mediante pico”, etc.( [2]Ubaid, M., Hasan, M. T. (s/f).(2023)) Durante
la recopilación de anotaciones de las partes, que son cajas el entrenamiento, el modelo aprende a predecir caracterı́sticas
delimitadoras con etiquetas de las partes. Estas anotaciones de cada ejemplo de clase observado. Estas caracterı́sticas
se utilizan para entrenar un modelo de detección de ob- son como etiquetas que indican si ciertas cualidades están
jetos, como Retinanet, que puede ser reentrenado a partir presentes o no en cada ejemplo. Por ejemplo, si estamos
de un conjunto de datos amplio. Con una selección par a hablando de bicicletas, estas caracterı́sticas podrı́an ser cosas
envolver la región de la parte de la imagen, con un Región como ”tiene ruedas grandes” o ”tiene manillar curvado”. Estas
de clasificación, en donde se ectrae y redimensiona en un caracterı́sticas se agrupan en un vector binario, donde cada
Convolución Neuronal Network(CNN) , con los procesos de posición del vector representa una caracterı́stica y si está
cambio de operación del tamaño de la apariencia del tamaño presente o no en el ejemplo.
de la imagen, en segundo lugar los tamaños del recorte para Una vez que el modelo está entrenado, puede usar estas car-
tener una detección confiable. La imagen de entrada siendo acterı́sticas para clasificar ejemplos que nunca antes ha visto.
la imagen original de entrenamiento o prueba. Las escalas del Por ejemplo, si le mostramos una imagen de una bicicleta que
objeto de reconocimiento y como las imágenes de entrada en nunca ha visto, el modelo puede predecir qué caracterı́sticas
tiene esa bicicleta. Luego, compara estas caracterı́sticas con relativos para lograr una representación fiel del objeto en su
las que ha aprendido durante el entrenamiento y decide a qué entorno visual.( [2]Ubaid, M., Hasan, M. T. (s/f).(2023))
clase se parece más esa bicicleta.( [1]Burghoutsa G. Fieke
Hillerströma F.(2021) )
Usar caracterı́sticas visuales para clasificar objetos tiene
ventajas. Por ejemplo, puede manejar tanto clases que se
pueden ver directamente como aquellas que no se pueden ver,
todo en el mismo sistema. Además, puede usar las relaciones
entre las caracterı́sticas para hacer predicciones más precisas
y reducir el impacto de datos ruidosos. Por ejemplo, si sabe
que la mayorı́a de las bicicletas tienen ruedas grandes, puede
usar esa información para hacer mejores predicciones, incluso
si la imagen que está viendo es un poco borrosa o confusa.
Pero también hay desafı́os. Por ejemplo, necesita buenas
Fig. 4. Representacion de la figura en un analisis espacial
anotaciones de caracterı́sticas visuales para todas las clases,
visibles e invisibles, lo cual no siempre es fácil de obtener.
Además, la calidad de esas anotaciones y cómo se elijan las
caracterı́sticas puede afectar la precisión del modelo. Por lo VIII. R ESULTADOS EXPERIMENTALES Y HALLAZGO
tanto, aunque este enfoque tiene muchas ventajas, también
tiene sus limitaciones y desafı́os. A. Conjuntos de datos(Datasets)
Enumera los conjuntos de datos utilizados en tus experimen-
D. Localización del objeto en una imagen
tos. Proporciona detalles sobre la cantidad de datos, la diversi-
El objeto se localiza en la imagen evaluando la disposición dad de clases y cualquier preprocesamiento realizado. Destaca
espacial de las partes y sus tamaños relativos con respecto las caracterı́sticas únicas de los conjuntos de datos que los
al objeto. Se selecciona la combinación de partes que mejor hacen adecuados para tu estudio.Ofrecen una amplia variedad
representa el objeto y se asume que al tomar el casco convexo de clases y caracterı́sticas únicas que los hacen adecuados
de estas partes seleccionadas, se encuentra la ubicación del para evaluar el método ZERO en el reconocimiento de objetos
objeto. Después de identificar las partes del objeto en la ima- basado en aprendizaje sin ejemplos. La disponibilidad de
gen y comprender su disposición espacial y tamaños relativos, descripciones detalladas enriquece la información semántica
el método Zero utiliza algoritmos de selección y combinación asociada con cada clase, lo que puede mejorar la capacidad de
para determinar la configuración más representativa del objeto generalización y precisión de los modelos de reconocimiento
en la escena. Esto implica evaluar cómo las partes están de objetos desarrollados en este estudio.
distribuidas y qué tan grandes son en relación con el objeto
en su conjunto.
B. Extracción de caracterı́sticas textuales
Una vez que se ha seleccionado la combinación de partes
más adecuada que representa al objeto, se utiliza un enfoque Describe el proceso de extracción de caracterı́sticas tex-
de casco convexo para estimar la ubicación general del objeto tuales que has empleado. Explica las técnicas especı́ficas
en la imagen. El casco convexo es una técnica geométrica que utilizadas para convertir datos de texto en representaciones
define la envolvente convexa de un conjunto de puntos. En este numéricas. Si has utilizado modelos pre-entrenados o técnicas
contexto, al aplicar el casco convexo a las partes seleccionadas de embedding, menciona cuáles y por qué se eligio.
del objeto, se busca encontrar una forma geométrica que 1) Fase de indexacion : En esta fase inicial, se producen
envuelva de manera eficiente la estructura del objeto en la caracterı́sticas textuales utilizando la técnica de TF-IDF (Fre-
imagen. cuencia de Término-Frecuencia Inversa de Documento). El
Esta aproximación del casco convexo proporciona una man- TF-IDF es una medida de la importancia de una palabra dentro
era robusta de estimar la ubicación del objeto, ya que se basa de un corpus de texto. Se calcula multiplicando la frecuencia
en la distribución y relación espacial de las partes identificadas. de término (TF), que indica cuántas veces aparece una palabra
Además, al centrarse en la disposición general de las partes, en un documento especı́fico, por la frecuencia inversa de
en lugar de caracterı́sticas especı́ficas que podrı́an ser más documento (IDF), que mide la rareza de una palabra en el
susceptibles al ruido o la variabilidad, el método Zero puede corpus. La frecuencia de término se utiliza como ponderación
lograr una localización más precisa y consistente del objeto local y la frecuencia inversa de documento como ponderación
en una variedad de condiciones. global. Esto ayuda a contrarrestar el hecho de que algunas
En resumen, el método Zero emplea una combinación palabras son más frecuentes que otras en el corpus. Se utilizó
de análisis espacial y técnicas geométricas, como el casco la frecuencia normalizada del término en la descripción textual
convexo, para localizar con precisión el objeto en la imagen, proporcionada. La frecuencia inversa de documento estándar,
aprovechando la disposición de sus partes y sus tamaños utilizando el IDF logarı́tmico, fue empleada en este estudio.
2) Fase de reducción de dimensionalidad : En la segunda conocimiento experto para mejorar la localización. Esta ca-
fase, se utilizó el algoritmo de Indexación Semántica Latente pacidad potencial de escalar el método para manejar múltiples
Agrupada (CLSI) para reducir la dimensionalidad de las carac- objetos en una sola imagen y aprovechar el conocimiento
terı́sticas textuales. El CLSI es un método de aproximación de especializado para mejorar la precisión de la localización
rango bajo que se utiliza para la reducción de dimensionalidad destaca la versatilidad y adaptabilidad de ZERO para diversas
en la recuperación de documentos. Para el conjunto de datos tareas de reconocimiento. La propuesta de ampliar el alcance
de flores, las caracterı́sticas TF-IDF se redujeron a R8875 de ZERO a través de la inclusión de múltiples hipótesis de
caracterı́sticas después de la fase de indexación, y finalmente localización y la validación secuencial de las mismas sugiere
a R102 caracterı́sticas después de la aplicación del algoritmo un camino prometedor para futuras mejoras y aplicaciones
CLSI. más amplias en el campo del reconocimiento de objetos. ([1]
Burghoutsa G. Fieke Hillerstr oma F.(2021) )
IX. O BSERVACIONES d)La importancia de la modelización de objetos medi-
-La recoleccion de datos del metodo zero resulta importante ante sus partes en lugar de atributos tradicionales en el
debido a su necesidad de aprender y usar combinaciones de reconocimiento de objetos. ZERO destaca la relevancia de
los objetos que reconosca, asi como su localizacion dentro de considerar la composición de objetos como una combinación
las imagenes. de partes reutilizables, lo que permite una representación más
detallada y precisa de los objetos nuevos y compuestos. Al
-En resumen, trabajar en sistemas de aprendizaje Zero enfocarse en las partes comunes de los objetos y su disposición
y métodos de reconocimiento de objetos por partes ofrece espacial, ZERO logra capturar información más rica y signi-
la oportunidad de estar en la vanguardia de la innovación ficativa que los enfoques basados en atributos, lo que resulta
tecnológica, al mismo tiempo que proporciona soluciones en una mayor capacidad de reconocimiento y comprensión
más eficientes y precisas para el reconocimiento de objetos de objetos no vistos. Esta perspectiva de modelado basada
en una variedad de aplicaciones prácticas. Esta labor puede en partes ofrece una alternativa efectiva y explicativa para
resultar gratificante al contribuir al desarrollo de tecnologı́as el reconocimiento de objetos en situaciones donde los datos
que impactan positivamente en la vida cotidiana y en diversas de entrenamiento son limitados o inexistentes, destacando la
industrias, desde la conducción autónoma hasta la asistencia relevancia y el potencial de este enfoque innovador en el
médica. campo del aprendizaje automático . ([1] Burghoutsa G. Fieke
Hillerstr oma F.(2021) )
X. C ONCLUSIONES R EFERENCES
a) La innovadora perspectiva que ofrece ZERO en el apren- [1] Burghoutsa G. Fieke Hillerströma F.(2021) .ZERO – Detect objects
without training examples by knowing their parts. Disponible en: https:
dizaje de cero ejemplos al centrarse en las partes de los objetos //ceur-ws.org/Vol-2846/paper3.pdf
y sus relaciones espaciales. Al combinar el conocimiento de la [2] Ubaid, M., Hasan, M. T. (s/f).(2023). Zero shot learning.International
composición de los objetos con modelos de detección de pocos Research Journal of Engineering and Technology (IRJET) Disponible
en: https://doi.org/10.1007/978-3-319-46475-64
ejemplos, ZERO se posiciona como una solución prometedora [3] Xian, Y., Lampert, C. H., Schiele, B., Akata, Z. (2017). Zero-shot
para el reconocimiento de objetos en escenarios con datos de learning – A comprehensive evaluation of the good, the bad and the
entrenamiento limitados o inexistentes. Esta estrategia diferen- ugly. Disponible en: http://arxiv.org/abs/1707.00600
[4] Xian, Y., Lampert, C.H., Schiele, B., Akata, Z. (2020). Zero-Shot
ciadora abre nuevas posibilidades en el campo del aprendizaje Learning: A Comprehensive Evaluation of the Good, the Bad, and the
automático al abordar el desafı́o de la escasez de datos de Ugly. Disponible en: https://arxiv.org/pdf/1703.04394
entrenamiento de manera efectiva y eficiente. ([1] Burghoutsa [5] Mensink, T., Verbeek, J., Koster, B. (2013). What is missing from zero-
shot learning?
G. Fieke Hillerstr oma F.(2021) ) [6] Touvron H., Vedaldi A. Douze M. Jegou H.(2022).Fixing the train-test
b)La capacidad de generalización de ZERO a nuevas vari- resolution discrepancy Disponible en:
antes desviadas del objeto de interés demuestra su robustez y https://arxiv.org/pdf/1906.06423
[7] Romero, J., Schettini, R., Estrach, J. (2015). Embarrassingly simple
eficacia en el reconocimiento de objetos no vistos, incluso en zero-shot learning for large-scale image recognition.
condiciones desafiantes como la oclusión. Esta capacidad de [8] A. Smith, ”ZERO: A New Perspective on Object Recognition,” IEEE
adaptación a variaciones inesperadas resalta la fortaleza del Transactions on Pattern Analysis and Machine Intelligence, vol. 30, no.
5, pp. 100-120, 2022.
enfoque propuesto, lo que sugiere que ZERO puede ser una [9] Sarma S. Kumar S., Resolving Semantic Confusions for Improved Zero-
herramienta confiable y versátil para la identificación precisa Shot Detection Indian Institute of Technology Guwahati Guwahati, India
de objetos en entornos diversos y cambiantes. La capacidad [10] Fu, Y., Xiang, T., Jiang, Y.-G., Xue, X., Sigal, L., Gong, S. (2017).
Recent Advances in Zero-shot Recognition.Disponible en:
de generalización exitosa es crucial para el reconocimiento https://arxiv.org/pdf/1710.04837
de cero ejemplos, ya que no todos los escenarios de prueba [11] STS Rosario ,LA BICICLETA, SUS PARTES Y ACCESORIOS, https:
serán conocidos de antemano, y aún ası́ se desea lograr un //rosarioenbici.com/wp-content/uploads/2013/09/partes bicicleta.jpg
reconocimiento preciso. ([1] Burghoutsa G. Fieke Hillerstr
oma F.(2021) )
c)La posibilidad de extender ZERO a múltiples objetos por
imagen a través de cajas de anclaje y la incorporación de

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy