Asignación de Grupos Taller 1 IAI84 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

Inteligencia Artificial - G2 -- Indicaciones para el primer taller

Parte 1. Problema de clasificación en datasets disponibles para Matlab

Hay 11 datasets que se refieren a diferentes problemas de clasificación, y que se encuentran en


los vínculos que se relacionan seguidamente:

1. Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html


2. Arrhythmia https://www.mathworks.com/help/stats/sample-data-sets.html
3. Human activity data https://www.mathworks.com/help/stats/sample-data-sets.html
4. Wine quality dataset: http://archive.ics.uci.edu/ml/datasets/Wine+Quality
5. Diabetes http://web.cs.wpi.edu/~ruiz/KDDRG/Resources/Matlab/
6. Seeds https://archive.ics.uci.edu/ml/datasets/seeds
7. Abalone https://archive.ics.uci.edu/ml/datasets/Abalone
8. Wine https://archive.ics.uci.edu/ml/datasets/Wine
9. Columna vertebral https://archive.ics.uci.edu/ml/datasets/Vertebral+Column
10. Hojas https://archive.ics.uci.edu/ml/datasets/Leaf
11. Clasificación de especies de Soja:
https://archive.ics.uci.edu/ml/datasets/Dry+Bean+Dataset

Con esta información, el taller consiste en hacer lo siguiente.

A. En un documento, haga una descripción del dataset: número de muestras por clase
y número de características. Mencione a qué se refieren las clases en el dataset; y
qué información proporcionan las características. No es necesario especificar una a
una las características; solo describir de forma general si son valores de variables
fisiológicas, físicas, biológicas, mecánicas, etc.

B. Con los datos en el dataset, se deben presentar tres ejercicios de clasificación


bi-clase. Para esto, será necesario dividir el dataset original en subconjuntos donde
haya solo dos clases.

El objetivo de este punto es determinar pares de clases, para los que el desempeño
de clasificación, medido en términos de sensibilidad, especificidad y accuracy, sea
comparativamente más alto que para otros casos. En la medida de lo posible,
busque casos donde los valores de estas métricas sean iguales superiores al
80%. Este punto demandará que los subconjuntos se seleccionen a mano, y que se
deberá utilizar un criterio empírico para seleccionar los pares de clases, para la
clasificación bi-clase.

Hay un par de datasets que ya son bi-clase. En ese caso no tiene sentido trabajar
el literal B. Entonces, en el caso de los datasets bi-clase, lo que se debe hacer es
resolver tres ejercicios de clasificación considerando (a): todas las características;
(b) considerando sólo las 5 características más discriminantes y (c) y quitando del
dataset solo las 5 características más discriminantes.

Para determinar cuáles son las características más discriminantes de un dataset, se


puede seguir el ejemplo en la siguiente página:
https://www.mathworks.com/help/stats/fscmrmr.html

C. La evaluación del desempeño de clasificación, debe hacerse considerando la media


geométrica de las tres medidas de desempeño, las cuales se deben medir luego de
utilizar validación cruzada de 10 particiones. Las fracciones de los conjuntos de
entrenamiento y validación deben ser del 80 y 20% respectivamente.

Los entregables para este taller son los códigos que implementen por grupo, y el documento
de literal A.

Recomendaciones adicionales:

● Tenga en cuenta que en algunos casos, los datasets están en formato .data, el cual
en principio, no se puede leer directamente con Matlab. Pero si con un editor de
texto.

● En otros casos, el dataset puede estar en archivos con extensión .csv. Este tipo de
archivo sí puede leerse con Matlab. Se deberán buscar las funciones para esto.

● Si su dataset tiene características que no son reales (es decir, que sean numéricas y
contínuas), o de tipo categórico, entonces descarte estas características. Cuando tenga
la matriz de características en Matlab, simplemente borre las columnas asociadas a
estas características.

● No convierta estas características no reales o de tipo categórico, en características


numéricas. Si lo hace, el desempeño de clasificación que obtenga podría ser
engañosamente alto.

● Si las etiquetas de clase que tiene su dataset no son de tipo numérico, entonces haga la
conversión (de las etiquetas de clase) a este tipo.

Parte 2. Numeración de grupos, según orden de postulación el día 31-08-2021

Grupo 1:
Julián Esteban Madrid Ospina
Sandra Mildrey Castañeda Ruiz
Sebastián Alzate Betancur
Edward Alexander Londoño Marín

Grupo 2:
Sara Eugenia Herrera Henao
Susana Duque Yarce
Juan Camilo Acevedo Castrillon

Grupo 3:
Mateo Hincapié Giraldo
Mario Alexander Muñoz Perez
Haiber Efraín Bedoya Macías
Grupo 4:
Dilan Andrés Hoyos García
Yorman Paul Martinez Acevedo
Andrés David Muñoz Loaiza
Juan Pablo González David

Grupo 5:
Diego Emilio Florez Bolivar
Andres Felipe Nican
Juan Sebastian Tejada Vargas

Grupo 6
Juan David Arroyave Arboleda
Jennifer Adriana Chacon Arevalo
Daniela Gaviria Mena

Grupo 7:
Orlando Andrés Martínez Medina
Diego Alejandro Duque Quintero
Iván Ramiro Jiménez Suárez
Simon Florez Montes

Grupo 8:
Daniela Vargas Mendoza
Deicy Juliana Velazquez
Santiago Betancur Cardona
Nelson Andres Giraldo
Harold Alvery Perez Madrid

Grupo 9:
Carlos Andres Garcia Grisales
Bresney Dainover Quintana Londoño

Grupo 10
Andres Felipe Carmona
Didier Alejandro Martinez

Grupo 11
Sergio Andrés Marin Henao
Carlos David
Víctor Guillermo David Gallego
Parte 3. Asignación de datasets para cada grupo

Número - 1 2 3 4 5 6 7 8 9 10 11
grupo

Número de 6 3 11 7 8 5 1 2 4 9 10
dataset

Consecuentemente:

● Al grupo 1 le toca trabajar con el dataset 6: Seeds


● Al grupo 2 le toca trabajar con el dataset 3: Human activity data
● Y así, según indica la tabla.

Datasets:

Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html


Arrhythmia https://www.mathworks.com/help/stats/sample-data-sets.html
Human activity data https://www.mathworks.com/help/stats/sample-data-sets.html
Wine quality dataset: http://archive.ics.uci.edu/ml/datasets/Wine+Quality
Diabetes http://web.cs.wpi.edu/~ruiz/KDDRG/Resources/Matlab/
Seeds https://archive.ics.uci.edu/ml/datasets/seeds
Abalone https://archive.ics.uci.edu/ml/datasets/Abalone
Wine https://archive.ics.uci.edu/ml/datasets/Wine
Columna vertebral https://archive.ics.uci.edu/ml/datasets/Vertebral+Column
Hojas https://archive.ics.uci.edu/ml/datasets/Leaf
Clasificación de especies de Soja:
https://archive.ics.uci.edu/ml/datasets/Dry+Bean+Dataset

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy