Asignación de Grupos Taller 1 IAI84 2

Inteligencia Artificial - G2 -- Indicaciones para el primer taller
Parte 1. Problema de clasificación en datasets disponibles para Matlab
Hay 11 datasets que se refieren a diferentes problemas de clasificación, y que se encuentran en

los vínculos que se relacionan seguidamente:
1. Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html

2. Arrhythmia https://www.mathworks.com/help/stats/sample-data-sets.html
3. Human activity data https://www.mathworks.com/help/stats/sample-data-sets.html
4. Wine quality dataset: http://archive.ics.uci.edu/ml/datasets/Wine+Quality
5. Diabetes http://web.cs.wpi.edu/~ruiz/KDDRG/Resources/Matlab/
6. Seeds https://archive.ics.uci.edu/ml/datasets/seeds
7. Abalone https://archive.ics.uci.edu/ml/datasets/Abalone
8. Wine https://archive.ics.uci.edu/ml/datasets/Wine
9. Columna vertebral https://archive.ics.uci.edu/ml/datasets/Vertebral+Column
10. Hojas https://archive.ics.uci.edu/ml/datasets/Leaf
11. Clasificación de especies de Soja:
https://archive.ics.uci.edu/ml/datasets/Dry+Bean+Dataset
Con esta información, el taller consiste en hacer lo siguiente.
A. En un documento, haga una descripción del dataset: número de muestras por clase
y número de características. Mencione a qué se refieren las clases en el dataset; y
qué información proporcionan las características. No es necesario especificar una a
una las características; solo describir de forma general si son valores de variables
fisiológicas, físicas, biológicas, mecánicas, etc.
B. Con los datos en el dataset, se deben presentar tres ejercicios de clasificación

bi-clase. Para esto, será necesario dividir el dataset original en subconjuntos donde
haya solo dos clases.
El objetivo de este punto es determinar pares de clases, para los que el desempeño
de clasificación, medido en términos de sensibilidad, especificidad y accuracy, sea
comparativamente más alto que para otros casos. En la medida de lo posible,
busque casos donde los valores de estas métricas sean iguales superiores al
80%. Este punto demandará que los subconjuntos se seleccionen a mano, y que se
deberá utilizar un criterio empírico para seleccionar los pares de clases, para la
clasificación bi-clase.
Hay un par de datasets que ya son bi-clase. En ese caso no tiene sentido trabajar
el literal B. Entonces, en el caso de los datasets bi-clase, lo que se debe hacer es
resolver tres ejercicios de clasificación considerando (a): todas las características;
(b) considerando sólo las 5 características más discriminantes y (c) y quitando del
dataset solo las 5 características más discriminantes.
Para determinar cuáles son las características más discriminantes de un dataset, se

puede seguir el ejemplo en la siguiente página:
https://www.mathworks.com/help/stats/fscmrmr.html
C. La evaluación del desempeño de clasificación, debe hacerse considerando la media

geométrica de las tres medidas de desempeño, las cuales se deben medir luego de
utilizar validación cruzada de 10 particiones. Las fracciones de los conjuntos de
entrenamiento y validación deben ser del 80 y 20% respectivamente.
Los entregables para este taller son los códigos que implementen por grupo, y el documento
de literal A.
Recomendaciones adicionales:
● Tenga en cuenta que en algunos casos, los datasets están en formato .data, el cual
en principio, no se puede leer directamente con Matlab. Pero si con un editor de
texto.
● En otros casos, el dataset puede estar en archivos con extensión .csv. Este tipo de
archivo sí puede leerse con Matlab. Se deberán buscar las funciones para esto.
● Si su dataset tiene características que no son reales (es decir, que sean numéricas y
contínuas), o de tipo categórico, entonces descarte estas características. Cuando tenga
la matriz de características en Matlab, simplemente borre las columnas asociadas a
estas características.
● No convierta estas características no reales o de tipo categórico, en características

numéricas. Si lo hace, el desempeño de clasificación que obtenga podría ser
engañosamente alto.
● Si las etiquetas de clase que tiene su dataset no son de tipo numérico, entonces haga la
conversión (de las etiquetas de clase) a este tipo.
Parte 2. Numeración de grupos, según orden de postulación el día 31-08-2021
Grupo 1:
Julián Esteban Madrid Ospina
Sandra Mildrey Castañeda Ruiz
Sebastián Alzate Betancur
Edward Alexander Londoño Marín
Grupo 2:
Sara Eugenia Herrera Henao
Susana Duque Yarce
Juan Camilo Acevedo Castrillon
Grupo 3:
Mateo Hincapié Giraldo
Mario Alexander Muñoz Perez
Haiber Efraín Bedoya Macías
Grupo 4:
Dilan Andrés Hoyos García
Yorman Paul Martinez Acevedo
Andrés David Muñoz Loaiza
Juan Pablo González David
Grupo 5:
Diego Emilio Florez Bolivar
Andres Felipe Nican
Juan Sebastian Tejada Vargas
Grupo 6
Juan David Arroyave Arboleda
Jennifer Adriana Chacon Arevalo
Daniela Gaviria Mena
Grupo 7:
Orlando Andrés Martínez Medina
Diego Alejandro Duque Quintero
Iván Ramiro Jiménez Suárez
Simon Florez Montes
Grupo 8:
Daniela Vargas Mendoza
Deicy Juliana Velazquez
Santiago Betancur Cardona
Nelson Andres Giraldo
Harold Alvery Perez Madrid
Grupo 9:
Carlos Andres Garcia Grisales
Bresney Dainover Quintana Londoño
Grupo 10
Andres Felipe Carmona
Didier Alejandro Martinez
Grupo 11
Sergio Andrés Marin Henao
Carlos David
Víctor Guillermo David Gallego
Parte 3. Asignación de datasets para cada grupo
Número - 1 2 3 4 5 6 7 8 9 10 11
grupo
Número de 6 3 11 7 8 5 1 2 4 9 10
dataset
Consecuentemente:
● Al grupo 1 le toca trabajar con el dataset 6: Seeds

● Al grupo 2 le toca trabajar con el dataset 3: Human activity data
● Y así, según indica la tabla.
Datasets:
Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html

Arrhythmia https://www.mathworks.com/help/stats/sample-data-sets.html
Human activity data https://www.mathworks.com/help/stats/sample-data-sets.html
Wine quality dataset: http://archive.ics.uci.edu/ml/datasets/Wine+Quality
Diabetes http://web.cs.wpi.edu/~ruiz/KDDRG/Resources/Matlab/
Seeds https://archive.ics.uci.edu/ml/datasets/seeds
Abalone https://archive.ics.uci.edu/ml/datasets/Abalone
Wine https://archive.ics.uci.edu/ml/datasets/Wine
Columna vertebral https://archive.ics.uci.edu/ml/datasets/Vertebral+Column
Hojas https://archive.ics.uci.edu/ml/datasets/Leaf
Clasificación de especies de Soja:
https://archive.ics.uci.edu/ml/datasets/Dry+Bean+Dataset

Asignación de Grupos Taller 1 IAI84 2

Cargado por

Copyright:

Formatos disponibles

Asignación de Grupos Taller 1 IAI84 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Asignación de Grupos Taller 1 IAI84 2

Cargado por

Copyright:

Formatos disponibles

Inteligencia Artificial - G2 -- Indicaciones para el primer taller

Parte 1. Problema de clasificación en datasets disponibles para Matlab

Hay 11 datasets que se refieren a diferentes problemas de clasificación, y que se encuentran en

1. Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html

Con esta información, el taller consiste en hacer lo siguiente.

B. Con los datos en el dataset, se deben presentar tres ejercicios de clasificación

Para determinar cuáles son las características más discriminantes de un dataset, se

C. La evaluación del desempeño de clasificación, debe hacerse considerando la media

● No convierta estas características no reales o de tipo categórico, en características

Parte 2. Numeración de grupos, según orden de postulación el día 31-08-2021

● Al grupo 1 le toca trabajar con el dataset 6: Seeds

Ovarian cancer https://www.mathworks.com/help/stats/sample-data-sets.html

También podría gustarte

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.