M. Agulló Antolín
La presencia de outliers afecta gravemente a los métodos usuales de obtención de reglas de clasificación, llevando a la obtención de reglas innecesariamente complejas. Podemos encontrar reglas de clasificación más sencillas permitiendo clasificar solo una fracción de la muestra. Además, podemos encontrar variables que no aportan información al modelo (correlacionadas con otras, que no diferencian unos individuos de otros,...). Incluir este tipo de variables conlleva un aumento de la dimensión del problema y una disminución en la eficiencia de los algoritmos de clasificación.
Proponemos un algoritmo basado en técnicas de recorte imparcial y de selección de modelos para que, mediante una penalización adecuada, seleccione un hiperplano que separe ambas muestras con el mínimo error. Este algoritmo calcula de manera independiente el error penalizado para cada nivel de recorte y dimensión. De modo que el tiempo de computación se reduce notablemente mediante la paralelización del algoritmo.
Palabras clave: Clasificación, paralelizar, machine learning
Programado
SI-R-1 Sesión Invitada. R (Hispano): Quiénes somos, de dónde venimos, adónde vamos
5 de septiembre de 2019 16:05
I3L10. Edificio Georgina Blanes