R en la computación de altas prestaciones: paralelizando un algoritmo de clasificación.
La presencia de outliers afecta gravemente a los métodos usuales de obtención de reglas de clasificación, llevando a la obtención de reglas innecesariamente complejas. Podemos encontrar reglas de clasificación más sencillas permitiendo clasificar solo una fracción de la muestra. Además, podemos encontrar variables que no aportan información al modelo (correlacionadas con otras, que no diferencian unos individuos de otros,...). Incluir este tipo de variables conlleva un aumento de la dimensión del problema y una disminución en la eficiencia de los algoritmos de clasificación.
Proponemos un algoritmo basado en técnicas de recorte imparcial y de selección de modelos para que, mediante una penalización adecuada, seleccione un hiperplano que separe ambas muestras con el mínimo error. Este algoritmo calcula de manera independiente el error penalizado para cada nivel de recorte y dimensión. De modo que el tiempo de computación se reduce notablemente mediante la paralelización del algoritmo.
Keywords: Clasificación paralelizar machine learning
Other papers in the same session
Latest news
-
7/4/19
Full scientific program available -
5/31/19
INE Award (2019) -
4/13/19
Registration is open