Eliminación del sesgo en agregados de predicciones basadas en machine learning
L. Sanguiao Sande
Es bien conocida la presencia de sesgo en los modelos basados en machine learning. En general, el sesgo es conveniente y permite una importante reducción de la varianza, de acuerdo con el dilema sesgo-varianza.
No obstante, si lo que pretendemos es utilizar las predicciones del modelo para el cálculo de totales o medias, podríamos encontrarnos con un sesgo persistente que hace que las estimaciones estén sistemáticamente por encima o por debajo del dato que queremos medir. Esto produce subjetividad en las estimaciones, aunque en este caso la fuente sea un algoritmo.
Podríamos eliminar el sesgo tomando una muestra y estimando la diferencia entre la predicción del modelo y la variable objetivo. El problema de este procedimiento es que utiliza dos muestras: una para entrenar el modelo y otra para eliminar el sesgo.
Proponemos un procedimiento general que utiliza una sola muestra para realizar ajuste y la eliminación del sesgo a la vez: el estimador de segunda etapa.
Palabras clave: Machine learning, corrección del sesgo, muestreo, random forest, dilema sesgo varianza
Programado
JEP-2 Jornadas de Estadística Pública
5 de septiembre de 2019 14:45
Salón de Grados. Edificio Carbonell
Otros trabajos en la misma sesión
S. Carrascosa, M. Á. García Martínez
B. Corral Orgaz, F. Cortina García, C. Fullea Carrera, B. González Olmos, M. Izquierdo Valverde, M. Velasco Gimeno
B. González Olmos, A. Fernandez Bes, C. Fullea Carrera, J. Prado Mascuñano, M. Velasco Gimeno
Últimas noticias
-
04/07/19
Programa científico completo disponible -
31/05/19
Convocado Premio INE 2019 -
13/04/19
Inscripción ya abierta