L. Sanguiao Sande
Es bien conocida la presencia de sesgo en los modelos basados en machine learning. En general, el sesgo es conveniente y permite una importante reducción de la varianza, de acuerdo con el dilema sesgo-varianza.
No obstante, si lo que pretendemos es utilizar las predicciones del modelo para el cálculo de totales o medias, podríamos encontrarnos con un sesgo persistente que hace que las estimaciones estén sistemáticamente por encima o por debajo del dato que queremos medir. Esto produce subjetividad en las estimaciones, aunque en este caso la fuente sea un algoritmo.
Podríamos eliminar el sesgo tomando una muestra y estimando la diferencia entre la predicción del modelo y la variable objetivo. El problema de este procedimiento es que utiliza dos muestras: una para entrenar el modelo y otra para eliminar el sesgo.
Proponemos un procedimiento general que utiliza una sola muestra para realizar ajuste y la eliminación del sesgo a la vez: el estimador de segunda etapa.
Palabras clave: Machine learning, corrección del sesgo, muestreo, random forest, dilema sesgo varianza
Programado
JEP-2 Jornadas de Estadística Pública
5 de septiembre de 2019 14:45
Salón de Grados. Edificio Carbonell