Eliminación del sesgo en agregados de predicciones basadas en machine learning

L. Sanguiao Sande

Es bien conocida la presencia de sesgo en los modelos basados en machine learning. En general, el sesgo es conveniente y permite una importante reducción de la varianza, de acuerdo con el dilema sesgo-varianza.
No obstante, si lo que pretendemos es utilizar las predicciones del modelo para el cálculo de totales o medias, podríamos encontrarnos con un sesgo persistente que hace que las estimaciones estén sistemáticamente por encima o por debajo del dato que queremos medir. Esto produce subjetividad en las estimaciones, aunque en este caso la fuente sea un algoritmo.
Podríamos eliminar el sesgo tomando una muestra y estimando la diferencia entre la predicción del modelo y la variable objetivo. El problema de este procedimiento es que utiliza dos muestras: una para entrenar el modelo y otra para eliminar el sesgo.
Proponemos un procedimiento general que utiliza una sola muestra para realizar ajuste y la eliminación del sesgo a la vez: el estimador de segunda etapa.

Palabras clave: Machine learning, corrección del sesgo, muestreo, random forest, dilema sesgo varianza

Programado

JEP-2 Jornadas de Estadística Pública
5 de septiembre de 2019 14:45
Salón de Grados. Edificio Carbonell

Otros trabajos en la misma sesión

Contraste de datos de ocupación y afiliación

S. Carrascosa, M. Á. García Martínez

Economía colaborativa. Viviendas de uso turístico. Métodos de estimación

B. Corral Orgaz, F. Cortina García, C. Fullea Carrera, B. González Olmos, M. Izquierdo Valverde, M. Velasco Gimeno

Uso de Big data en las estadísticas oficiales de turismo

B. González Olmos, A. Fernandez Bes, C. Fullea Carrera, J. Prado Mascuñano, M. Velasco Gimeno

Últimas noticias

04/07/19
Programa científico completo disponible

31/05/19
Convocado Premio INE 2019

13/04/19
Inscripción ya abierta

Organizan

Colaboran