L. Sanguiao Sande

Es bien conocida la presencia de sesgo en los modelos basados en machine learning. En general, el sesgo es conveniente y permite una importante reducción de la varianza, de acuerdo con el dilema sesgo-varianza.
No obstante, si lo que pretendemos es utilizar las predicciones del modelo para el cálculo de totales o medias, podríamos encontrarnos con un sesgo persistente que hace que las estimaciones estén sistemáticamente por encima o por debajo del dato que queremos medir. Esto produce subjetividad en las estimaciones, aunque en este caso la fuente sea un algoritmo.
Podríamos eliminar el sesgo tomando una muestra y estimando la diferencia entre la predicción del modelo y la variable objetivo. El problema de este procedimiento es que utiliza dos muestras: una para entrenar el modelo y otra para eliminar el sesgo.
Proponemos un procedimiento general que utiliza una sola muestra para realizar ajuste y la eliminación del sesgo a la vez: el estimador de segunda etapa.

Palabras clave: Machine learning, corrección del sesgo, muestreo, random forest, dilema sesgo varianza

Programado

JEP-2 Jornadas de Estadística Pública
5 de septiembre de 2019  14:45
Salón de Grados. Edificio Carbonell


Otros trabajos en la misma sesión

Contraste de datos de ocupación y afiliación

S. Carrascosa, M. Á. García Martínez

Economía colaborativa. Viviendas de uso turístico. Métodos de estimación

B. Corral Orgaz, F. Cortina García, C. Fullea Carrera, B. González Olmos, M. Izquierdo Valverde, M. Velasco Gimeno

Uso de Big data en las estadísticas oficiales de turismo

B. González Olmos, A. Fernandez Bes, C. Fullea Carrera, J. Prado Mascuñano, M. Velasco Gimeno


Últimas noticias

Política de cookies

Usamos cookies solamente para poder idenfiticarte y autenticarte dentro del sitio web. Son necesarias para el correcto funcionamiento del mismo y por tanto no pueden ser desactivadas. Si continúas navegando estás dando tu consentimiento para su aceptación, así como la de nuestra Política de Privacidad.

Adicionalmente, utilizamos Google Analytics para analizar el tráfico del sitio web. Ellos almacenan cookies también, y puedes aceptarlas o rechazarlas en los botones de más abajo.

Aquí puedes ver más detalles de nuestra Política de Cookies y nuestra Política de Privacidad.