Preparación de Datos para Aprendizaje Automático
Autor/es:
Usuga, Iván
Tutor/es:
González Rozada, Martín
Carrera de la tesis:
Maestría en Econometría
Fecha:
2023Resumen
La ciencia de datos es un conocimiento que entendemos tan bien que podemos enseñarlo
a una computadora. Todo lo demás es arte" (Rosana, 2023). Mientras existan códigos que
recreen un evento o datos que simulen el comportamiento de una situación, las
computadoras estarán prestas aprender.
El objetivo de este ensayo es generar ciertos procedimientos a tener en cuenta en la base
de datos después de haber sido recolectada, de tal modo que los datos queden a punto
para realizar análisis predictivos ya sea usando técnicas estadísticas convencionales o de
aprendizaje automático.
Ya que los datos son el elemento principal tanto para el análisis predictivo o la toma de
decisiones es fundamental darle un manejo adecuado a la recopilación de datos relevantes,
a la identificación de los datos faltantes o erróneos y a la transformación de los mismos en
un formato adecuado para el procesamiento de los mismos, ya sea usando técnicas como
regresiones lineales o modelos de aprendizaje automático.
La ruta de trabajo a seguir consta de dos secciones. La primera parte correspondiente al
manejo de los datos para verificar anomalías que se presentan durante el proceso de
recopilación de la información, las cuales necesitan ser corregidas para darles un formato
correcto y así dejarlas funcionales para usos posteriores. El dataset a usar para este fin se
cargará desde el repositorio de la Universidad de California correspondiente al Censo de
los Estados Unidos 2016 para constatar quienes de los encuestados no tienen seguro de
salud.