Audiences Marketplace + Infonomics: How well can Machine Learning predict web user demographics?
View/ Open
Metadata
Show full item recordAuthor/s:
Longás, Daniela
Advisor/s:
Roccatagliata, Pablo
Thesis degree name:
Master in Management + Analytics
Date:
2021Abstract
El presente trabajo propone un modelo de machine learning para asignar el campo género a
usuarios de dispositivos que formarán parte de diversas audiencias de usuarios a ser impactadas
por campañas publicitarias digitales, en las que el atributo demográfico toma un lugar fundamental.
El atributo género es un requisito en gran parte de las audiencias ofrecidas. La empresa creadora de
audiencias en la que se basa este trabajo recibe información sobre datos demográficos de pocos
usuarios, por lo que predecir el género de usuarios de dispositivos de los que no se tengan registros
del género será el principal objetivo.
El primer modelo se entrena con características de User Agent, es decir atributos como marca y
modelo del dispositivo, navegador, sistema operativo y versión del sistema operativo. Un segundo
modelo sumará a los atributos del primero características de dominios visitados por cada
dispositivo. Finalmente, un tercer modelo sumará atributos de urls o sitios web específicos, visitados
por los usuarios para asignarles género lo más certeramente posible. En todos los casos se
intentarán técnicas de modelos de ensamble, como random forest y xgboost, al igual que regresión
logística regularizada.
En base al output de este ejercicio, se logrará aumentar el volumen de las audiencias ofrecidas a
distintas agencias de publicidad o empresas, y por ende, los ingresos de la compañía generadora de
dichas audiencias, en base al enfoque EVI (Economic Value of Information).
Palabras clave: audiencias, género, demográfico, machine learning, random forest, xgboost, sitios
web, dominios, user agent, compra programática.