Clasificación de envíos mediante Procesamiento de Texto
Autor/es:
Izarnotegui, Damián
Tutor/es:
Roccatagliata, Pablo
Carrera de la tesis:
Master in Management + Analytics
Fecha:
2021Resumen
El proceso logístico es uno de los componentes más importantes en la propuesta de valor que una determinada empresa de comercio electrónico puede ofrecerle al cliente. Al mismo tiempo, los costos operativos se pueden disparar si no es gestionada de manera eficiente. Entre sus desafíos se encuentra la identificación de ciertas características de los productos que pueden modificar la forma de gestionar los paquetes a través del proceso de envío. Si el paquete se gestiona de manera incorrecta, se genera la posibilidad de incurrir en costos adicionales, además de afectar la experiencia del usuario. Todo lo mencionado adquiere mayor criticidad si el contexto se da de manera electrónica y de forma masiva. El presente trabajo argumenta que, haciendo uso de técnicas de aprendizaje automático, puede sacarse provecho del enorme volumen de datos disponible en los sistemas de información de una de las empresas de comercio electrónico más importante de Latinoamérica para construir soluciones que permitan mejorar el proceso de la toma de decisiones en un determinado punto del proceso adquisición y envío de un producto. Con el objetivo de poner a prueba esta hipótesis, se tuvo a disposición una gran cantidad de datos de productos que atravesaron el proceso logístico antes mencionado. El foco del trabajo estuvo puesto en la construcción de un modelo de aprendizaje automático, específicamente utilizando técnicas de modelado del lenguaje, que pudiera predecir la probabilidad de que producto pudiese ser identificado con una etiqueta que está asociada a ciertas características físicas del producto y a partir de los diferentes descriptores textuales que conforman la identificación de los productos publicados por los vendedores. Como resultado, se obtuvo una serie de modelos con rendimientos prometedores que presentan un ahorro mayor al 95% respecto al mayor ahorro que se podría alcanzar sobre un conjunto de datos de testeo. Además, presentan una muy buena calidad predictiva logrando separar las clases de los productos maquinables y no maquinables, prediciendo correctamente más del 95% de las etiquetas de los datos no vistos y utilizados para la evaluación.