Extracción de patrones en las reseñas sobre celulares mediante el modelado de temas y el análisis de sentimientos
Autor/es:
Nazar Anchorena, Consuelo
Tutor/es:
Rabbione, Luca
Carrera de la tesis:
Master in Management + Analytics
Fecha:
2022Resumen
En la era digital, las redes sociales han cambiado la forma de comunicarnos: las mismas se
convirtieron en una fuente de información e intercambio fundamental. El contenido que se genera
en ellas requiere ser analizado mediante la aplicación de diversas técnicas de procesamiento del
lenguaje natural, con el propósito de encontrar tendencias o patrones en las opiniones y
comportamientos de las personas. Dicho análisis, le permite a las distintas áreas de las
organizaciones enfocar sus esfuerzos en desarrollar estrategias que busquen la satisfacción de los
consumidores, así como también que les permita posicionar sus propuestas y productos.
Este estudio se centra en la identificación de las dimensiones claves relacionadas con la compra de
teléfonos móviles a través de internet. Específicamente nos basamos en información recolectada de
Mercado Libre, ya que es un comercio electrónico que contiene un gran volumen de datos. En primer
lugar, extrajimos los datos de las reseñas de la categoría "Celulares y Teléfonos" y realizamos un
preprocesamiento de los mismos, que incluyó la eliminación de palabras vacías, la normalización y
tokenización de los datos. Luego, para comenzar a comprender las razones en las cuáles los
consumidores se basan para realizar sus elecciones, aplicamos métodos de aprendizaje no
supervisado, que incluyeron la extracción de los cinco tópicos principales, utilizando la
transformación del texto a una bolsa de palabras (en inglés, bag of words) y el método de Asignación
latente de Dirichlet (LDA). También lo complementamos con técnicas de análisis de sentimiento, que
están enfocadas en comprender las diversas palabras y expresiones que los seres humanos
utilizamos para expresar nuestro grado de aceptación hacia un tema o producto, de manera de
poder convertir las emociones en información objetiva.
Adicionamos a lo mencionado anteriormente, métodos de aprendizaje supervisado para aprovechar
la información contenida en las etiquetas, es decir, en los puntajes de las reseñas. Para ello utilizamos
una combinación de dos tipos de enfoques para extraer características: el enfoque de la bolsa de
palabras previamente mencionado y TF-IDF (del inglés Term frequency – Inverse document frequency,
frecuencia de término – frecuencia inversa de documento). Luego, entrenamos y evaluamos
algoritmos de clasificación capaces de predecir los puntajes, de manera tal que puedan darnos una
valoración social lo más acertada posible. Nos enfocamos en cuatro modelos de clasificación:
Random Forest (en español, Bosque Aleatorio), Support Vector Machine (en español, Máquinas de
Vector Soporte), Naive Bayes (en español, Bayes Ingenuo) y Logistic Regression (en español,
Regresión Logística). Los resultados del estudio encuentran implicaciones prácticas para el desarrollo
de los celulares, ya que permiten hacer foco en los tópicos y aspectos clave en los que los
consumidores se basan para hacer sus elecciones.