Asunto :Análisis de datos
Tema :Análisis de sentimiento de reseñas de productos
Objetivo :El objetivo de esta tarea es realizar un análisis de opinión sobre las reseñas de productos para determinar el sentimiento del revisor hacia el producto.
Instrucciones :
1. Preparación de datos :
- Reúna un conjunto de datos de reseñas de productos de una fuente adecuada (por ejemplo, Amazon, Yelp).
- Limpie los datos eliminando revisiones duplicadas, manejando valores faltantes y convirtiendo el texto a minúsculas.
2. Análisis exploratorio de datos :
- Explorar los datos para comprender sus características y distribución.
- Realizar estadísticas básicas, como recuentos de frecuencia y nubes de palabras, para identificar palabras y frases comunes utilizadas en las reseñas.
3. Análisis de sentimiento :
- Utilice una biblioteca o herramienta de análisis de opiniones adecuada (por ejemplo, TextBlob, VADER o spaCy) para asignar puntuaciones de opinión a cada reseña.
- Agrupe las reseñas en categorías positivas, negativas o neutrales según sus puntuaciones de sentimiento.
4. Ingeniería de funciones :
- Extraiga características relevantes de las reseñas que puedan contribuir al sentimiento. Estos podrían incluir frecuencias de palabras, signos de puntuación u otras características relacionadas con la PNL.
5. Modelo de aprendizaje automático :
- Desarrollar un modelo de aprendizaje automático supervisado para clasificar las reseñas como positivas o negativas.
- Entrene el modelo con los datos etiquetados y evalúe su rendimiento utilizando métricas apropiadas (por ejemplo, exactitud, precisión, recuperación y puntuación F1).
6. Interpretación del modelo :
- Visualizar las predicciones del modelo utilizando matrices de confusión u otras visualizaciones relevantes.
- Analizar las revisiones mal clasificadas para identificar áreas de mejora.
7. Informes :
- Redactar un informe que resuma los resultados del análisis de sentimiento.
- Incluir detalles sobre la preparación de datos, análisis de datos exploratorios, ingeniería de características, entrenamiento de modelos y resultados de evaluación.
Envío :
- Presentar lo siguiente:
- Un script de Jupyter Notebook o Python que contenga su código y análisis.
- Un informe en PDF que resume los hallazgos.
Fecha límite :
- La tarea vence el [fecha].
- Las presentaciones tardías incurrirán en una penalización del 10% por día.