Análisis de tweets usando el HT #ParoNacionalEC
Autor: Roberto Esteves – Gerente de Proyectos e Innovación en Eclipdata
Este es un breve análisis de las publicaciones en redes sociales, es un ejercicio donde se utilizaron herramientas de procesamiento de lenguaje natural, R y Python
Se analizaron más de 70.000 publicaciones que utilizaron el HT #ParoNacionalEC desde el 8 al 11 de Octubre 2019, recogidas de manera aleatoria.
Tabla de Tweets recolectados por día
Día Total
2019-10-08 14.698
2019-10-09 17.564
2019-10-10 12.498
2019-10-11 30.782
Gráfico de tweets recolectados por día
Datos:
- Más de 27.000 cuentas tuitearon utilizando el HT #ParoNacionalEC.
- El usuario que más tweets publicó fue @Luca33182516 con 240.
- En total se usaron 967.000 palabras en 75.000 tweets.
- En promedio se utilizaron 13 palabras por cada tweet.
- 59 cuentas verificadas aportaron con contenido al HT #ParoNacionalEC.
Gráfico de las 20 cuentas que más twitearon con el HT #ParoNacionalEC
En este cuadro podemos observar las cuentas que más tweets escribieron o hicieron RT, donde el usuario @Lucas33182516 es, con casi 250 tweets, el que mas uso el HT analizado
Análisis Frecuencia de Palabras
El gráfico evidencia las palabras más usadas, donde evidentemente Quito, indígenas, Lenín están en el TOP al estar en un momento coyuntural, donde en Quito se desarrollan la mayoría de las protestas por parte del movimiento indígena.
Relaciones entre palabras
Utilizando biagramas, logramos establecer relaciones que existen entre palabras, es decir cuales son las combinaciones de palabras más frecuentes
Utilizando una asociación de 3 palabras llamada “Trigrama” podemos tener una idea más clara de cómo se construyeron los tuits durante los últimos eventos en Ecuador
Establecer estas combinaciones de 2 y 3 palabras más adelante nos permitirán crear modelos de Machine Learning para texto predictivo, y clusterización
En una siguiente entrega vamos a revisar el nivel de relevacia de las palabras dentro del contexto de los 75.000 tuits, además vamos a clusterizar, usando kmeans, para poder encontrar las similitudes entre los mensajes, análisis de sentimiento y relaciones entre los usuarios de twitter.
El dataset utilizado lo pueden encontrar en https://www.dropbox.com/s/3ok94c83afi188l/ParoNacional.csv?dl=0
Segunda parte -> Sentimiento, relevancia y agrupamiento de mensajes
Foto:https://www.t13.cl/noticia/mundo/aumentan-cinco-muertos-protestas-ecuador
Fuente: https://www.linkedin.com/pulse/an%C3%A1lisis-de-tweets-usando-el-ht-paronacionalec-roberto-esteves/