EMPIRIA: Revista de Metodología de Ciencias Sociales | 2019

Distributed Supervised Sentiment Analysis of Tweets: Integrating Machine Learning and Streaming Analytics for Big Data Challenges in Communication and Audience Research

 
 
 
 

Abstract


El analisis a gran escala de tweets en tiempo real utilizando el analisis de sentimiento supervisado representa una oportunidad unica para la investigacion de comunicacion y audiencias. El poner juntos los enfoques de aprendizaje automatico y de analitica en tiempo real en un entorno distribuido puede ayudar a los investigadores a obtener datos valiosos de Twitter con el fin de clasificar de forma inmediata mensajes en funcion de su contexto, sin restricciones de tiempo o almacenamiento, mejorando los disenos transversales, longitudinales y experimentales con nuevas fuentes de datos. A pesar de que los investigadores de comunicacion y audiencias ya han comenzado a utilizar los metodos computacionales en sus rutinas, la mayoria desconocen el uso de las tecnologias de computo distribuido para afrontar retos de dimension big data.\xa0 Este articulo describe la implementacion de metodos de aprendizaje automatico paralelizados en Apache Spark para predecir sentimientos de tweets en tiempo real y explica como este proceso puede ser escalado usando computacion distribuida tanto comercial como academica, cuando los ordenadores personales son insuficientes para almacenar y analizar los datos. Se discuten las limitaciones de estos metodos y sus implicaciones en los estudios de medios, comunicacion y audiencias. The large-scale analysis of tweets in real-time using supervised sentiment analysis depicts a unique opportunity for communication and audience research. Bringing together machine learning and streaming analytics approaches in a distributed environment might help scholars to obtain valuable data from Twitter in order to immediately classify messages depending on the context with no restrictions of time or storage, empowering cross-sectional, longitudinal and experimental designs with new inputs. Even when communication and audience researchers begin to use computational methods, most of them remain unfamiliar with distributed technologies to face big data challenges. This paper describes the implementation of parallelized machine learning methods in Apache Spark to predict sentiments in real-time tweets and explains how this process can be scaled up using academic or commercial distributed computing when personal computers do not support computations and storage. We discuss the limitation of these methods and their implications in communication, audience and media studies.

Volume None
Pages 113-136
DOI 10.5944/EMPIRIA.42.2019.23254
Language English
Journal EMPIRIA: Revista de Metodología de Ciencias Sociales

Full Text