RISTI: Revista Ibérica de Sistemas e Tecnologias de Informação | 2019

Heurísticas para Data Augmentation en NLP: Aplicación a Revisiones de Artículos Científicos

 
 
 

Abstract


espanolLas tecnicas de data augmentation son esenciales para entrenar algoritmos de machine learning, donde el conjunto de datos inicial es mas pequeno que lo requerido debido a la complejidad del modelo. En modelos de aprendizaje automatico, la robustez del proceso de entrenamiento depende altamente de grandes volumenes de datos etiquetados, los cuales son costosos de producir. Un enfoque eficaz para tratar con este problema es generar automaticamente nuevos ejemplos etiquetados usando tecnicas de data augmentation. En el procesamiento del lenguaje natural, en particular en el idioma espanol, hay una falta de tecnicas bien definidas que permitan incrementar un conjunto de datos. En este articulo, se proponen un conjunto de heuristicas para data augmentation en NLP, las cuales son aplicadas en el dominio de las revisiones de articulos cientificos. EnglishData augmentation techniques are essential for training machine learning algorithms, where the initial data set is smaller than required due to the model complexity. In machine learning models, the robustness of the training process is highly dependent on large volumes of labeled data, which are expensive to produce. An effective approach to deal with this problem is to automatically generate new tagged examples using data augmentation techniques. In the processing of natural language, particularly in the Spanish language, there is a lack of well-defined techniques that allow increasing a set of data. In this article, we propose a set of heuristics for data augmentation in NLP, which are applied to the domain of reviews of scientific articles.

Volume None
Pages 44-53
DOI 10.17013/risti.34.44-53
Language English
Journal RISTI: Revista Ibérica de Sistemas e Tecnologias de Informação

Full Text