Archive | 2019

Clustering probabilístico dinámico para la búsqueda de patrones de degradación de elementos de máquina en el ámbito del industrie 4.0

 

Abstract


La Cuarta Revolucion Industrial y en particular, los sistemas ciberfisicos (CPS), han abierto una amplia gama de oportunidades en terminos de analisis de rendimiento. Estas oportunidades pueden ser aplicables a sistemas de diagnostico y prediccion de fallos pero tambien, pueden contribuir a la mejora del diseno de los productos y a la optimizacion de los procesos industriales. Las capacidades de comunicacion de los CPS a alta velocidad permiten adquirir, pre-procesar y procesar los datos que se extraen, por ejemplo, de las maquinas, pilar fundamental de los procesos productivos. Como resultado, la degradacion de los elementos de maquina sujetos a comportamientos dinamicos puede detectarse de una manera mas rapida mediante el estudio de los patrones que forman sus principales variables de funcionamiento a lo largo del tiempo. Esto permite generar herramientas de monitorizacion de elementos productivos, aplicables principalmente al mantenimiento y al control de calidad. Sin embargo, este tipo de aproximaciones trabajan con sensores que envian datos de procesos dinamicos a alta velocidad en donde no es facil generar informacion util en el momento adecuado. Una parte del problema se refiere al procesamiento de una gran cantidad de datos, mientras que los fenomenos dinamicos subyacentes relacionados con la maquina posiblemente evolucionen con el tiempo dando lugar a un concept drift. Esto se debe a factores como la degradacion, algo completamente normal en los sistemas fisicos. Como resultado, cualquier modelo de datos puede volverse obsoleto y es necesaria su constante actualizacion. Para hacer frente a este problema, se propone una aproximacion desde el aprendizaje automatico no supervisado. Especificamente, el uso de algoritmos de clustering dinamicos. Para ello, se trabaja en una metodologia que primero estudia el rendimiento de los algoritmos de clustering en aplicaciones industriales. Posteriormente, se seleccionan aquellos algoritmos que tengan la capacidad de aportar nuevo conocimiento relacionado con los elementos productivos y sus patrones de degradacion. El siguiente paso es adaptar el algoritmo seleccionado al comportamiento dinamico de las maquinas y al trabajo con data streams, mucho mas cercano a la realidad industrial. De esta manera, partiendo de algoritmos de clustering como: -fi-medias, jerarquico aglomerativo, espectral, propagacion de afinidad y modelos de mixturas de Gaussianas, se selecciona este ultimo tipo como el mas apto para esta aplicacion. Se propone un nuevo algoritmo de aprendizaje no supervisado, denominado clustering probabilistico dinamico basado en mixturas de Gaussianas (GDPC). GDPC integra y adapta tres algoritmos conocidos para poder ser usados en escenarios dinamicos: el algoritmo de esperanza-maximizacion (EM) responsable de estimar los parametros del modelo de mixturas y el test de hipotesis de Page–Hinkley que junto con las cotas de Chernoff permiten detectar los concept drift. A diferencia de otros metodos no supervisados, el modelo inducido por el GDPC proporciona las probabilidades de asignacion de cada instancia a cada cluster o componente. Esto permite determinar, a traves de un analisis con el Brier score, la robustez de esta asignacion y su evolucion una vez detectado un concept drift. El GDPC trabaja con una ventana optima de datos reduciendo de manera importante las necesidades de potencia de computo. Sin embargo, el algoritmo requiere un conocimiento del dominio profundo con el fin de seleccionar correctamente los parametros (por ejemplo, el numero de componentes). Ademas, puede ser inestable debido a otro fenomeno encontrado comunmente en datos industriales relacionado con fases no estacionarias que ocurren cuando los elementos cambian de estado y se estabilizan en su valor esperado. De esta manera, se proponen una nueva version con serie de mejoras con el objetivo de aumentar el grado de robustez del algoritmo ante estas problematicas. Esta nueva version, denominada GDPC+, introduce las siguientes mejoras: (a) la seleccion automatica del numero de componentes de la mixtura de Gaussianas en funcion del criterio de informacion Bayesiano; y (b) la estabilizacion debida a los efectos transitorios, no estacionarios, durante el concept drift gracias a la integracion de la divergencia de Cauchy–Schwarz con el test de Dickey–Fuller aumentado. Por lo tanto, el GDPC+ tiene un mejor desempeno que el GDPC en terminos del numero de falsos positivos en aplicaciones altamente dinamicas. El desarrollo de estos algoritmos ha sido validado con pruebas sobre data stream de origen sintetico y tambien originados a partir de un banco de pruebas y una maquina-herramienta produciendo piezas reales, en este caso, ciguenales de automocion. Estos resultados se han validado en terminos de diferentes medidas como precision, recall, especificidad y F-score. Adicionalmente, partiendo de los resultados de clustering de datos reales de maquina, se han desarrollado conjuntos de reglas inducidas mediante un algoritmo de clasificacion supervisada con el fin de proporcionar informacion sobre el proceso subyacente y sus concept drift asociados. ----------ABSTRACT---------- The Fourth Industrial Revolution and in particular, the cyber-physical systems (CPS), have opened a wide range of opportunities in terms of performance analysis. They can be applied to fault diagnosis and prediction systems but also to improve the design of industrial products and processes optimization. In this way, the CPS communication capabilities at high-speed allow us to acquire, pre-process and process the data extracted from, e.g., machines, fundamental part of production processes. As a result, the degradation of machine elements subject to dynamic behavior can be detected more quickly by studying the patterns that produce the main operating variables over time. This allows the generation of fundamental monitoring tools, mainly applicable to maintenance and quality control. However, this type of approach works with sensors that send data from dynamic processes at high speed, where it is not easy to generate actionable insights at the right time. One part of the problem concerns the processing of a large amount of data, while the underlying dynamic phenomena related to the machine, possibly evolve over time giving rise to a concept drift. This is due to factors such as degradation, something common in physical systems. Thus, if the model becomes obsolete, an update is necessary. To deal with this problem, an approach from unsupervised machine learning is proposed. Specifically, through dynamic clustering algorithms. To do this, we work on a methodology that first allows us to study the behavior of clustering algorithms in industrial applications. Then, we select those algorithms that have the capabilities to provide new knowledge related to the productive elements and their degradation patterns. The next step is to adapt the selected algorithm to the dynamic behavior of the machines, working with data streams, much closer to the industrial reality. In this way, starting from clustering algorithms such as: K-means, agglomerative hierarchical, spectral, affinity propagation and Gaussian mixture models, the last one is selected as the most suitable for this type of application. A new unsupervised learning algorithm called Gaussian-based dynamic probabilistic clustering (GDPC) is proposed. GDPC integrates and adapts three known algorithms for use in dynamic scenarios: the expectation–maximization algorithm (EM) responsible for parameter estimation of the mixture model and the Page–Hinkley test together with the Chernoff bounds, to detect concept drift. Unlike other unsupervised methods, the model induced by GDPC provides the membership probabilities of each instance to each cluster or component. This allows us to determine, through an analysis with the Brier score, the membership robustness and its evolution each time a concept drift is detected. In addition, the algorithm works with few data needs and significantly less computing power, which allow the algorithm to decide when to change the model. However, this algorithm requires a thorough knowledge of the analyzed domain to correctly select parameters such as the number of components. Also, it may be unstable due to another common phenomenon found in industrial data related to non-stationary phases. Therefore, a series of improvements are proposed to increase the degree of robustness of the algorithm. This new version, called GDPC+, introduces the following improvements: (a) the automatic selection of the number of components of the mixture based on the Bayesian information criterion; and (b) the stabilization due to the transient effects during the concept drift thanks to the integration of the Cauchy–Schwarz divergence with the augmented Dickey– Fuller test. Therefore, GDPC+ can outperform the GDPC in highly dynamic scenarios in terms of the number of false positives. The development of these algorithms has been supported with tests on synthetic data streams and also data originated on testbeds and a machine-tool during real production, in this case, automotive crankshafts. These results have been validated in terms of different figures of merit like accuracy, recall, specificity and F-score. Additionally, based on the results of clustering of real machine data, sets of rules induced by a supervised algorithm were developed in order to provide insights about the underlying process and its related algorithm.

Volume None
Pages None
DOI 10.20868/upm.thesis.56472
Language English
Journal None

Full Text