Archive | 2019

Developments in probabilistic graphical models, circular distributions and theory of random forests with applications in neuroscience

 

Abstract


En inteligencia artificial, la disciplina del aprendizaje automatico se ha instaurado como el buque insignia del campo de estudio. La era del Big data, en la que volumenes cada vez mayores de datos son accesibles por el publico general, requiere de herramientas que sean capaces de concisarlos y manipularlos correctamente. Por este motivo, en la actuallidad se estan invirtiendo notables esfuerzos para el desarrollo de nuevos metodos para el aprendizaje y deteccion de patrones en los datos. En este entorno, tecnicas como las redes bayesianas y los bosques aleatorios atesoran exito a nivel de aplicacion. Sin embargo, desarrollos teoricos para el campo en general y para muchos metodos en particular son menos abundantes, y el consenso general es que aun no entendemos muchos aspectos de porque funcionan los mejores algoritmos. En esta disertacion, exploramos tanto la vertiente teorica como la practica del aprendizaje automatico con un enfoque multienfatico que cubre varias tecnologias. Para la vertiente mas teorica, nuestras contribuciones abarcan dos ramas: Estadistica pura y teoria de bosques aleatorios. En el primer caso desarrollamos la distribucion de probabilidad circular von Mises truncada univariante y bivariante. Estas distribuciones pueden ser entendidas como una generalizacion de la conocida distribucion von Mises, que implica la adiccion de dos o cuatro nuevos parametros en el caso de la univariante o bivariante, respectivamente. Las contribuciones incluyen la definicion, propiedades de la distribucion y estimadores de maxima verosimilitud para los casos univariante y bivariante. Adicionalmente, el analisis del caso bivariante muestra como la distribucion condicionada es una distribucion von Mises truncada, mientras que la marginal es una generalizacion de la marginal no truncada. Tambien mostramos su rendimiento a la hora de modelar datos sobre los angulos de inclinacion de las hojas. En el segundo caso abordamos el problema de bosques aleatorios para regresion expresados como sumas de puntos. Estudiamos el comportamiento teorico de los fc-vecinos potenciales mas cercanos bajo agregacion de muestras bootstrap {bagging) y obtenemos una cota superior en los pesos de un punto para bosques aleatorios equipados con cualquier tipo de regla de corte {splitting criterion), si utilizamos arboles sin poda que dejan de crecer cuando hay k o menos puntos en sus hojas. Ademas, utilizamos la cota anterior junto con el nuevo concepto de b-terms (o terminos de bootstrap) para derivar expresiones explicitas para los pesos de puntos del selector aleatorio de fc-vecinos potenciales mas cercanos, una estrategia de seleccion de puntos que tambien introducimos, y para construir un marco de trabajo que nos permite derivar otros estimadores que utilizan agregacion de muestras bootstrap mediante un procedimiento similar. Finalmente, derivamos la expresion explicita de los pesos de un estimador de regresion equivalente a un estimador bosque aleatorio para regresion equipado con una regla de corte aleatoria y demostramos su equivalencia tanto a nivel teorico como practico. Para la vertiente mas practica de esta disertacion, desarrollamos dos trabajos: Un analisis estadistico que emplea la distribucion von Mises truncada anteriormente definida y un clasificador multidimensional con redes bayesianas. En ambos casos, estudiamos datos neuronales en un esfuerzo por adquirir conocimiento de valor neurocientifico. Para el primer trabajo, analizamos angulos de bifurcacion de dendritas basales de neuronas piramidales de las capas III y V del cortex temporal humano. Para ello, utilizamos la distribucion von Mises truncada, mostrando que es capaz de describir con mayor precision los angulos de bifurcacion dendritica que anteriores propuestas. A continuacion, realizamos estudios comparativos utilizando este y otros metodos estadisticos para determinar similitudes y/o diferencias entre ramas y angulos de bifurcacion que pertenecen a diferences capas corticales y regiones, entre otras comparativas. Finalmente, presentamos un classificador gaussiano multidimensional clase-puente descomponible (class-bridge decomposable multidimensional Gaussian network classifier) como un modelo de alto rendimiento e interpretable, para procesar las diferencias morfologicas que existen entre diferentes neuronas cuando variamos la especie, el genero, la region del cerebro, el tipo de celula y el estado de desarrollo del animal de origen, asi como para tratar de avanzar en la resolucion del problema de la complejidad de inferencia en clasificadores multidimensionales. Ademas, este trabajo incluye un algoritmo de aprendizaje de estructura que hace uso de la propiedad clase-puente descomponible para aliviar la complejidad de inferencia, que usamos para aprender estructuras de redes complejas no limitadas topologicamente que tienen en cuenta relaciones entre diferentes clases. El modelo es entrenado con datos de NeuroMorpho (v5.7) y despues es utilizado para realizar predicciones precisas de todas las clases simultaneamente para nuevas muestras y, dada su interpretabilidad, para la extraccion de conocimiento en neurociencia. ----------ABSTRACT---------- In artificial intelligence, the discipline of machine learning has emerged as the flagship of the field of study. The era of big data, where increasingly large amounts of data are available to the public, requires of tools that summarize and manipulate it correctly. For this reason, substantial effort is invested nowadays in the development of new methods for learning and detecting patterns in the data. In this environment, techniques such as Bayesian networks and random forests enjoy success at a practical level. However, theoretical developments for the field in general and for many methods in particular are less abundant than desired, and the general consensus is still that we do not understand many aspects of why the best performing algorithms work. In this dissertation, we explore both the theoretical and practical branches of machine learning with a multi-focused approach that spans across various technologies. In the purely theoretical side, we cover contributions to two branches: pure statistics and the theory of random forests. In the first case we develop the univariate and bivariate truncated von Mises probability distributions for circular statistics. These distributions can be understood as a generalization of the well-known von Mises distribution that implies the addition of two or four new truncation parameters in the univariate and, bivariate cases, respectively. The contributions include the definition, properties of the distribution and maximum likelihood estimators for the univariate and bivariate cases. Additionally, the analysis of the bivariate case shows how the conditional distribution is a truncated von Mises distribution, whereas the marginal is a generalization of the non-truncated marginal distribution. We also show its performance modeling data of leaf inclination angles. In the second case we tackle the problem of random forests for regression expressed as weighted sums of datapoints. We study the theoretical behavior of k-potential nearest neighbors under bagging and obtain an upper bound on the weights of a datapoint for random forests with any type of splitting criterion, provided that we use unpruned trees that stop growing only when there are k or less datapoints at their leaves. Moreover, we use the previous bound together with the new concept of b-terms (i.e., bootstrap terms), to derive the explicit expression of weights for datapoints in a random k-potential nearest neighbors selection setting, a datapoint selection strategy that we also introduce, and build a framework to derive other bagged estimators using a similar procedure. Finally, we derive from our framework the explicit expression of weights of a regression estimate equivalent to a random forest regression estimate with random splitting criterion and demonstrate its equivalence both theoretically and practically. For the practical branch of this dissertation, we have two remaining works: A statistical analysis that uses the previously defined truncated von Mises distribution and a multidimensional Bayesian network classifier. In both cases, we study neuronal data in an effort to gain insights of neuroscientific value. For the first work, we analyze branching angles of the basal dendrites of pyramidal neurons of layers III and V of the human temporal cortex. For this, we use the truncated von Mises distribution, showing that is able to describe more accurately the dendritic branching angles than previous proposals. Then, we perform comparative studies using this and other statistical methods to determine similarities and/or differences between branches and branching angles that belong to different cortical layers and regions, among other comparisons. Finally, a class-bridge decomposable multidimensional Gaussian network is presented as an interpretable and high-performing model, to account for the morphological differences that exist between different neurons when varying the species, gender, brain region, cell types and developmental stage of the animal of origin, and to tackle the problem of inference complexity in multidimensional classifiers. This work includes a structural learning algorithm that, for continuous nodes and discrete features, makes use of the CB-decomposability property to alleviate the inference complexity and uses it to learn topologically unrestricted complex network structures that take into account relationships between classes. The model is trained with data from NeuroMorpho (v5.7) and it is then used for accurate prediction of all classes simultaneously for new examples and, given its interpretability, to extract knowledge at a neuroscience level.

Volume None
Pages None
DOI 10.20868/upm.thesis.56990
Language English
Journal None

Full Text