Desde su primera introducción en 2020, el campo de radiación neuronal (NeRF), como método basado en el aprendizaje profundo, se ha convertido gradualmente en una tecnología clave para la reconstrucción de escenas 3D. Puede recuperar representaciones de escenas tridimensionales a partir de imágenes 2D y muestra un gran potencial en campos como los gráficos por computadora y la creación de contenido. NeRF no solo es adecuado para la síntesis de perspectivas novedosas, sino que también puede reconstruir la geometría de la escena y obtener las propiedades reflectantes de la escena. Si bien esta tecnología tiene sus desafíos, las innovaciones que aporta son ciertamente emocionantes.
El núcleo del algoritmo NeRF es representar la escena como un campo de radiación parametrizado por una red neuronal profunda. Esta red es capaz de predecir la densidad volumétrica y la radiación dependiente de la vista en función de las coordenadas espaciales (x, y, z) y los ángulos de visión (θ, Φ). Las técnicas tradicionales de renderizado de volumen generan imágenes mediante muestreo múltiple a lo largo de los rayos de la cámara.
Para entrenar un modelo NeRF, primero debe recopilar imágenes de la escena desde diferentes ángulos y las correspondientes poses de la cámara. Estas imágenes no requieren equipo de fotografía especializado y cualquier cámara puede generar el conjunto de datos, siempre que la configuración y los métodos de captura cumplan con los requisitos de Structure from Motion (SfM). Los investigadores suelen evaluar NeRF y tecnologías relacionadas utilizando datos sintéticos, que reproducen con precisión imágenes y poses de la cámara.
En cada punto de vista disperso (imagen y pose de la cámara), los rayos de la cámara se repiten a través de la escena, generando un conjunto de puntos 3D con direcciones radiativas específicas. Para estos puntos, se utiliza un perceptrón multicapa (MLP) para predecir la densidad volumétrica y la radiación. Este proceso totalmente diferenciable permite minimizar el error entre la imagen predicha y la imagen original mediante el descenso de gradiente, lo que permite a MLP desarrollar un modelo coherente de la escena.
Las versiones anteriores de NeRF tardaban más en optimizarse y requerían que todas las vistas de entrada se capturaran bajo las mismas condiciones de iluminación. Desde 2020, se han aplicado muchas mejoras al algoritmo NeRF para adaptarse a escenarios de uso específicos. Esto incluye la introducción de mapas de funciones de Fourier para acelerar el entrenamiento y mejorar la precisión de la imagen.
El mapeo de características de Fourier puede converger rápidamente a funciones de alta frecuencia, mejorando así significativamente los detalles de la imagen.
Debido a que NeRF depende de poses de cámara precisas, las imperfecciones generadas durante su proceso de entrenamiento afectarán los resultados finales. Con este fin, se desarrolló la tecnología BARF (Bundle-Adjusting Neural Radiance Field) para optimizar las funciones de pose y volumen de la cámara y mejorar la calidad de renderizado. Además, a través de una variedad de nuevas tecnologías, como la representación multiescala y la inicialización del aprendizaje, los investigadores continúan superando los desafíos de NeRF en la representación detallada.
A medida que la tecnología NeRF se vuelve más popular, su alcance de aplicación también se expande. Desde la creación de contenidos hasta las imágenes médicas, NeRF ha demostrado su potencial en muchas industrias. En el campo de la creación de contenidos, el uso de la tecnología NeRF permite a cualquier persona con un equipo de fotografía crear entornos tridimensionales realistas, rebajando significativamente la barrera de entrada.
El desarrollo de NeRF no solo se mantiene en el nivel técnico, sino que también puede integrarse en más escenarios de aplicación en el futuro para brindar una experiencia visual de mayor calidad. Con el desarrollo de esta arquitectura de aprendizaje profundo, habrá cada vez más cambios y desafíos que deberán superarse. ¿Puede NeRF liderar una nueva ronda de revolución visual?