功能數據分析(Functional Data Analysis, FDA)是一門以曲線、表面或其他隨著連續變化的信息進行分析的統計學分支。在FDA框架下,每個功能數據樣本都被視為隨機函數。這些隨機函數通常被定義在時間這一物理連續體上,但也可以是空間位置、波長或概率等其他連續體。由於功能數據在本質上是無限維的,因此它們的高維度結構為我們提供了豐富的信息源,這也帶來了許多研究與數據分析的挑戰。
功能數據具有無限維度特性,這不僅勾勒出豐富的數據結構,同時也為數據理解增添了複雜性。
功能數據分析的根源可以追溯到20世紀40年代和50年代Grenander和Karhunen的工作。他們考慮了平方可積的連續時間隨機過程的特徵分解,這一方法如今被稱為Karhunen-Loève分解。在1970年代,Kleffe、Dauxois和Pousse對功能主成分分析進行了嚴謹的理論分析,並得到了一些有關特徵值漸近分佈的結果。進入90年代和2000年代,該領域的焦點逐步轉向應用,特別是稠密與稀疏觀測方案的效果。James O. Ramsay首先提出了“功能數據分析”這一術語。
隨機函數可以被視為取值於一個Hilbert空間的隨機元素,或作為一個隨機過程。這兩種方法相輔相成,但Hilbert空間的視角在數學上更為方便,而隨機過程則對於實際應用更為合適。其中的均方連續性條件同樣要求隨機函數在某種程度上的穩定性。
隨機函數在不同的應用中提供了多樣的角度,使得數據分析的手段更為豐富。
功能數據被視為隨機過程的實現。對於每個主題,樣本的觀察可以是在一個密集的網格上測量的,這在數學上是方便的,但在現實中很難達成。以Berkeley Growth Study為例,這些數據展示了在稠密設計下的功能數據分析。而在實際應用中,樣本也可能是稀疏的,並且還可能受到測量噪聲的影響。
功能主成分分析(FPCA)是FDA中最為常用的工具,部分原因在於FPCA能將本質上無限維的功能數據降維為有限維隨機向量的分數。這一方法通過在功能基底上展開隨機軌跡,將主成分分析的概念引入到功能數據中,並能夠捕捉到隨機變量之間的主要變異來源。
隨著數據的增長,功能數據分析在各個領域的應用越來越廣泛,例如生物醫學數據、環境監測數據等。在這些領域,功能數據的潛在模式不僅能幫助我們理解資料本身,還能協助我們做出更佳的預測。
然而,隨著技術的發展和分析模型的複雜性增加,功能數據分析的挑戰也不斷演變。這是否意味著,功能數據將在未來的研究中開啟新的視野與可能性?