在1940年代,數據科學的領域經歷了一次重要的革命,這場革命的核心是來自格倫德(Grenander)和卡爾洪(Karhunen)的影響,這兩位學者的研究為統計學的發展奠定了重要基礎。他們的工作不僅改變了對隨機過程的理解,也為後續的功能數據分析(FDA)奠定了理論基礎。
功能數據分析是研究那些在時間、空間或其他連續區間中變化的數據的統計學分支。
在此過程中,功能數據被視為隨機函數,每一個樣本元素代表一個隨機過程,這為數據分析開啟了新的視野。這一領域的發展源自於卡爾洪和格倫德對於時序隨機過程的分解研究,他們提出的特徵分解(Karhunen-Loève decomposition)方法現在依然是功能數據分析的基本理論工具。
回顧歷史,功能數據分析的根源可以追溯到1940年代和1950年代,當時的數據分析主要依賴於實證方法,缺乏對數據本質的深入理解。格倫德和卡爾洪的研究使學者們開始考慮如何將連續時間隨機過程分解成可解釋的特徵函數,這一方法在1970年代得到了進一步發展。
在1970年代,克萊費(Kleffe)、達克斯(Dauxois)和普斯(Pousse)對功能主成分分析進行了嚴謹的理論分析,提出了特徵值的漸近分佈結果。
隨著時間的推移,功能數據分析不再僅僅是一種理論研究,它逐漸向應用範疇延伸,並且針對不同觀測方案的影響進行深入的探討。隨著技術的進步,數據的獲取手段也在不斷演變,這也促進了該領域的快速發展。
在數學上,隨機函數可被視為在希爾伯特空間中取值的隨機元素。這一觀點妥善地結合了數學的便利性和應用的可行性。事實上,功能數據的處理需要考慮到其無窮維度的特性,這為理論和計算帶來了挑戰,但同時也為數據分析提供了豐富的信息源。
功能主成分分析(FPCA)是將無窮維功能數據降維為有限維隨機向量的重要工具。
透過將觀察到的隨機軌跡展開為以協方差算子的特徵函數為基底,FPCA能夠簡化數據的解析和處理,並在各行各業中發揮重要作用。此外,希爾伯特空間中的隨機變量理論,幫助學者們提高對數據的可解釋性與預測能力。
進入1990年代與2000年代,功能數據分析的研究重心逐漸轉向實際應用案例,學者們尤其關注於密集和稀疏觀測方案對數據分析的影響。在這個充滿挑戰的環境中,功能數據的實用性愈發凸顯,例如在生物醫學、環境科學乃至金融市場中的應用。
該領域的發展顯示了功能數據分析在理解複雜系統行為中的潛力,對於數據的精準處理不斷提出新的要求。
如今,隨著大數據時代的到來,傳統的數據處理方法無法滿足新興需求,這就迫使研究者不斷推陳出新,尋求創新的分析技術。在這個變化多端的數據環境中,功能數據分析正逐漸成為解決問題的重要工具。
隨著功能數據分析的不斷發展,它如何影響未來的統計學和數據科學?這是每位研究者應該深思的問題?