語言家族的概念是基於各種語言之間的歷史淵源關係。語言家族是由多種語言所組成,這些語言都是由一個共同的祖先語言演變而來。這一術語的使用很象生物學中的「家族」概念,語言學家的樹狀模型類似於進化分類學中的系統發生樹。語言學家因此將語言家族中的「女兒語言」視為基因相關的。由一種原始語言衍生出女兒語言的過程通常是因為地理上的分隔,不同地區的方言在時間的推移下經歷了不同的語言變化,最終成為獨特的語言。
例如,眾所周知的羅曼語言家族就包括西班牙語、法語、意大利語和葡萄牙語,這些語言皆源於俗拉丁語。
惡行說明,羅曼語言家族本身屬於更大的印歐語系,包含了許多來自歐洲和南亞的語言,人們相信這些語言都起源於叫做原印歐語的共同祖先。語言家族一般至少包含兩種語言,即使是語言孤立——即未與其他任何語言相關的語言——有時也被稱為只包含一種語言的家族。反之,語言家族所包含的語言數量上限則沒有限制,像是奧斯特洛尼西亞語言就包含了超過一千種。
許多語言的共同特徵可以用來識別語言家族的成員。
語音變化是識別基因關系的有力證據,因為它們具有可預測和一致的特性,通過比較法可以用於重建原始語言。然而,語言之間的接觸也可能造成語言變化,這會誤導學者認為它們之間存在基因關係。例如,蒙古語、通古斯語和突厥語之間存在很多相似之處,這讓一些學者相信它們是有關聯的。可後來發現這些相似性是因為語言接觸造成的,因此它們並不真正相關。即使是最古老的可證明語言家族——亞非語系,其實質上也遠比語言本身年輕。
關於世界上語言家族的數量估計差異很大。根據《Ethnologue》,目前存在7151種人類語言,這些語言分佈於142個不同的語言家族。Lyle Campbell(2019)識別出406個獨立的語言家族,包括孤立語。根據《Ethnologue 27》(2024),以下語言家族至少包含1%的已知語言:
根據Glottolog 5.0(2024),以下是大型語言家族的列表,總計7788種語言(不包括手語、混合語和難以分類的語言):
根據語言使用的不同,語言計數可能會顯著變化。
在語言家族中,基因關係的確立依賴於語言變化過程,兩種語言若為同一語言家族的成員,則必是因為它們都源自於同一共同的祖先語言。這一概念的建立在某些語言的歷史記錄中得到明證,譬如羅曼語言,其成員均源於拉丁語。儘管某些語言的基因關係未在記錄中直接證明,例如,羅曼語言和北日耳曼語言彼此相關,皆為印歐語族的子家族,但原印歐語的證據並未保留。
語言之間的接觸可導致語言彼此間的影響,無論是通過借用或其他方式。例如,法語對英語的影響,阿拉伯語對波斯語的影響等。这種影響形式不等同於語言之間的基因關系。
雖然語言的接觸可以導致語言之間的相互影響,但這並不構成基因關係的標誌。
面對語言的多樣性與複雜性,語言家族結構並不是絕對的。尤其在某些特殊因素的影響下,一些語言獨立於其他語言的分類之外,形成語言孤立。根據Glottolog的統計,全球現今總計有423個語言家族,其中184個屬於語言孤立。舉例來說,巴斯克語就是一種孤立語。
在探討語言的演變與接觸時,我們是否應該更深入了解語言存在的根源?