语言家族的概念是基于各种语言之间的历史渊源关系。语言家族是由多种语言所组成,这些语言都是由一个共同的祖先语言演变而来。这一术语的使用很象生物学中的「家族」概念,语言学家的树状模型类似于进化分类学中的系统发生树。语言学家因此将语言家族中的「女儿语言」视为基因相关的。由一种原始语言衍生出女儿语言的过程通常是因为地理上的分隔,不同地区的方言在时间的推移下经历了不同的语言变化,最终成为独特的语言。
例如,众所周知的罗曼语言家族就包括西班牙语、法语、意大利语和葡萄牙语,这些语言皆源于俗拉丁语。
恶行说明,罗曼语言家族本身属于更大的印欧语系,包含了许多来自欧洲和南亚的语言,人们相信这些语言都起源于叫做原印欧语的共同祖先。语言家族一般至少包含两种语言,即使是语言孤立——即未与其他任何语言相关的语言——有时也被称为只包含一种语言的家族。反之,语言家族所包含的语言数量上限则没有限制,像是奥斯特洛尼西亚语言就包含了超过一千种。
许多语言的共同特征可以用来识别语言家族的成员。
语音变化是识别基因关系的有力证据,因为它们具有可预测和一致的特性,通过比较法可以用于重建原始语言。然而,语言之间的接触也可能造成语言变化,这会误导学者认为它们之间存在基因关系。例如,蒙古语、通古斯语和突厥语之间存在很多相似之处,这让一些学者相信它们是有关联的。可后来发现这些相似性是因为语言接触造成的,因此它们并不真正相关。即使是最古老的可证明语言家族——亚非语系,其实质上也远比语言本身年轻。
关于世界上语言家族的数量估计差异很大。根据《Ethnologue》,目前存在7151种人类语言,这些语言分布于142个不同的语言家族。 Lyle Campbell(2019)识别出406个独立的语言家族,包括孤立语。根据《Ethnologue 27》(2024),以下语言家族至少包含1%的已知语言:
根据Glottolog 5.0(2024),以下是大型语言家族的列表,总计7788种语言(不包括手语、混合语和难以分类的语言):
根据语言使用的不同,语言计数可能会显著变化。
在语言家族中,基因关系的确立依赖于语言变化过程,两种语言若为同一语言家族的成员,则必是因为它们都源自于同一共同的祖先语言。这一概念的建立在某些语言的历史记录中得到明证,譬如罗曼语言,其成员均源于拉丁语。尽管某些语言的基因关系未在记录中直接证明,例如,罗曼语言和北日耳曼语言彼此相关,皆为印欧语族的子家族,但原印欧语的证据并未保留。
语言之间的接触可导致语言彼此间的影响,无论是通过借用或其他方式。例如,法语对英语的影响,阿拉伯语对波斯语的影响等。这种影响形式不等同于语言之间的基因关系。
虽然语言的接触可以导致语言之间的相互影响,但这并不构成基因关系的标志。
面对语言的多样性与复杂性,语言家族结构并不是绝对的。尤其在某些特殊因素的影响下,一些语言独立于其他语言的分类之外,形成语言孤立。根据Glottolog的统计,全球现今总计有423个语言家族,其中184个属于语言孤立。举例来说,巴斯克语就是一种孤立语。
在探讨语言的演变与接触时,我们是否应该更深入了解语言存在的根源?