等位基因频率计算器 - 哈迪-温伯格工具

根据基因型计数或直接等位基因输入,计算任意群体的等位基因频率、基因型频率和哈迪-温伯格平衡。

输入基因型计数(AA、Aa、aa)或直接等位基因计数,即可计算 p、q、预期基因型频率以及 HWE 卡方检验。

等位基因频率计算器 - 哈迪-温伯格工具
根据基因型计数或直接等位基因输入,计算任意群体的等位基因频率、基因型频率和哈迪-温伯格平衡。

关于等位基因频率计算器

等位基因频率计算器是一款群体遗传学工具,用于计算描述群体内遗传变异的基本指标:每个等位基因的频率、每种基因型的频率,以及该群体是否处于哈迪-温伯格平衡(HWE)。这些计算对于遗传学和进化生物学课程、临床遗传学、保护生物学,以及任何涉及群体层面 DNA 数据的研究都至关重要。 等位基因频率是群体遗传学中最简单也最重要的汇总统计量。对于由显性等位基因 A 和隐性等位基因 a 组成的双等位基因系统,等位基因频率记为 p(A 的频率)和 q(a 的频率),并要求 p + q = 1。根据基因型计数计算时,p = (2 × AA + Aa) / (2 × N),其中 N 为二倍体个体总数。分母 2N 是群体中的等位基因总数,因为每个二倍体个体携带两个拷贝。若使用直接等位基因计数,则 p = A / (A + a),q = a / (A + a)。 基因型频率描述群体中携带三类二倍体基因型的比例:AA(显性纯合)、Aa(杂合)和 aa(隐性纯合)。观测基因型频率就是各计数除以 N。哈迪-温伯格平衡下的预期基因型频率分别为 p²、2pq 和 q²,由哈迪-温伯格原理预测。 哈迪-温伯格原理指出,在一个规模大、随机交配且不存在突变、迁移、自然选择或遗传漂变的群体中,等位基因和基因型频率会在世代之间保持不变。HWE 下的预期基因型计数为 AA 的 p² × N、Aa 的 2pq × N,以及 aa 的 q² × N。当观测基因型计数与这些预期显著不同时,该群体被认为偏离 HWE,这可能提示近亲繁殖、群体分层、作用于该位点的自然选择,或实验室数据中的基因分型错误。 卡方检验提供了一个正式的统计框架,用于判断偏离 HWE 的程度是否大于随机机会所能解释的范围。检验统计量是在三类基因型中对 (观测值 − 预期值)² / 预期值 求和。在一个自由度(2 个等位基因、3 种基因型、1 个约束)下,p = 0.05 的临界值为 3.841。卡方值低于 3.841 与 HWE 一致;高于该值则表示存在统计学显著偏离。 实际应用范围很广。在临床遗传学中,检测某个 SNP 是否符合 HWE 是标准质量控制步骤——对照基因分型数据中系统性的 HWE 偏离会提示批次效应或基因分型错误。在保护生物学中,小型或片段化群体偏离 HWE 可能表示近交衰退或遗传瓶颈。在法医遗传学中,HWE 假设是用于计算 DNA 图谱随机匹配概率的乘积法则基础。理解疾病相关等位基因的 p 和 q 也能帮助流行病学家使用 2pq 公式估计携带者频率。

等位基因频率示例

展示基因型计数、等位基因频率和哈迪-温伯格预期值的真实群体场景。

群体p / qHWE 评估
50 AA,30 Aa,20 aa (N=100)p = 0.6500,q = 0.3500预期:AA 42.25,Aa 45.50,aa 12.25。卡方 ≈ 7.14 — 偏离 HWE。
10 AA,80 Aa,10 aa (N=100)p = 0.5000,q = 0.5000以杂合子为主。预期:AA 25,Aa 50,aa 25。卡方 ≈ 36 — 明显偏离 HWE(杂合子过量)。
120 个 A 等位基因,80 个 a 等位基因p = 0.6000,q = 0.4000直接等位基因输入模式。N 估计为 100。预期:AA 36,Aa 48,aa 16。
3 AA,2 Aa,5 aa (N=10)p = 0.4000,q = 0.6000小群体。预期:AA 1.6,Aa 4.8,aa 3.6。样本量较小时,HWE 检验不可靠。

如何使用等位基因频率计算器

  1. 选择输入方式:如果有 AA、Aa 和 aa 计数,选择“基因型计数”;如果有每个等位基因的直接计数,选择“等位基因计数”。
  2. 基因型计数:输入显性纯合(AA)、杂合(Aa)和隐性纯合(aa)个体数量。
  3. 等位基因计数:输入 A 等位基因和 a 等位基因的数量。也可输入个体总数,以获得按规模换算的 HWE 预期计数。
  4. 点击“计算”。工具会显示 p 和 q、总 N、HWE 下的预期基因型计数,以及(对基因型输入)HWE 偏离的卡方检验。
  5. 点击“重置”清空所有字段并开始新的计算。

等位基因频率计算器常见问题

遗传学中的 p 和 q 代表什么?
在双等位基因系统中,p 是显性等位基因(A)的频率,q 是隐性等位基因(a)的频率。它们的和始终为 1(p + q = 1),因为该位点上的每个等位基因必须是 A 或 a。等位基因频率范围从 0(等位基因不存在)到 1(等位基因在群体中固定)。
什么是哈迪-温伯格平衡?
哈迪-温伯格平衡(HWE)描述的是群体中等位基因和基因型频率在世代间保持恒定的理论状态。它需要五个条件:群体规模大、随机交配、无突变、无迁移且无自然选择。在 HWE 下,预期基因型频率为 p²(AA)、2pq(Aa)和 q²(aa)。
为什么我的群体会偏离 HWE?
HWE 偏离的常见原因包括近亲繁殖(降低杂合度)、群体分层(遗传上不同的亚群混合)、该位点受到强自然选择、近期迁移,或实验室数据中的基因分型错误。纯合子过量提示近亲繁殖;杂合子过量可能提示群体分层或杂合子优势。
如何解释 HWE 的卡方检验?
卡方统计量衡量观测基因型计数与预期计数之间的差异。在 1 个自由度下,低于 3.841 的值在 5% 水平上不具统计学显著性(与 HWE 一致)。高于 3.841 的值表示显著偏离 HWE。请注意,当样本量很小(N < 20)时,卡方近似不可靠,最好使用精确检验。
这个计算器可以用于 X 连锁位点吗?
这里显示的标准哈迪-温伯格公式适用于常染色体位点。对于 X 连锁位点,男性为半合子(只携带一个等位基因),因此男性隐性表型的频率等于 q,而不是 q²。需要单独进行 X 连锁 HWE 分析,不过从女性基因型计数计算等位基因频率(p 和 q)时使用相同公式。
常见疾病变异的典型等位基因频率是多少?
全基因组关联研究(GWAS)识别出的常见疾病相关 SNP 通常具有 0.05 到 0.50 之间的次要等位基因频率(MAF)。罕见孟德尔病变异的频率可能远低于 0.01(1%)。隐性疾病的携带者频率等于 2pq,因此当隐性等位基因 q = 0.01 时,携带者频率约为 2 × 0.99 × 0.01 ≈ 2%。