Hibayes

高效贝叶斯基因组选择工具,支持多种贝叶斯模型和大规模数据分析

1
2
3
4
数据输入

拖放基因型文件或点击上传

支持 PLINK (.bed/.bim/.fam), VCF, CSV 等格式

拖放表型文件或点击上传

包含个体ID和表型值的文本文件

拖放协变量文件或点击上传

如环境因子(温度、湿度)、田间区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
模型参数(BayesR)
BayesR 模型简介:

BayesR 将SNP效应划分为若干方差类别(通常为4类),使用混合正态先验。主要调参包括混合权重 pi 向量、MCMC 设置(迭代数、预热、采样间隔)以及是否自定义类别方差比例。

BayesR 通常使用 4 类:零效应 + 三个不同方差等级。
pi 向量长度应与类别数一致且和为1。
根据服务器/本机线程数选择
用于可重复结果
每隔多少次迭代在日志输出一次
交叉验证
关于 BayesR

BayesR 是 Hibayes R 包中基于混合正态先验的贝叶斯基因组选择模型。它将 SNP 效应划分为若干方差类别(例如:零效应 + 多个方差等级),通过混合权重 pi 向量控制各类别的先验概率,并可选择自定义类别方差比例(class_var)。BayesR 在处理既有稀疏效应又有中等/大效应的遗传架构时表现良好。

  • 将标记效应划分为零效应与多个不同方差等级,适用于复合遗传架构。
  • pi 向量指定每类的先验权重,长度应与类别数一致且和为 1。
  • 可通过 class_var 自定义类别方差比例(如 0, 0.01, 0.1, 1);如不提供,使用软件默认值。
  • 支持多线程并行(threads)与日志输出频率(printfreq)来控制运行性能与可观测性。
  • 常用推荐:4 类(0, 0.01, 0.1, 1),pi 推荐示例:0.95,0.02,0.02,0.01。
数据格式要求
BayesR 必需上传的数据:
  • 基因型数据文件(M):支持 PLINK (.bed/.bim/.fam)、VCF (.vcf/.vcf.gz) 或数值矩阵(0/1/2 编码),需包含所有分析个体的 SNP 信息。
  • 表型数据文件(data):包含个体ID和表型值(可多性状),文本格式(.txt/.csv),第一列为个体ID,后续列为表型。
  • 协变量/固定效应文件(可选):如环境因子、区组等,需与个体ID对应,文本格式(.txt/.csv)。
  • SNP 注释/位置信息(map,可选):进行窗口分析或曼哈顿图时需要,文本格式(.txt/.csv),应包含 SNP ID 与位置信息。
  • pi 与 class_var:如果选择自定义,pi 向量长度需等于类别数且和为 1;class_var 为每一类别的相对方差比例(可选)。

注意:BayesR 对 pi 向量与类别方差较为敏感。建议从稀疏预设开始,使用交叉验证或重复实验评估参数稳定性;若数据量较大,可适当增加迭代次数与线程数。