Hibayes

高效贝叶斯基因组选择工具,支持多种贝叶斯模型和大规模数据分析

1
2
3
4
数据输入

拖放基因型文件或点击上传

支持 PLINK (.bed/.bim/.fam), VCF, CSV 等格式

拖放表型文件或点击上传

包含个体ID和表型值的文本文件

拖放协变量文件或点击上传

如环境因子(温度、湿度)、田间区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
模型参数
BayesC 模型简介:
  • 智能区分有效和无效基因标记,部分标记效应为零
  • 所有有效标记采用统一的方差,计算更稳定
  • 通过 pi 参数控制有效标记的比例
  • 适合大多数常规育种性状分析
pi 值越大,模型选择的有效标记越少
标准精度:迭代20,000次,预热10,000次,采样间隔10次,平衡速度和准确性
根据计算机性能选择
保证结果可重复
进度输出频率
交叉验证
关于 bayesc

BayesC 是 Hibayes R 包中的一种贝叶斯基因组选择模型,假定部分 SNP 效应为零,部分服从正态分布。通过 pi 参数控制零效应 SNP 的比例,适用于大规模基因型数据的稀疏效应建模。

  • 假定 SNP 效应分布为:部分为零,部分为正态分布
  • pi 参数决定 SNP 被选择为零效应的概率(推荐 0.95)
  • 与 BayesA/B 不同,BayesC 采用统一的方差参数
  • 适合高维、稀疏遗传结构场景
  • 支持多线程并行与窗口分析
数据格式要求
BayesC 必需上传的数据:
  • 基因型数据文件(M):支持 PLINK (.bed/.bim/.fam)、VCF (.vcf/.vcf.gz)、数值矩阵 (0/1/2编码),需包含所有分析个体的 SNP 信息。
  • 表型数据文件(data):需包含个体ID和表型值,支持多性状,文本格式(.txt/.csv),第一列为个体ID,第二列及以后为性状值。
  • 协变量/固定效应文件(可选):如环境因子、区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
  • SNP注释文件(map,可选):如需窗口分析,需包含SNP位置信息,文本格式(.txt/.csv)。

BayesC 模型数据要求:

  • 基因型数据:PLINK、VCF 或 0/1/2 数值矩阵
  • 表型数据:个体ID+性状值,支持多性状
  • 协变量/固定效应:可选,需与个体ID对应
  • SNP注释文件:可选,窗口分析时必需
  • pi 参数:决定零效应 SNP 比例,影响模型稀疏性

注意:BayesC 模型对数据稀疏性和 SNP 选择概率(pi)较为敏感,建议根据实际遗传结构调整参数。

资源估算
1万个体 × 5万标记: ~2GB 内存
2万迭代 × 4线程: ~10分钟
输出文件大小: ~100MB