Hibayes

高效贝叶斯基因组选择工具,支持多种贝叶斯模型和大规模数据分析

1
2
3
4
数据输入

拖放基因型文件或点击上传

支持 PLINK (.bed/.bim/.fam), VCF, CSV 等格式

拖放表型文件或点击上传

包含个体ID和表型值的文本文件

拖放协变量文件或点击上传

如环境因子(温度、湿度)、田间区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
模型参数
BayesA 模型简介:
  • 每个基因标记都有独立的效应值,适合复杂遗传结构
  • 自动估计每个标记的方差,避免假设所有标记相同
  • 通过多个独立参数精确建模不同标记的贡献
  • 特别适合标记效应差异较大的性状分析

拖放SNP注释文件或点击上传

包含SNP位置信息的文本文件
用于基因组窗口分析的SNP窗口大小
精度越高结果越准确,但计算时间越长
线程数越多计算越快,但需要更多内存
用于保证每次分析结果一致,便于比较
BayesL (Bayesian Lasso)
BayesL 简介:
  • Bayesian Lasso 对 SNP 效应使用双指数(Laplace)先验,相当于 L1 正则化。
  • 主要参数:lambda(惩罚强度)、MCMC 控件(niter/nburn/thin)、threads、printfreq 等。
建议从 0.001 到 0.1 之间尝试。
标准:niter=20000, nburn=10000, thin=10
交叉验证
关于 bayesa

Hibayes 是一个高效的贝叶斯基因组选择R包,专门用于大规模SNP数据的基因组预测分析。

  • 支持多种贝叶斯模型 (BayesA/B/C/R/L)
  • 高效的MCMC算法实现
  • 并行计算加速
  • 基因组窗口分析
  • 交叉验证预测精度
数据格式
用户需上传的数据:
  • 基因型数据文件(M):支持 PLINK (.bed/.bim/.fam)、VCF (.vcf/.vcf.gz)、数值矩阵 (0/1/2编码) 格式,需包含所有分析个体的SNP信息。
  • 表型数据文件(data):需包含个体ID和表型值,支持多性状,文本格式(.txt/.csv),第一列为个体ID,第二列及以后为性状值。
  • 协变量/固定效应文件(可选):如环境因子(温度、湿度)、田间区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
  • SNP注释文件(map,可选):如需窗口分析,需包含SNP位置信息,文本格式(.txt/.csv)。

基因型数据:

  • PLINK格式 (.bed/.bim/.fam)
  • VCF格式 (.vcf/.vcf.gz)
  • 数值矩阵 (0/1/2编码)

表型数据:

  • 制表符或逗号分隔
  • 第一列:个体ID
  • 第二列:表型值
资源估算
1万个体 × 5万标记: ~2GB 内存
2万迭代 × 4线程: ~10分钟
输出文件大小: ~100MB