Hibayes
高效贝叶斯基因组选择工具,支持多种贝叶斯模型和大规模数据分析
1
2
3
4
数据输入
拖放基因型文件或点击上传
支持 PLINK (.bed/.bim/.fam), VCF, CSV 等格式拖放表型文件或点击上传
包含个体ID和表型值的文本文件拖放协变量文件或点击上传
如环境因子(温度、湿度)、田间区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。模型参数
BayesC 模型简介:
- 智能区分有效和无效基因标记,部分标记效应为零
- 所有有效标记采用统一的方差,计算更稳定
- 通过 pi 参数控制有效标记的比例
- 适合大多数常规育种性状分析
pi 值越大,模型选择的有效标记越少
标准精度:迭代20,000次,预热10,000次,采样间隔10次,平衡速度和准确性
根据计算机性能选择
进度输出频率
交叉验证
关于 bayesc
BayesC 是 Hibayes R 包中的一种贝叶斯基因组选择模型,假定部分 SNP 效应为零,部分服从正态分布。通过 pi 参数控制零效应 SNP 的比例,适用于大规模基因型数据的稀疏效应建模。
- 假定 SNP 效应分布为:部分为零,部分为正态分布
- pi 参数决定 SNP 被选择为零效应的概率(推荐 0.95)
- 与 BayesA/B 不同,BayesC 采用统一的方差参数
- 适合高维、稀疏遗传结构场景
- 支持多线程并行与窗口分析
数据格式要求
BayesC 必需上传的数据:
- 基因型数据文件(M):支持 PLINK (.bed/.bim/.fam)、VCF (.vcf/.vcf.gz)、数值矩阵 (0/1/2编码),需包含所有分析个体的 SNP 信息。
- 表型数据文件(data):需包含个体ID和表型值,支持多性状,文本格式(.txt/.csv),第一列为个体ID,第二列及以后为性状值。
- 协变量/固定效应文件(可选):如环境因子、区组、处理方式等,需与个体ID对应,文本格式(.txt/.csv)。
- SNP注释文件(map,可选):如需窗口分析,需包含SNP位置信息,文本格式(.txt/.csv)。
BayesC 模型数据要求:
- 基因型数据:PLINK、VCF 或 0/1/2 数值矩阵
- 表型数据:个体ID+性状值,支持多性状
- 协变量/固定效应:可选,需与个体ID对应
- SNP注释文件:可选,窗口分析时必需
- pi 参数:决定零效应 SNP 比例,影响模型稀疏性
注意:BayesC 模型对数据稀疏性和 SNP 选择概率(pi)较为敏感,建议根据实际遗传结构调整参数。
资源估算
1万个体 × 5万标记:
~2GB 内存
2万迭代 × 4线程:
~10分钟
输出文件大小:
~100MB