发布网友 发布时间:2023-05-28 09:59
共1个回答
热心网友 时间:2024-04-22 01:13
我们说的混合线性模型主要是由固定效应和随机效应所构成的,固定效应是我们主要研究的影响因素,而随机效应是潜在的,影响固定效应的因素。
对于混合线性模型来说,随机效应对固定效应的影响有两种:
一种是:
随机效应通过影响固定效应的截距,从而产生对固定效应的影响,我们把这个称为层次影响
第三种是:
这里参考了某大佬写的,GWAS利用的原理既是混合线性模型,如果是加型效应:
我们先看下不考虑随机效应的:
那么上图就构成了一元回归里面的数据点
我们的任务就是,找到合适的a,b使得:
最小,所以根据最小二乘法,对每一个回归系数求偏导,得到正规方程组,求解即可。
考虑随机效应,那么模型就变成了:
αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量
那么我们设计好矩阵,即哪一个表型受随机因素的影响:
根据最小二乘法对每一个回归系数求偏导,得到正规方程组,求解α,β系数矩阵即可
根据《Population structure in genetic studies: Confounding factors and mixed models》提到的建模方式
如果SNP没发生突变,Xjk取下面的式子,对应strain A,B:
如果SNP发生一种碱基的突变,Xjk取下面的式子,对应strain D,E:
如果两个SNP发生两种碱基的突变,Xjk取下面的式子对应strain C:
事实上这一步的主要目的还是把因子型变量转换为数值型变量,方便线性建模
回顾下模型:
e为随机因素
比方说目前有一个高血压的SNP的数据:
每一条序列可以看作是一个品种(处理),每一个品种(序列,处理)对应着不同的血压值。
那么以SNP为决策变量,不同的血压值为响应变量建立线性模型,当模型回归系数不为0,那么说明该SNP位点与血压这个性状有关联
这里有两个基本假设:第一个假设是H0假设,该假设也被称为null hypothesis,它认为SNP和性状没有关联,也即是说,性状 y 等于总体平均与环境因素的加和。
第二个假设是H1假设,该假设认为SNP和性状存在关系,也就是说当存在某个SNP的时候,某个性状或某个疾病会倾向于发生在该个体身上,β是指该SNP对性状影响的大小,也就是说, β越大,该SNP对性状的影响越大
显然left SNP对性状的影响更明显
为了让模型效果更好,作者引入了u,作为非模型因素
参考:
全基因组关联分析(GWAS)的计算原理
《Population structure in genetic studies: Confounding factors and mixed models》
David课件
https://genepi.qimr.e.au/staff/davidD/Course/