基于机器学习的miRNA靶基因预测算法研究概况

更新时间:2024-04-28 14:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

基于机器学习的miRNA靶基因预测算法研究概况

摘要:首先小结目前所发现的mirna:mrna对的统计特征,然后对基于机器学习的各类靶基因预测算法逐一作研究,最后对现有靶基因预测算法的研究现状及优缺点给出系统的结论。 关键词:micrornas;靶基因预测;生物信息学;rna干扰 图1mirna:target绑定结构

由于已知靶标数目有限,而预测结果不精确,因此上述特征不全面且易导致偏倚。

2各类机器学习靶基因预测算法 2.1pictar

pictar认为基因3’utr序列是由mirna绑定点及背景序列组成。在考虑一个utr被m个mirna同时作用的情况时,该隐马尔科夫模型有1+m个隐含状态,状态间概率为pi,示转换为背景序列的概率,pi

i∈{0,…,m} ,p0表

i∈{1,…,m}表示从当前状态到第

i个mirna绑定点位的概率。当某mirna绑定点位状态被选择,代表mirna绑定点位7nt或8nt长的序列会被产生,而此绑定点位是完全种子匹配的概率为p,非完全种子匹配的概率为1-p;否则会产生碱基以表示转移到背景序列状态。pictar利用baum

welch

算法来计算3’utr序列是由此隐马尔科夫模型产生的最大似然概率。 2.2mitarget

mitarget基于svm。为训练mitarget,从各种已发表学术文献中

收集152对阳性mirna:site和83对阴性mirna:site,为增加阴性数据集数量,从let-7:lin41、let-7:lin-28提取出113个阴性mirna:site。对任一mirna:site对,mitarget将其首尾相连形成单链序列,利用rnafold产生此序列的二级结构以代表mirna和site绑定结构。基于此绑定结构,观察第1~20nt的匹配状态,提取20个基于位置的特征,通过分析种子区、非种子区以及整个绑定区的匹配、错配、其它匹配状态以及各区域绑定能等共21个基于区域的特征,mirna:site表示为一个包含41个特征的特征向量。 2.3rna22

rna22是2006年开发的算法。首先利用rfam3.0中354个mirna序列为训练集,利用teiresias算法从中发挖长度可变的模序。其次以3-nt模组为最小单位,统计出现频率。随后rna22假设二阶马尔科夫链是将3-nt模组“组装”成模序的引擎,并基于此假设计算每个模序的存在概率。 2.4genmir

genmir发布于2007年,现有genmir、genmir++、genmir3 3个版本,基本思想是在其它基于序列的算法预测结果的基础上,建立贝叶斯生成模型以反映mirna对其靶标的调控作用,根据mrna和mirna表达水平数据推断靶基因。其推论基于两条假设:①特定组织内,mrna有相同背景表达水平;②mirna会下调其靶基因的表达水平,且多个mirna共同作用于一个靶基因时,对表达水平的影响是单独影响的线性叠加。如给定g个mrna和k个mirna,用eqt、

vkt和ut表示在组织t中,mrna g、mirna k和背景的表达水平,并令vt=[v1t,…,vkt]t,从而上述两个假设可被表示为(1)式:p(eqt|μ1,βq,λ,γt,vt,σ2t)=

n(μt-γtλβqm,σ2t)(1)其中βg∈{0,1}k×1 是一个指示向量,其中第k个元素βgk=1表示基因g是mirna k的靶基因;λ∈rk×1+表示调控权重;ba=diag(βa);γt是对不同组织中基因表达值进行标准化的变尺度因子;σ2t是高斯模型的方差。 2.5mirtarget

mirtarget是2008年发表的基于svm算法。wang利用mirna过量表达实验的microarray数据,即对于某mirna过量表达实验,定义表达水平低于40%、p0.3为正常表达基因,进而定义包含第2~7完全种子匹配的表达下调基因为阳性靶标,包含2~7完种子匹配的正常表达基因为阴性靶标。有2~7完种子匹配处的序列被提取作为阳性及阴性绑定点训练集。 2.6targetboost

targetboost目标是预测一个长度为24nt的序列是否是相应mirna的绑定点。采用boosting遗传编程作为分类引擎,用一种模式语言生成所有可能的绑定点位碱基组成模序{xjj=1};其次用h(s1:n,(x)j)=1表示序列s1:n符合模序j,为0不符合;通过gpboost算法将所有所有模序判定boosting成为最终的分类器:f(s1:n)=sign(∑jj=1ajh(s1:n,(x)j))(2)其中aj代表第j个模序的权重。

本文来源:https://www.bwwdw.com/article/mizg.html

Top