范文一:启动子与起始密码子、终止子与终止密码子有何区别?
启动子与起始密码子、终止子与终止密码子有何区别?
20
启动子与起始密码子、终止子与终止密码子看起来似乎差不多,实际上却是两组截然不同的概念,根本就没有共同点。简单地说,启动子和终止子都是一段特殊的DNA序列,属于基因的非编码区,分别位于编码区的上游和下游,负责调控基因的转录。而起始密码子和终止密码子都是mRNA上的三联体碱基序列,分别决定翻译的起始和终止。
启动子——DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点。
起始密码子——蛋白质翻译过程中被核糖体识别并与起始tRNA(原核生物为甲酰甲硫氨酸tRNA,真核生物是甲硫氨酸tRNA)结合而作为肽链起始合成的信使核糖核酸(mRNA)三联体碱基序列。大部分情况下为AUG,原核生物中有时为GUG等。 终止子——转录过程中能够终止RNA聚合酶转录的DNA序列。使RNA合成终止。
1
终止密码子——蛋白质翻译过程中终止肽链合成的信使核糖核酸(mRNA)的三联体碱基序列。一般情况下为UAA、UAG和UGA,它们不编码氨基酸。
2
范文二:【引用】启动子与起始密码子、终止子与终止密码子有何区别?
启动子与起始密码子、终止子与终止密码子看起来似乎差不多,实际上却是两组截然不同的概念,根本就没有共同点。简单地说,启动子和终止子都是一段特殊的DNA序列,属于基因的非编码区,分别位于编码区的上游和下游,负责调控基因的转录。而起始密码子和终止密码子都是mRNA上的三联体碱基序列,分别决定翻译的起始和终止。
启动子——DNA分子上能与RNA聚合酶结合并形成转录起始复合体的区域,在许多情况下,还包括促进这一过程的调节蛋白的结合位点。
起始密码子——蛋白质翻译过程中被核糖体识别并与起始tRNA(原核生物为甲酰甲硫氨酸tRNA,真核生物是甲硫氨酸tRNA)结合而作为肽链起始合成的信使核糖核酸(mRNA)三联体碱基序列。大部分情况下为AUG,原核生物中有时为GUG等。
终止子——转录过程中能够终止RNA聚合酶转录的DNA序列。使RNA合成终止。
终止密码子——蛋白质翻译过程中终止肽链合成的信使核糖核酸(mRNA)的三联体碱基序列。一般情况下为UAA、UAG和UGA,它们不编码氨基酸。
范文三:启动子、终止子、起始密码子和终止密码子
启动子、终止子、起始密码子和终止密码子 1)启动子:可与RNA聚合酶特异性结合而使转录开始的一段DNA序列。但启动子本身并不被转录,属于基因上游对转录起调控作用的5′ 端非编码区。一般可分为两类,一类是RNA聚合酶可以直接识别的启动子;另一类是与聚合酶结合时需要有蛋白质辅助因子。
(2)终止子:在转录过程中,提供转录终止信号的DNA序列,在RNA水平上通过转录出来的终止子序列形成茎—环结构而起作用。
(注意:终止子和启动子不同,启动子由DNA序列来提供信号,但真正起终止作用的不是DNA序列本身,而是转录生成的RNA。)
(3)起始密码子:信使核糖核酸分子中规定编码多肽链第一个氨基酸的密码子。细菌的起始密码为AUG,转译为n-甲酰基甲硫氨酸;或较罕见的GUG(缬氨酸)。真核生物的起始密码子总是AUG,转译为甲硫氨酸。起始密码子在相应的DNA中为ATG。
(4)终止密码子:信使核糖核酸分子中作为转译多肽链终止信号的三联体密码子。可终止蛋白质合成。此密码子通常用矿石或宝石命名,有3种,包括琥珀密码子(UAG)、赭石密码子(UAA)、欧珀密码子(UGA)等。
区别:启动子和终止子均为结构基因非编码区的DNA序列,且长度远不止三个碱基,都与基因的转录过程相关联。起始密码子和终止密码子均位于信使核糖核酸分子中,且均只含三个碱基,都与mRNA的转译过程相关联。
范文四:黑腹果蝇蛋白质编码区碱基分布与起始密码子及终止密码子的关系
黑腹果蝇蛋白质编码区碱基分布与起始密
码子及终止密码子的关系
2007年12月
第26卷第4期
内蒙古科技大学
JournalofInnerMongohaUniversityofScienceandTechnology
Decemher,20O7
Vol26.No4
文章编号:1004—9762(2007)04—0341—04
黑腹果蝇蛋白质编码区碱基分布与
起始密码子及终止密码子的关系
蔡禄,崔向军,刘辉
(内蒙古科技大学生物与化学工程学院,内蒙古包头014010)
关键词:起始密码子;终止密码子;碱基分布;黑腥果蝇;限制作用
中图分类号:Q811.4文献标识码:A
摘要:对黑腹果蝇染色体上基因组进行统计分析,结果表明,蛋白质编码区(CDS)碱基分布具有不均匀性.对单
核苷酸,双核苷酸及密码子的使用进行统计,结果表明,与起始密码子对应的组分中,NTG的使用倾向值相对高,终
止密码子(TGA,TAA,TAG)对应的组合使用倾向值相对很低.由此得
出结论:起如密码子对蛋白质编码区碱基的使
用有一定的影响,终止密码子对蛋白质编码区碱基的使用具有较强
限制作用.
Therelationbertweenbasedistributioninproteincodingregions
andinitiationcodons0rstopcodonsinDrosophilamelauogaster
CAILu,CUIXiang.iLln,LIUHui
(BiologicalandChemicalEngineeringSchool,InnerMongoliaUniversityofScienceandTechnology,Baotou014010,China)
Keywords:irritationcondon;stopcodon;basedistribution;Drosophilamelanogaster;restriciveaction
Abstract:ThedistributionofbasesatthreecodonpositionsisheterogeneousbasedonstatisticalanalysisofDrosophilamelauogasterchromo—
somes.Statisticsanalysisfortheusageofthebases,dinucleotidesandcodonsshowsthatthetendencyofNTGisrelativelyhigh,andthebases,
dinucleotidesandcodonswithlowcontentsal’ejustassociatedwiththoseinthestopcodons.Theconclusionisthattheinitiationcodonhascer-
laininfluenceonbasedistributionintheproteincodingregions,andthebasesrelatedtothestopcodonsarestrictlycons~mnedtobeused.
基因识别是基因组学的主要任务之一,是理解
细胞中基因的功能,作用的必须步骤.对基因组序
列特别是对复制,转录和转译起始,终止相关的序列
从统计学角度分析是基因识别的重要手段.已有工
作以原核生物和真核生物为对象,从密码子使用偏
向性与起始,终止密码子关联,与基因表达水平关
系,与G+C含量关系等角度进行研究【卜6】,但问题
还远未搞清楚.本文针对黑腹果蝇基因组,在单核
苷酸,二核苷酸及密码子水平进行分析,探讨起始,
终止密码子等对编码区碱基使用的限制作用.
1材料与方法
1.1材料
从GenBank下载黑腹果蝇[的所有染色体序
列,然后提出其所有的蛋白质编码区(CDS)建立一
个单物种CDS数据库,用来进行分析CDS的碱基分
布与起始密码子及终止密码子的关系.为了对黑腹
果蝇蛋白质编码区碱基分布进行整体评价,把黑腹
果绳的4条染色体看作整体——染色体组进行统计
分析.作为比较,同时把黑腹果蝇的4条染色体看
成4组进行分别统计分析,与染色体组分析结果相
比较,研究各染色体与染色体组的碱基分布地差
异.
1.2方法
对于上述的CDS数据库,分别在单核苷酸,双
核苷酸,密码子3个水平分析其碱基分布.首先,在
单核苷酸水平分析蛋白质编码区3个相位碱基分布
的频率.对染色体统计密码子3个相位每一类碱基
*收稿13期~20o6—09—07
基金项目:国家自然科学基金资助项目(60761001);内蒙古自然科学
基金重点资助项目(200508010102)
作者简介:蔡禄(1964一),男,内蒙古呼和浩特人,内蒙古科技大学教授,
博士.
342内蒙古科技大学2007年l2月第26卷第4期
出现的总数,并计算染色体上基因组总密码子个数
的比值,得到单碱基分布的频率.然后,分析与起始
密码子及终止密码子相关的二核苷酸分布的倾向
值【引.公式形式如下:
N2=,
式中,?l和?2代表任意单碱基的频数;NlN2代表
双核苷酸的频数.
人们已经知道,同义密码子使用频率差别很大,
这一现象称为密码子使用偏向性.密码子使用的相
对概率(RSCU)是指对于某一特定的密码子在编码
对应氨基酸的同义密码子间的相对概率.如果密码
子的使用没有偏向性的话,RSCU值等于1,当某一
密码子的RSCU大于1,该密码子为使用较多的密码
子.本文使用RSCU值计算密码子使用偏向性,进
而研究起始密码子与终止密码子对CDS区密码子
使用的限制作用.RSCU值公式形式如下[2,9,1o】:
obs一/d尬..
RSCUiy=—,
式中,RSCU为第个染色体,第个密码子的相对
使用概率;obs代表密码子_『在染色体i中出现的次
数;aa代表密码子编码的氨基酸在染色体i中出
现的次数;k代表与密码子同义的密码子的个数.
2结果与分析
下面把染色体组的统计结果列出,各染色体的
统计结果没有列出.统计结果表明,黑腹果蝇X,2
(2L和2R),3(3L和3R)号染色体的碱基分布与染
色体组的碱基分布基本一致,只有较小的4号染色
体碱基分布有很明显差异.
2.1蛋白质编码区碱基分布与起始密码子
的关系
表1为密码子3个相位碱基分布的倾向性频
率,表2为与起始密码子相对应的双核苷分布倾向
值.
表1密码子3个相位碱基分布的倾向性频率
Table1Frequencyofbasesatthreepositionsincodons
表2与起始密码子相对应的双核苷酸分布倾向值
Table2Frequencyofdinudeottdesrelatedt0initiationcodom
表1表明,与起始密码对应的第一,第二及第三
相碱基为A,T,G的频率接近1/4.可以认为起始密
码子在单个碱基水平没有明显的限制作用,使单碱
基分布接近随机分布.同时注意到第三相使用G/C
的频率为63.7%,而第一或第二相G/C使用频率接
近或小于50%,与多数基因组中的规律相同.
从表2可知,NTG(N代表T,G,C)的倾向值明
显大于ATN和ANG.从分子生物学知识知,密码子
的第三相碱基出现突变的频率高,第一相突变频率
最低,第二相相对低.也就是说密码子ANT最易突
变为ATG,ATG次之,NTG突变为ATG的频率相对
低.所以编码区密码子尽量减少ATN,ANG的使用,
避免在CDS区中产生过多的AUG密码子.说明在
双核苷酸水平起始密码子对编码区密码子的使用有
一
定约束作用.不过由于起始密码子ATG同时编
码蛋氨酸,起始密码子ATG对蛋白编码区碱基分布
的限制不一定很强.
从表3知,起始密码子的限制性作用主要表现
在密码子NTG的使用上,具体表现在:LEU6种同义
密码子中只有TYG,CTG2种密码子的RSCU值大于
1,VAL的4种同义密码中只有GTG密码子的RSCU
值大于1,也就是说黑腹果蝇偏向使用密码子
NTG.AAG的RSCU值大于1,说明ANG(N代表A,
G,C)限制性不是很明显,而且表2显示ANG的倾向
值接近为1,也说明其倾向不明显.再有,因为ATN
(N代表A,T,c)是ILE仅有的3个同义密码子,ATC
的RSCU值最大只能说黑腹果蝇偏向使用第三相为
c的密码子,这与分析密码子偏向性的文献提供的
结论一致[113.
表3与终止密码子相关的密码子的RSCU值
Table3TheRSCUvaluesofcodonsrelatedtoinitiationcodons
蔡禄等:黑腹果蝇蛋白质编码区碱基分布与起始密码子及终止密码子的关系343
续表3
2.2蛋白质编码区碱基分布与终止密码子
的关系
从表1统计结果可看出,在密码子第一,二和第
三相位上分别出现碱基T,G和A的频率很低,这与
单染色体水平结果明显一致.这一现象是蛋白质编
码区碱基分布的普遍特征,反映了基因的结构特点.
这3种低含量碱基恰好对应终止密码子TGA的3个
位置碱基,表明TGA终止密码子在单碱基水平对CDS
的碱基使用可能具有较强限制作用.生物体在进化
过程中,生物体的基因碱基受到突变和内部选择双重
压力的作用,蛋白质执行特定的生物功能且蛋白质的
结构及其一级序列具有保守性,这自然需要以蛋白质
编码区碱基分布具有一定的保守性为前提.基因保
持其功能的首要条件是蛋白质编码区无终止密码子
出现,很自然想到,基因避免在其编码区上形成终止
密码子或降低形成终止密码子的可能,从而可以认为
终止密码子限制蛋白质编码区的碱基使用频率,也可
以说蛋白质编码区的碱基分布尽可能降低终止密码
子的出现趋势.进一步分析其它终止密码子(眦和
TAG)对应的碱基分布,表1的结果表明密码子第二
位碱基A,第三位碱基G的含量并不低,反而相对很
高,这与单染色体水平统计结果依然相近.可能说明
终止密码子眦在单碱基水平对蛋白质编码区碱基
使用的限制稍弱,而TAG在单碱基水平对编码区碱
基使用的限制更弱.这可能与蛋白质的功能对氨基
酸使用的要求有关,如密码子第二位碱基与氨基酸的
亲水性或疏水性相关.蛋白质的功能要求密码子不
同的碱基具有一定的含量.此外,密码子第三位碱基
起调节蛋白质编码区组分与基因组组分之间的平衡
关系的作用J.总的说来,单碱基水平终止密码子
TGA限制性最大,很多文献表明此为生物体碱基分布
的普遍规律.
对单条染色体及染色体组进行总体分析可见,
TAN,TGN,TNA和TNG倾向值小于1.说明由于终
止密码子的限制作用,在双核苷酸水平对密码子第
二相,特别是第三相使用碱基A或G有明显限制.
结合表1和表4可以认为,TGN,TNA在单碱基水平
和双核苷酸水平2个层次上对编码区密码子第二,
三相位上碱基G,A有明显限制.NAA,NAG,NGA的
倾向值大于1,说明这些密码子倾向于被使用,从另
一
个角度分析,就是蛋白质编码区对NAA,NAG和
NGA的限制较弱,可能是因其碱基不易突变形成终
止密码子的缘故(相对二,三相位第一相碱基N突
变频率较低些),也就是说在表4中倾向值相对低的
双核苷酸通过碱基的突变更易形成终止密码子,对
这些双核苷酸出现频率的制约可能是避免在编码区
形成终止密码子的一种限制机制.
表4与终止密码子相对应的双核苷分布倾向值
Table4FrequencyofdinucleolidesrelatedtostopeOdOl~
表5说明黑腹果蝇染色体组上基因偏向使用终
止密码子TAA(RSCU值最大).而在单碱基水平限
制作用最强的TGA并不偏向使用.二度简并中,与
TAA相近的TAT,TAC是编码同一种氨基酸(TYR)
仅有的2个同义密码子,偏向使用TAC.其原因可
能是TAT比TAC更易突变成为终止密码子TAA,
TAA对其有明显限制作用.在同义密码子中相应的
NAA(CAA,AAA,GAA),TNA(TrA,TCA)对应的RSCU
值都很低,说明与TAA相差单碱基的密码子使用被
TAA限制,当然TNA也可能同时受到TGA的限制
——
六度简并中r不’A,TCA的RSCU值非常低也能
说明这一点.表5中的与TAG,TGA相关的部分密
码子的RSCU值表明,TGA的限制作用在密码子水
平也相对明显.与TGA相近的TGT,TGC是编码同
344内蒙古科技大学2007年l2月第26卷第4期
一
种氨基酸(CYC)仅有的2个同义密码子,偏向使
用TGC.其原因可能是TGT比TGC更易突变成为终
止密码子TGA,TGA对其有明显限制作用.另外,表
5中CGA,AGA的RSCU值小于1,染色体组水平
GGA例外,其RSCU值大于1,而x染色体中GGA的
RSCU值是小于1的.均表明TGA对CDS区中密码
子使用有明显限制作用.
表5与终止密码子相关的密码子的RSCU值
Table5TheRSCUvaluesofcodonsrelatedtostopcodons
与TAG,TGA相关的密码子(与上面重复的密码子未列出)
3结论
通过对黑腹果蝇基因组的蛋白质编码区进行分
析,编码区碱基分布有一定倾向.起始,终止密码子
在单核苷酸,双核苷酸以及密码子水平上对蛋白质
编码区碱基的使用都有一定的制约作用.在单核苷
酸水平起始密码子AUG对碱基使用限制较弱,终止
密码子TGA对碱基使用有很强的限制.在双核苷
酸水平NTG(N代表T,G,c)的倾向值明显大于ATN
和ANG.与密码子第三相碱基出现突变的频率高,
第一相突变频率最低,第二相相对低有关,所以编码
区密码子尽量减少ATN,ANG的使用,避免在CDS
区中产生过多的AUG密码子.不过由于起始密码
子ATG同时编码蛋氨酸,起始密码子ATG对蛋白编
码区碱基分布的限制不一定很强.在双核苷酸水平
密码子第二相,第三相避免使用碱基A或G.NAA,
NAG,NGA倾向于被使用,可能是因其碱基不易突变
形成终止密码子的缘故,也就是说在倾向值相对低
的双核苷酸通过碱基的突变更易形成终止密码子.
在密码子水平,起始密码子AUG对碱基使用限制较
弱.与终止密码子(TGA,TAA,TAG)相关的同义密
码子使用频率相对较低,表明终止密码子对编码区
碱基的使用起重要的限制作用.
参考文献:
[1]ZerbergB.Shannoninformationtheoreticcoputa6onofsyn-
onymouscodonusagesbiasesincoding~giomofhumanand
mousesgenomes[-J].GenomesRes,2002,12:944-955.
[2]MaJianmin,ZhouTong,GuWnnjun,eta1.Clusteranalysisof
thecodonusefrequencyofMHCgenesfromdifferentspecies
[J].BioSystem,2002.65:199-207.
[3]ZhaoK-N,?uW.JandFrazerIH.CodonusagesbiasandG
十Ccontentvqriationinhumanpapillomavirusgenomes[JJ.
VirusRes,2003,98:95-104.
[4]CrocockRJ,SharpP.SynonymouscodonusageinPseu—
domonasaeruginosaPAO1LJ].Gene,2002,289:131-139.
[5]MortonBR,SoBG.CodonusageinPlastidgenesiscorre]at-
edwithcontext.positionwithinthegenemadaminoacidcon-
tent[J].JMolEvol,2000,50:184—193.
[6]MeAlR.Asurveyofeodonandaminoacidfrequencybiasin
Microbialgenomesfecusingontranslationefficiency[J].JMol
Evol,2oo3,57:453—466.
[7]AdamsMD.ThegenomesequenceofDrosophilamelanogaster
LJJ.Science,2000,287:2185-2195.
[8]齐立省,王永宏,展永,等.蛋白质编码区碱基分布
与终止密码子的关系[J].山东理工大学,2004,18
(2):95—98.
[9]SharpPM.LiWH.Thecodonadaptationindex—ameasuof
directionalsynonymouscodonusagebiasanditspotentialp-
plicationsl-J].NuclAcidsRes,1987,15:1281-1295.
[10]顾万君,马建民,等.不同结构的蛋白编码基因的密
码子偏性研究[J].生物物理,2002,18(1):81.86.
[11]ChoiIG,KimSS,RyuJR,eta1.Randomsequenceanaly—
sisofgenomicDNAofahyperthemophile:Aquifexpyrophilus
LJ].Extremophiles,1997,1(3):125-134.
范文五:真核基因起始与终止密码子旁侧序列特征分析
生物信息学.EDF6M4UNF6A41?D4DF14NC6SD’T
研究论文
真核基因起始与终止密码子旁侧序列特征分析
"
翁景然!,,张宏!,耿美英",张成岗!!
(!#军事医学科学院放射医学研究所,北京!$$%&$;北京!$$$"")"#北京工业大学应用数理学院,
摘要:真核基因起始与终止密码子旁侧序列的特征对于确定’()*开放阅读框架(+,-)和预测基因组序列中的编码区(.(/)在较大数据规模下统计分析了起始密码子旁侧序列所具有的“34567规则”,发现不同非常重要。基于高质量,01/02数据库,
物种之间存在差别。同时分析了不同终止密码子旁侧序列的统计学特征,给出了相应的正则表达式。由于发现多种基因中存在同相位起始、终止密码子串联使用的情况,亦对此进行了讨论。
关键词:真核基因;起始密码子;终止密码子;序列特征;’()*序列;34567规则中图分类号:89&:
文献标识码:*
文章编号:("$$
!"#$#%&’$()&(%#*#+,)()-..+#*/(*0)’12’*%’-.)$&%-3-*#*3)&-4%-3-*(*’2/#$,-&(%0’*’)
",KB)LMDFG;N6F!,OP*)LP4FG!,LB)LQ0D;RDFG",OP*)L.E0FG;G6FG!!
(!"#$%&%’()’*+%+,+$-./01%0+%-’2$1%3%’$,#$%&%’(!44564,78/89:%’0;
;"9->
56)&$#%&:@E0’E6N6’S0NT41T02U0F’01A6F7DFGSE0TS6NS’4V4F6FVTS4W’4V4FDF0U76NR4SD’G0F0TWA6R6FDCW4NS6FSN4A0DF
(+,-)DF’()*T02U0F’0T6FV’4VDFGN0GD4F(.(/)DFG0F4CD’()*T02U0F’0TIXTDFGV01DFDFGSE04W0FN06VDFG1N6C0
EDGE2U6ADSR’()*T02U0F’0T41,01/02V6S6J6T0,SE0“34567NUA0”Y0N01UNSE0N’4F1DNC0V4F6A6NG0;T’6A0A0Z0A,JUS
YDSE6ADSSA0VD110N0FSJ0SY00FVD110N0FSTW0’D0TI*SSE0T6C0SDC0,SE01A6F7DFGT02U0F’0’E6N6’S0NT41SEN00TS4W’4V4FTY0N06AT46F6AR50VI@E0N0GUA6N0[WN0TTD4F14NVD110N0FSTS4W’4V4FTY0N0V0VU’0VIQ4N04Z0N,SE0JD4A4GD’6ATDGFD1D’6F’041S6FV0CDF;1N6C0N0W06S0VTS6NS’4V4FT6FVTS4W’4V4FTY6T6AT4VDT’UTT0VDFSEDTW6W0NI7’,8-$3):0U76NR4SD’G0F0;’()*T02U0F’0;TS6NS’4V4F;TS4W’4V4F;T02U0F’0’E6N6’S0N;34567NUA0
美国学者34567通过对:==条脊椎动!=%9年,
非编码区
究分析发现,在脊椎动物’()*翻译起始位点上游一段序列相对保守,在*@L旁侧的保守序列是,即著名的“34567规“(L..)L..*\L..*@LL”
[!]则”。该保守序列特征在新基因预测和生物工程["]产品的开发与研究中起到了重要的作用。然而,
[>]
此,本文拟基于高质量的,01/02数据库(ESSW:\\
,对’()*翻译起始YYYIF’JDIFACIFDEIG4Z\,01/02\)
位点旁侧碱基的保守特征进行统计学分析,可望在大规模数据量尺度上回答该问题,从而能够更好地揭示真核基因起始密码子旁侧序列的特征。同时,启发,本文进一步分析了终止密码受“34567规则”
子旁侧碱基序列的特征,并分析了在真实开放阅读下起始、终止密码子在框架(4W0FN06VDFG1N6C0,+,-)同相位的串联使用情况,以期找出密码子串联使用的整体规律并分析其生物学意义。
在多个物种基因组计划已经完成、大量’()*序列数据库已经发布的今天,34567规则是否仍然能够代表*@L旁侧序列的特征,尚无人系统研究。因
收稿日期:修回日期:"$$
基金项目:国家重点基础研究发展计划(=9>计划)("$$>.?9!&=$$),国家高技术研究发展计划(%:>计划)("$$"**">
张成岗,男,副研究员,@0A:$!$;::=>!&=$,B;C6DA:5E6FG’GHFD’IJCDI6’I’F。!通讯作者:万方数据
第
真核基因起始与终止密码子旁侧序列特征分析!!
!
!"!
数据与方法
数据的来源
由于#$%&$’数据库中的记录经过了加工整理,
计算所提取的序列片段中四种碱基分布概(=)
率,并绘制概率分布图;
根据不同物种对所提取的序列片段进行分(
组,然后采用&>&&%?@AB)C?D:EF8版进行方差分析。采用5G,$H方法,取显著性水平8F!,得到相应的正则表达式;
统计同相位串联起始、终止密码子出现数(6)
量,计算出现概率。
较($)*+),等数据库有较小的冗余度和较高的准确性及可靠性,因此,本文拟利用#$%&$’数据库提供的-./0序列作为分析样本。具体分析步骤如下:!"1
分析方法
(!)提取#$%&$’数据库中编码区字段即2.&字段的信息,确定-./0序列的真实3#4。剔除线粒这是因为线粒体的遗传密码体来源-./0的序列,和标准密码子有差异;
抽取翻译起始密码子(05()上游!6个碱基(1)
与下游7个碱基;抽取终止密码子上游!8个碱基与下游7个碱基作为分析样本。对密码子旁侧碱基数目达不到要求的少数序列,首先将其定位到基因组序列,然后提取所需序列,这一点通过本地化的
[
。对于处理后*9+:;软件和本地化的数据库实现
1
1"!
结果分析
起始密码子和终止密码子旁侧序列特征小鼠、大鼠、智人四对#$%&$’数据库中斑马鱼、
个物种每个位置四种碱基的详细概率堆积图请见图其中:!I图
代表腺嘌呤0出现的概率、
代表鸟嘌呤(出现
代表胞嘧啶2出现的概率、
代表胸腺嘧5出现的概率。横轴表示
位置和每个位置的方差,纵轴为出现概率。显然,四种碱基出现概率和为!。
仍达不到要求的序列,将其剔除;
图!斑马鱼起始、终止密码子旁侧序列概率堆积图
万方数据
4BJF!5K$L@?M+MB9B;H:;+-,$CJ@+LK?%N$M@+%B:K:$’G$)-$:%9+),B)J;K$:;+@;-?C?)+)C:;?L-?C?):
;!生物信息学第!
卷
"#$%!
图!小鼠起始、终止密码子旁侧序列概率堆积图
&’()*+,-,#.#/01/-23(4$*-)’+56+71(1(87(92(15.-93#9$/’(1/-*/2+4+9-941/+)2+4+91
万方数据
"#$%:
图:大鼠起始、终止密码子旁侧序列概率堆积图
&’()*+,-,#.#/01/-23(4$*-)’+5*-/1(87(92(15.-93#9$/’(1/-*/2+4+9-941/+)2+4+91
第!期翁景然,等:真核基因起始与终止密码子旁侧序列特征分析=D
图!智人起始、终止密码子旁侧序列概率堆积图
/’(1/-*/2+4+8-841/+)2+4+81
"#$%!&’()*+,-,#.#/01/-23(4$*-)’+5’67-81(96(82(15.-83#8$
终止密码子2:;
表=。根据统计分析所推导出的正则表达式见表>。
&-,.(=物种斑马鱼小鼠大鼠智人
表=不同密码子2:;
&’(867,(*+52:;
@AB=!>>!DF@==@AD=
&@@!!!!CA
&
&?AF=@@E=
相比于G+H-3对C@@条脊椎动物所进行的分析,我们发现小鼠、大鼠、智人D个物种起始密码子
“G+H-3规则”相吻合,而斑马鱼的
在I!、这可结果与“G+H-3规则”I>位有较大差别,
表>
&-,.(>
物种智人大鼠小鼠斑马鱼
(NO?)N
能提示不同进化地位与起始密码子旁侧序列的使用
特征有关。
对于D类终止密码子旁侧序列的特征分析发现它们各有不同,但总体上小鼠、大鼠、智人D个物种的结果较相近,与斑马鱼的分析结果有差别。从进化树上来看,小鼠、大鼠、智人D个物种属于哺乳动物在同一分支上,而斑马鱼则与它们在进化距离上位于另一分支。这可能是出现区别的一个原因。
另外,从表=中可以看出无论哪个物种终止密
明显高于另两种码子&?
终止密码子出现的概率,这提示真核基因对&?
>K>真实LM"下同相位终止密码子串联使用情况
以下的数据和讨论都是在真实LM"下得到的。对同相位两个以上终止密码子连续串联的现象进行分析的结果见表D。
不同物种起始和终止密码子旁侧序列的正则表达式
&’(2’-*-2/(*1+51(96(82(5.-83#8$/’(1/-*/2+4+8-841/+)2+4+8#84#55(*(8/1)(2#(1
&
&
&?
!;表示任意碱基。
36生
表!同相位串联终止密码子的出现情况"#$%&!"#’(&)*’+,-#)&-&./&(0/1.21(1’0物种
斑马鱼345!456!=66
小鼠67835468!=!4
大鼠39!63849=75
物信息学第9卷
变导致终止密码子被误读为氨基酸。/H?@的基因
智人:!;94479!=3;
出现终止密码子串联条数
总条数出现概率(
假设2>?@序列中6种碱基独立且出现概率相
同,即95
(@C)A(@)(C)AEA
联的概率应为A(@BC)DDD
突变可使终止密码子"@N和"N@有一半以上被误
读成氨基酸,"@@则平均有3?@序列在终止密码子的使用上更偏好使用"N@,而不是使用有较低误读率的"@@终止翻译。第二,认为同相位存在终止密码子串联的序列所翻译的蛋白质可能是在生命活动中起较关键调控作用的蛋白质,当第一个终止密码子出现误读或由于碱基突变而没能停止翻译,后续串联的终止密码子可再次停止。但是从本文的计算结ACA
C(A
@)D:6
D6F:7
高于表!中的出现概率。这说明在2>?@序列中终止密码子碱基组成之间存在某种联系,孤立地进行统计平均分析会掩盖序列所包含的信息。这一结果可能提示真核基因并不倾向于采用同相位终止密码子串联的方式终止翻译过程。
9F!真实GHI下同相位起始密码子串联使用情况
对真实GHI下同相位两个以上起始密码子连续串联的现象进行分析的结果见表6。
表6同相位串联起始密码子的出现情况"#$%&6"#’(&)*’+,-#)&-&./&(0/#-/21(1’0物种
斑马鱼小鼠大鼠智人出现起始密码子串联条数
343!3:79!:3总条数974536996!873374!3出现概率(
!=6;
9=99
9=6!
3=74
类似于对串联终止密码子的分析,在均匀随机
序列中两个起始密码子串联出现的概率应为,其中
(A@BC)D(A@)D:6
D3F5:
@表示起始密码子串联出现起始密码子、C表示起始位置的起始密码子。低于表6中出现的概率,提示某些真核基因中存在这种倾向,即采用同相位起始密码子串联作为一些基因表达的模式,也许这种串联可能会增强蛋白质的翻译过程,但尚需进一步的数据验证。
!讨论
通过对6种真核生物基因密码子旁侧序列的特
征分析,研究了终止密码子旁侧碱基存在不同分布特点,并考察了同相位终止密码子串联使用情况。结果发现小鼠、大鼠、智人!个物种起始密码子旁侧
序列与“J1K#L规则”相吻合,而斑马鱼的在+6、+9
位有较大差别。而!种终止密码子旁侧序列碱基分布的正则表达式虽然不尽相同,但在终止密码子下
游腺嘌呤@出现的概率显著偏高;
而胸腺嘧啶"出现的概率显著偏低,尤其在M6、M5、M:位上,这与同相位串联终止密码子出现概率低于均匀随机序列的现象相一致。
到目前为止,对2>?@序列串联使用终止密码
子的现象有以下两种解释[5,:]
万方数据
:第一,/H?@的基因突
果看出2>?@序列终止密码子串联出现的现象比均匀随机序列低,这从一个侧面说明在2>?@序列中6种碱基之间存在某种特定联系。
对串联起始、终止密码子现象的分析中看到,相对于随机序列而言,串联终止密码子出现概率较低,而串联起始密码子出现概率较高的现象说明在序列翻译过程中终止位置比起始位置要求严格。而且当考察终止密码子下游序列时发现终止密码子串联出现概率有明显增高的趋势:斑马鱼为69=3
!7=3
大鼠9;=4
需要指出的是,本文所运用的单纯依赖序列中碱基出现频率的统计分析方法,有可能割裂2>?@序列的内在关联性,因而可能会掩盖序列中所蕴含的生物学意义。要解决这个问题可考虑运用隐马尔
科夫模型[8]、单倍体型分析[;]
等方法,因此进行序列分析时需要针对不同目的选取不同的分析方法,才能得出合适的结论。同时,基于大量数据所给出的统计学特征与具体某个基因特征之间显然是不等同的,所以真正涉及到特定基因的特征、密码子偏好以及表达调控分析时,必须“就事论事”,这也正是需要大量细致的实验对生物信息学数据分析提供真实注解的原因,也是后基因组时代需要大量投入精力之所在。参考文献(H&,&-&’2&0):
3]J1K#LR=@’#’#%S0*01,5’+’1’21(*’T0&QU&’2&0,-1):77V&-/&$-#/&
)&00&’T&-H?@0[W]=?U2%&*2@2*(0H&0,37;8,35(94):;395+;36;=
9]XYUZU+[*#’,\*Z*=R1(&-’R1%&2U%#-C*1%1TS[R]=C&*]*’T:^*TY&-_(U2#/*1’A-&00,
9449=朱玉贤,李毅=现代分子生物学[R]=第9版=北京:高等教育出版社,9449=
!]R#T%1//>H,J#/KJP,P*21//&^,A-U*//J>?‘Ca’0\12U0\*’L#’(H&,b
P&Q
[W]=?U2%&*2@2*(0H&0,9444,9;(3):39:+39;=6]XY#’T‘Y&’T+N#’T,^&IU+‘YU=C*1*’,1-)#/*20:R&/Y1(#’(A-#2/*2
[R]=C&*]*’T:P2*&’2&A-&00,9449=张成岗,贺福初=生物信息学方法与实践[R]=北京:科学出版社,9449=
5]‘#00#’R,H1U00&/WA=c@N-(/Y-1UTY*’)#))#%*#’2&%%0:_,,&2/1,
U.0/-)#’((1d’0/-)0/1.21(1’21’/&e/0-&V%(*,,&-&’/0*T’#%0[W]=CR‘R1%C*1%,9443,(93):!=:]?#)SG,^#/*’a,H1U00&/WA=a).#2/1,/Y&0*e’U2%&1/*(&0(1d’0/-)
1,/Y&0/1.21(1’1’/-#’0%#/*1’/&-)*’#/*1’[W]=_RCGH&.,9443,9
(7):8;8+87!=8]^UTY&SH,J-1TY@=^*((&’R#-L1V)1(&%0,1-0&QU&’2’#%S0*0:&eb
/&’0*1’#’(#’#%S0*01,/Y&$#0*2)&/Y1([W]=‘1).U/@..%C*102*,
377:,39(9):75+348=
;]XY#’TJ,W*’\=^#.%1C%12LI*’(&-:Y#.%1/S.&$%12L#’#%S0&0[W]=C*1*’b
,1-)#/*20,944!,37(34):3!44+3!43=
[[[[[[[[
真核基因起始与终止密码子旁侧序列特征分析
作者:作者单位:
翁景然, 张宏, 耿美英, 张成岗
翁景然(军事医学科学院放射医学研究所,北京,100850;北京工业大学应用数理学院,北京,100022), 张宏,张成岗(军事医学科学院放射医学研究所,北京,100850), 耿美英(北京工业大学应用数理学院,北京,100022)生物信息学
CHINA JOURNAL OF BIOINFORMATICS2004,2(4)2次
刊名:英文刊名:年,卷(期):被引用次数:
参考文献(8条)
1.Kozak M An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs[外文期刊]1987(20)
2.Zhu Yu-Xian;Li Yi Modern Molecular Biology 2002
3.Maglott DR;Katz KS;Sicotte H Pruitt KD NCBI's LocusLink and RefSeq[外文期刊] 2000(01)4.Zhang Cheng-Gang;He Fu-Chu Bioinformatics:Method and Practic 2002
5.Cassan M;Rousset JP UAG readthrough in mammalian cells:Effect of upstream and downstream stopcodon contexts reveal different signals 2001(01)
6.Nam y O;Hatin I;Rousset JP Impact of the six nucleotides downstream of the stop codon ontranslation termination[外文期刊] 2001(09)
7.Hughey R;Krogh A Hidden Markov models for sequence analysis:extension and analysis of the basicmethod 1996(02)
8.Zhang K;Jin L HaploBlockFinder:haplotype block analyses[外文期刊] 2003(10)
本文读者也读过(5条)
1. 杜耀华.王正志.倪青山.DU Yao-hua.WANG Zheng-zhi.NI Qing-shan 基于滑动窗口的原核转录起始位点计算定位方法[期刊论文]-生物物理学报2006,22(5)
2. 李宏.吕军.张利绒.罗辽复 原核生物和酵母基因组中起始密码的特征分析[期刊论文]-内蒙古大学学报(自然科学版)2002,34(1)
3. 周蜜.卿人韦.兰利琼.傅华龙 三角褐指藻△15脂肪酸去饱和酶的基因克隆及功能研究[会议论文]-20094. 元冬娟 绿色巴夫藻脂肪酸去饱和酶的研究[学位论文]2007
5. 赵薇.陈必链.王明兹.黄建忠.ZHAO Wei.CHEN Bi-lian.WANG Ming-zi.HUANG Jian-zhong 藻类△6脂肪酸脱饱和酶基因密码子偏好性分析[期刊论文]-热带海洋学报2010,29(3)
引证文献(4条)
1.周红梅.陈哲.蔡兆伟.蒋晓玲.徐宁迎.郭晓令 秀丽隐杆线虫fat-1基因密码子优化、克隆及家兔表达载体构建[期刊论文]-江苏农业科学 2010(6)
2.周红梅.王颖.张立凡.华绪川.王争光.徐宁迎.郭晓令 fat-1基因密码子优化及在家兔胎儿成纤维细胞中的初步表达[期刊论文]-江苏农业学报 2011(2)
3.段晓雷.温雪梅.刘虎岐 淡色库蚊氯菊酯抗性相关基因PR-XP1cDNA的克隆与序列分析[期刊论文]-西北农林科技大学学报:自然科学版 2011(11)
4.刘虎岐.刘应保.宋云鹏.段晓雷.程鸟鸟 淡色库蚊氯菊酯抗性相关基因PR-OP全长cDNA的克隆及生物信息学分析[期刊论文]-西北农林科技大学学报(自然科学版) 2010(9)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_swxxx200404003.aspx
转载请注明出处范文大全网 » 启动子与起始密码子、终止子与