引用 xiaofeng1982 的 基因序列分析
基因序列分析
核酸和蛋
在获得一个基序后,需要对其进生物信息学分析,从尽量发掘信,从而指进一步的实究。通过染体定位分析、内含子/外显子分析、ORF 分 析、表达谱分析等,能够明基基本信息。通过启动子预测、CpG 岛分析和转录因子析等,识别调控区的顺式作用元件,可以为基因的调控究提供基础。 过蛋白质基性质分析,疏水性分析,跨区预测,信号肽预测,细胞定位预测,抗原性位点测,可以对基因编码蛋白性质作出初步判断和预测。其通过 疏水性分析和跨区预测可以预基因否为膜白,这对确定实验研究方向有重要的参考意义。此外,通过相似搜索、功能位分析、结构分析、查基因表达 谱聚簇数据库、基因敲除数据库、基组下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作推论。上述技术路线可其它类似分的物信息学分 析提供借鉴。本路线图及推荐
(http://gene.bjmu.edu.cn/science/bioinfomatics.htm ), 可以直接点击进入检索网站。
下面介绍其一些基。得注意的是,在对序列分析时,首先当明确序列的性质, 是mRNA 列还是基因组序列?是计算机拼接得还是经过PCR 扩增测序得
(一)核酸序列分析
1、双序列比对(pairwise alignment ) 双序列比对是指比较两条序列似性和寻找相似碱基及氨基的对应位置,它是用计算机进行序列分析强大工具,分为全局比和局部比对两,各以 Needleman-Wunsch算法Smith-Waterman 算法为代表。由于这算法都是启发式(heuristic )的算法,因
整空格
除了利BLAST 、FASTA 等部比对工具进行序列数据库的搜索外,
(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (http://www.ncbi.nlm.nih.gov/BLAST/)。
以上介绍的这些双列比对工具的用都比较简单,一般
(1)BLAST 和FASTA
FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST
(http://www.ncbi.nlm.nih.gov/BLAST/)是前用较为广的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分阵列计分,通过分值的大小和统计学显著性分析确定意义的局部比对。使用FASTA 和BLAST ,进行数据搜索,找与查询序列有一定相似的序列。一般认为, 如果蛋白的序列一致性为25-30%,则可认序列同源。 BLAST根据搜索序列和数据库不同类型分为5种(表2),另外PSI-BLAST 通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其 BLASTN、BLASTP 在践最常用,TBLASTN 在搜索相似序列进行新基因预
(2)Needle和Pairwise BLAST:其中Needle 适用于蛋白质和DNA 序列,而Pairwise BLAST仅适用于DNA 序列
(3)相似性和源性:必须,相似(similarity )和同源( homology)两个完全不同的概念。同源序列是指从某一共同祖先经趋异进化而形成的不同序列。相似性是指序列对过程检测序列和目标序列之间相 同碱基或氨基酸基序列所占比例的。经过比对,当相似性高
2、多序
在研究生物问题,常常需要两个上的列进行比对,这就是多序列比。多序列比对可用于研究
ClustalW用法:
(1)输:序列
(2)输:除了文本式外,还可以通过JalView 显示和编辑结果。此外,还可以外使用GeneDoc (常见
3、ORF(Open Reading Frame)分析
从核酸列翻译得到蛋白质序列,需要进行ORF 分析,每个生信息学分析软件包几
(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)件EMBOSS 中的getorf (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/)软件。ORF Finder 图形方式,为正链+1、+2、+3和反链+1、+2、+3六个位预测ORF ;Getorf 可指定预测ORF 的长度限和指定预测正反链。进行ORF 分析虽
(1)序列的准确性:尤其是通过计算机拼的序列,需要
(2)ORF 是否整:看在ORF 游同一相位否具有终
(3)参考Kozak 一致性规律,即起始密码子位点
(4)不要
4、染色体定 根据基组谱序进行染色体定位和浏览其组上下游基因。具方法为:(1)进行Genomic BLAST 搜索。(2)通过“Genome view”观察基因组结构。(3)点击应染色体区域,
5、因结构分析 根据因的mRNA 序列及因组序列,可进行基因结
BLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start) 进行分析。由于真核生物转录后内含子被剪切,因此将mRNA 和基因组进行比对以后,会发现mRNA 的每个外子与基序列片断匹配,根据这些片段可以 判断外显子的数和大小。外显子和内含
6、基因
(1)启动子测:推荐使
(http://rulai.cshl.org/tools/FirstEF/)进行启动子预测。用RT-PCR 等验方法获得的mRNA 往往缺少完整5’端,采用FirstEF 程可以对第一外
方法:以FastA
(2)转录因结合位点分
(http://www.cbrc.jp/research/db/TFSEARCH.html)及MATCH 程序
(http://www.gene-regulation.com/pub/programs.html#match)对转录因子数据库TRANSFAC (http://transfac.gbf.de/TRANSFAC/)进行搜索,寻找可能的转录因子结合位点。
方法:输入起始密码子游序列。结果将给出多可能的转录
(二)
1、跨膜区预测
各个物种膜蛋白比差别不大,约四分之的人类已知白为膜蛋白。由于膜蛋白不溶水,分离纯化困难,不容易生晶体,很难确定其结构。
推荐使用TMHMM 软件
(http://www.cbs.dtu.dk/services/TMHMM/) 对蛋白进行跨膜预测。TMHMM 综了膜区疏水性、电荷偏倚、螺旋长度和膜白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models ),跨膜区及膜内外区行整体的预测。TMHMM 是目前好的进行跨膜区测的软件, 尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定 一个蛋白是否为膜白。所有跨膜区预测软件的确不超过52%,但86%的跨膜区可以通不同的软件进行确预测。因此,综合分析不同的软件预
方法:输入待分
2、信号肽预测
信号肽位分泌白的N 端,当蛋白跨膜移位置时被掉。信号肽的特征是包括一正电荷区域、一个疏水性区和不带电荷但具有极性
推荐使用SignalP 软件2.0版
(http://www.cbs.dtu.dk/services/SignalP-2.0/) 对PDCD5N 端列行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型法,根据物种的不同,分别选择核和原 核序列进训练,对信号肽位置及切割位点进预测。信号肽割位点预测用Y-score maximum 来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测分泌蛋白,存信号肽,但II 型跨膜蛋白的N 端
方法:输入待分析蛋白序列,如为核基因选择原核训练
3、亚细胞定位预测
亚细胞定位与白质的功能非常要联系。亚细胞定位预测基于原理:(1)不同的胞器往往具有不同的理化环境, 它根据蛋白质的构及表面理化 特征, 选择性容纳蛋白。(2)白质表面直接暴露于细胞器环境中, 它序列折叠过程决
推荐使用PSORT (http://psort.nibb.ac.jp/)II 软件对PDCD5蛋的细胞内定位进行预测。PSORT 将动物蛋白质定于10个细胞器:(1)细胞浆,(2)细胞架,(3)内质网,(4)胞外, (5)高尔基体,(6)溶酶体,(7)
基因序列分析
南开大学数学院“
编号专用页
赛区评阅编号(由区组委会评阅前进编号):赛评阅记
评
阅
人
评
分
备
注
全国统一编(由赛
全国评阅编(由全
A题:基因序列分析
摘要
本文通过比HIV病基因序列,找出不段的DNA因序列的异同,进而分析基位点的相关性,从而对比找出HIV病毒基因序列中较
针对问题一:我利用点矩阵统计碱基量的百分比的方法,对比两文具有相同序列名的基因列及具有不同序列名的基因序列,找出两者的异同,得结论。两者的相似性表现在:同名序列具有子列关系,不同名序列具有相当的相似性,各种碱基的量具有稳定性。两不同点表现在:基因规模
针对问题二:们首先利用DNAwalk对HIV病毒基因序列位点分析,在分析的过程发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,而使用DFA模
针对问题三:在前两问分基上,结合前两问的分析结HIV病毒高度异性的特点,我们得出重要的基因位点应足下列条件:1、该基因位点位于Ⅱ基因列,2、该基因位点所在序列的列名应不同于Ⅰ
关键字:
问题重述
人类免疫缺病毒(HumanImmunodeficiencyVirus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷,导致艾滋病(AIDS).HIV基因组翻译成蛋白的过程相对复,它会重复交叉使用某些基因片段。病毒序列在进化和传播过程中主是envelope基因变化很快。详述可见HIV的生活史。由于现有的抗艾滋病毒药对HIV无法治,因此就将“责任”归咎高变异性.前,很多的HIV序列已经被测定出来,附件给出了一些HIV的序列.我们试图通过对HIV序列的分析来断定这些序列上哪置较重要,从而给艾滋病的研究一些帮助.例如,某位置上的突变可能影响到HIV的传播机制,如果我们瞄准这些位
HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta含了1400余条基因组的序列,因为在序列突变的过中,一些核酸会消失,这些消失的核酸在文中使用”-“来表示。表示此处发生了一次删除突变。就是说,文件中所有序列都是”对齐”的.,我们可以知道这些列中某一个特定位点上核酸的分布情.另外,HIV基组中包含了若干编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。HIV1_ENV_DNA.fasta其个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编后的蛋白序列。它们同样是已经比
(1)对于HIV1_ENV和HIV_GENOMEDNA序
点进行分析,指
(2)HIV序列点之间或者某些点之间是否存在相关
度量这种相关性?
(3)对这些序列行进一步的分析,找到你认为的HIV
这些位点
知识背景
本文通对HIV病毒的基因信进行分析,从而得出HIV病毒因中比较重要的位点,于本问题专业性
1、名词解释:
基因组:Genome,生物所携带的传信息的总,即单倍
码序列在内的
基因位点:基因在
染色体:由脱氧核核苷酸、蛋白质少量核糖核酸组成的
遗传物质的载。因是细胞
核糖体:结合着辅助蛋白质因子多个核体RNA(rRNA)亚基组成的细胞器。基:指嘌呤和嘧
2、一般细胞遗
DNA转录成RNA,RNA再被翻成白质执相应功能。DNA碱基的序列决定了蛋白结构,但DNA并非直接翻成蛋白质,基因组DNA先通过转录生成使RNA(mRNA),链的mRNA后将离开细胞核,指导蛋白质的合成。一过程称翻译,由核糖体负责完成。构成蛋白质的20种氨基通过转运RNA(tRNA)的作用到达核糖体,在核糖
一条DNA链经一个被称为录复制程,合成前体RNA转录本,除了腺嘧啶(T)替换为尿啶(U)。这条RNA是与DNA编码链完全等同的。后,RNA上的非编码部分(内含子)被称剪接的程切除。进而通过5’端加帽和3’端加尾用被修饰,生成信
3、关于逆转录病毒
逆转录病毒的传信息不是脱氧糖酸(DNA)上,而是存录糖核酸(RNA)上。在感染受害细胞时,逆转录病毒首先将RNA逆转为DNA,然后将这段逆转录基因插入到胞基因。由细胞的转录机构转换为病毒的蛋白和RNA。逆转录
4、HIV
HIV病毒是种逆转录,因HIV病毒的RNA要先经过录的过程合成对应DNA,这个过程是有序的高度复杂的过程。但HIV病毒的逆转录过程并不像DNA转录成RNA那样忠于原有信息,而是带有较的突变机率,
HIV外层类脂为主的包膜,包膜上镶嵌着许糖蛋白。它进人体后,膜上的糖白可专门识别T淋巴细胞表面的受体并与之结合。HIV基组T淋巴细胞,蛋白质衣壳遭受酶解。在逆转酶的作用下,以HIV的RNA为膜板,一条与RNA互的DNA链被合成。新DNA又成为另一条互补DNA链的合成膜板,如便产生互补的双链DNA。该双链DNA片进入细胞核,与宿细胞的染色体基组整合在一起,成为前病毒RNA,感染进入潜伏期。当被感染的细胞激活时,前病毒DNA便开始转录生成新的RNA片断,同成外壳蛋白等。在宿主细胞中,新合成的RNA、转录酶即蛋白质等装配成多的病毒颗粒,它们以出芽的方式从
符号说明
1、Ⅰ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_GENOME_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
2、Ⅱ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_ENV_DNA文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
3、Ⅲ(B.FR.83.HXB2_LAI_IIIB_BRU.K03455):
HIV1_ENV_PRO.文件中名为B.FR.83.HXB2_LAI_IIIB_BRU.K03455的序列
4、Ⅰ:HIV1_GENOME_DNA
5、Ⅱ:HIV1_ENV_DNA
6、Ⅲ:HIV1_ENV_PRO.
其余序列
模型分析
问题一:
由知识背景可知道HIV的高变性来自RNA的逆转录过的高的突变机率,而Ⅰ是1400余条基因组的序列,Ⅱ是一个编码蛋质基因的序列,Ⅲ是Ⅱ编码后的蛋白序列。同时,病毒的传播主要是由蛋白质完成的,此只有编码蛋白
B.FR.83.HXB2_LAI_IIIB_BRU.K03455)均专业的序号,因此可认为是该序列的名称。通过对比可以发现Ⅰ和Ⅱ中的序列名不相同,因此在此问题中,我们将过对比具有相
问题二:
目前DNA序列相关性结构全部特征的研可以说学的,其研究要是指计相关性,当且仅当两个事件的联合概率不等于各个事的概之积时,两事件才有统计相关性。数学方上的研究者将DNA序列看做一串符号,它的相关性构可通所有可能的碱基对相关函数或相应的率谱刻划。同时,我可将DNA序列的变化视为符号序列的改。在基因和基因序列中,存在高度的不均一性,即各个位置的碱基分布存在着很大的差异。通过基于熵的分割法,可以将序列分割为较均一的序,即可对DNA序列中的这种不均一性进行定量分析和研究。我将通过
问题三:
通过问一和问题二的分析和研究,们可以知序列的相关性及Ⅰ和Ⅱ对比结果,鉴于HIV毒的高变异性,我
的基因列之中,因此我们讨论重点在于Ⅱ不同于Ⅰ的列,寻找其中相
模型求解
问题一:
一、通过点矩阵
本方法原理:
矩阵图法:矩阵图就是从多维问题事件中,找出成对的
根据矩阵图来分问题,利用数上矩阵的形式表
中探索问题所在
方法:将两条待比的序列分别放在阵的两个轴上,一条
条在Y轴上,
所示。
图1
当对的行与列的序列字匹配时,则在矩阵对应位置做出“点”记。逐个比
可能存在
1、果两条序列存在相的子串,则对于每一个相的子串对,有条与对角线平
中的斜线表具有
图2
2、两条互为反的序列,则在对角线方向上有标
所示:
图3
3、对于矩标记图叠与对角线平行斜线,可合起来,形成条序列的一种比对。在两条子序列的中可以插入符号“-”,表示插入空位符。在这种对比之下分析两条
,实际上就是矩阵标记
图4
下面我们用这种
由于序列的碱数目过多,我们将序列用BioEdit软件翻译成氨基酸序列再进对比。为了证明利用矩阵图
图5
由此可出矩阵图法对氨基酸序依然有效,且两序列进行比较后现如图5的斜线,则示两序列有相同
1、对在ⅠⅡ中序列
图6
2、对在ⅠⅡ中序列
图7
下面我们将
较:
图6-A
图7-A
分别将三个
图5-1表与自身比
图6-1表同名序列
图7-1表异名序列
第一部分:
图5-1图6-1
第二部分:
图7-1
图5-2
图6-2
7-2图
第三部分:
图5-3
图6-3
图7-3
通过图像
我们可以
名序列是Ⅰ的一个连的子序列;而不的列ⅡⅠ的个连续的子列。由此我们可以认为Ⅰ与Ⅱ相点在于Ⅱ与Ⅰ的同名序列具有序列的关系。而Ⅰ与Ⅱ也具有大量的不同名的列,从图像的比对中我们以发现即使是不名的序列,他们的序列也具有相当的相似性,可以认为由于HIV的高度变异性造成的。与此同时,Ⅰ中的基因序规模远远大于Ⅱ,表明ⅠDNA序列中的碱基并不完全编码蛋质,有基因的缺失突变,这与实际理论符合,
在以上析的基础上,我们计出Ⅰ与Ⅱ相同的序列共有1281条,Ⅰ特
二、通过各种碱基
DNA序列是各种碱基(A、T、G、C)构成的,我们将通过Ⅰ与Ⅱ中同名及异的基因序列的各种碱基的含量的百分比分析两序的异同。将上述方法中找到的三类序列(同名列、Ⅰ特有序列、Ⅱ特有序列)分别行编号,从三
序列名称A1.KE.97.ML752.AY322193
A1.KE.97.ML752.AY322193
B.JP.04.DR6175.AB480694
BC.CN.98.YNRL9828.AY967805
B.US.02.L861P.FJ469748
B.US.02.L861P.FJ469748
C.ZM.03.ZM246F_flA10.FJ496186
B.US.04.UNC5283_17.EF593273
C.ZA.02.02ZAPS001MB1.DQ275648
C.ZA.02.02ZAPS001MB1.DQ275648
01_AE.VN.98.98VNND15.FJ185235所属文件腺嘌呤(A)%34.5135.6935.1534.3834.3536.1936.0335.1135.5536.2236.61
胞嘧啶(C)%17.6717.7918.1116.9417.5617.7917.3216.7116.6917.4717.24鸟嘌呤(G)%23.3824.2324.3924.3423.3423.8424.2423.5023.2124.2023.84胸腺嘧啶(T)%24.4422.2922.3524.3424.7522.1822.4124.6924.5622.1122.31ⅡⅠⅠⅡⅡⅠⅠⅡⅡⅠⅠ
B.GB.96.875DEN49.AJ53561201_AE.TH.02.OUR769I.AY35806201_AE.TH.02.OUR769I.AY358062A1B.CY.05.CY107.FJ388926B.US.04.CAAN.AY835452BCF1.AR.04.04AR160677.DQ383754BCF1.AR.04.04AR160677.DQ38375401_AE.TH.93.93TH9021.AF164485A.KE.00.00KE_KNH1207.AY736815ⅡⅡⅠⅠⅡⅡⅠⅠⅡ
35.0934.6236.8536.5634.3535.1736.3635.6234.54
17.3116.7816.9017.7417.3917.5818.2217.8017.54
23.2923.7823.8423.3823.9923.0923.6024.2723.61
24.3124.8322.4122.3124.2724.1621.8122.3124.31
由上述据可以出无论是同名还是异的序列,论是Ⅰ序列或Ⅱ序列,序的各种碱基的含量的百分
综上所述,Ⅰ与Ⅱ的相似性表在:A.Ⅱ是Ⅰ
B.Ⅰ与Ⅱ中不同名序列有相当的相似性,C.Ⅰ与Ⅱ在各种碱的含量上具
A.Ⅰ与Ⅱ的基
B.Ⅰ与Ⅱ中不名序列出现具有突变特点的
DNAwalk是研究DNA随机性质的有用型,其如下:首先将DNA序列转成二进制序列(例如:G或C变成1,A或T变成0),后二制序列转化成步,1表示向上一步,0表示下一步。对于无关的步,每一步的和与上一步是无关的,而存在关性的步,每一步的方向依赖于步的历,即对已走过的步存在忆功能。一维DNAwalk规则如下:在DNA链上的i位处,如果是嘧,则向上走一步,否则如果出现的是嘌呤,则向下走一步,我们的问题是这样的DNAwalk是否仅仅显示短程相关性(似n阶马尔科夫链)或是长程相关性(像临界现象和它标度不变的分现象)。DNAwalk提供了每个基因的图
DNAwalk还提供基因序列和基因组序的新的图表示法,碱基
通过计算l
y(l)≡∑i=1u(i)
类似于分数布朗运,任何步的一个重统计特征是均位移
l
F(l)≡??yl0(l)??yl0(l)?=??yl0(l)?????yl0(l)??定义为:
2
222
l1/2
其中
?yl0(l)
定义为:F(l)~l
1/2
?yl0(l)≡y(l0+l)?y(l0)=∑u(i)
i=l0
l0+l
,上横线指在序列中
对所有的l0求
(a)设定
(b)从l0=1开始动序列的初始点,一到序列的末端;(c)对
?yl0(l)
?yl0(l)
;
2
F(l)进
2
二进制序列自相关
F(l)的结果
(a)如果碱基序列完全随机的,则l为0时,C(l)为0,
1/2
F(l)~l此时有;
(b)如果存在征尺度为R短程相关性,如
C(l)~exp(?l/R),限的尺度,函数F(l)明显偏了l1/2,尽管如此,F(l)仍然渐
(c)如果没有特尺度,或特征尺
是指数的而更
F(l)~lαα≠1/2F(l)~lα
此时,α≠1/2。由其他因素的影响,F(l)当然不是严格幂函数,
在本问题中们选取了
的作图及编
颜色较浅的线为Ⅱ中A.CM.00.NYU1423.DQ313248序列的DNAwalk
颜色较深的线为ⅡB.FR.83.HXB2_LAI_IIIB_BRU.K03455的DNAwalk但由于基和基因组序列中存在着高度的不均一性,即不同位置的碱基密度在着很大的差异,所以DNA序列是高度非平稳的序列,因而DNAwalk的模型不适于研究基因序列。为了充分考虑DNA序列的不均一性
1、将整长度为N的序分成N/l个不重窗口,每个口含有l个核苷酸。定义窗口
2、定
2F(l)。实上有公式d,然后计算所有窗
Fd2(l)=
1
N
∑
2?yl(n)n=l
N
。
DNAwalk模和DFA模型有相的结论,如果在碱基
1/2α
F(l)~lF(l)~ldd或是无关,则,如果存在长
模型不论理论上还大的实验中都比DNAwalk模型有更越的性能和更好的结果,因而得
问题三:
在前问分析的基础上,我们认为:在Ⅰ与Ⅱ具不同序列名且具高度相关
首先,HIV病毒有高度变异性,而HIV的苗研陷入僵局。通过问题一的比对,我们HIV编码蛋白质的基因有乎一半与DNA序列组的基因序列具有子列关系,这可以理解为在因的复制过程,这一部分的基因保留了下来,没有发变异。从一个角度我们可以知道,病毒的传播与繁殖是由基因码的蛋白质实现的,而基因本身的实现,因此我们认
其次,在第问中我析基因序列的相关性,DNA序列相关性结的研究方向是揭示基因和基因组的结,揭示更多的生物意义。事实上,DNA序列中存在着不同尺度的
综合上述两点,我们为在重要的基因位应满足下列件:1、
2、基因位点所在序的序列名应不同于Ⅰ中序列名,3、该因位点在
优缺点分析
优点:通BioEdit件将数据导入并出序列同DNA序,然后将些序列编号(1—1281),再从这些数据中用Matlab件生成随机数作为研究对象。通过这一筛我们可以将海量数据简单化,并且用生成随机数的方法以克服为挑选的片面性,让我们的模型更具有用性。解决问题一时,我们用较为简易方法—“矩阵作图法”(“对角线作图”),我们能很直观看出各序列的异同。另外我们对各序列中的各种碱基的含量进行统计,也能从另外一角度更全面的思考这一问题。解问时,我们引入了DNAwalk,但在分析过中发现DNAwalk并不分适合基因序列的研究,于是又引
缺点:我们模型分析是从两(Ⅰ与Ⅱ)DNA序列中出序号相同的DNA序列进相似性比较以及比较各碱基(A、T、G、C)占整个基因列例,而对于DNA基因组里和编码蛋白里特的DNA序列我们只进行了碱基(A、T、G、C)占整基因序列比例统计,所得结论不具有普遍性。同们的模型分析里数学论体现不强,我们数据统计主要是依靠BioEdit软件用“点矩阵”的数学法来执行的。同时我们虽然采取了选取随机数的方式来选取研究数据,但是毕竟基因序列一个海量数据,我们这样选取数据方否合理还有待证明。进一步的说,这个问题是一个业性较强的问题,果有更专业的相关知识的支持,我们将可以
参考文献
[1][2][3][4]
邓宏魁,毒:噬健康的黑客,少年出版社,2006张自立、彭永康,代生命科学发展,科学出
http://www.lmbe.seu.edu.cn/chenyuan/xsun/bioinfomatics/Web/Index.html[5]刘劲松,DNA序列相关性结构研究综述及人类基因组序列相关性分析,北京工业大
学硕士学位论文
附录:
附录1:MATLAB关
symsxl;
xl='';%‘’中输入
whilek<>
ifxl(k-1)=='A'
X(k)=X(k-1)-1;elseifxl(k-1)=='T'
X(k)=X(k-1)+1;
elseifxl(k-1)=='G'
X(k)=X(k-1)-1;
elseifxl(k-1)=='C'
X(k)=X(k-1)+1;
else
breakendendendend
k=k+1;
endplot(X)
输入结果:
ACGTTCC
附录2:DNAwalk
clearsymsxl;
xl='ATGAATGATACAGAGGTACATAATGCAA';k=1;l=1;y=0;q=1;
whilek<>
ifxl(k)=='A'||xl(k)=='G'
u(k)=-1;
elseifxl(k)=='T'||xl(k)=='C'
u(k)=1;else
breakendendk=k+1;end
whilel<>
i=l+1;
whilei<(l+length(xl)>(l+length(xl)><>
i=i+1;endu(i);
y(q)=sum(u(i));l=l*2;q=q+1;enda=0;kk=1;
whilekk<>
a=y(kk)^2+a;
kk=kk+1;endqq=1;b=0;
whileqq<>
b=y(qq)^2+b;qq=qq+1;end
f=a/q-(b/q)^2
结果为:
f=
0.1389
附录3:DNA步双线图程序:
clear
symsxl1xl2;
xl1='GAGAGTGAAGGAGATGCAGAGGAACTGGCAGAACTTGGGGAGATGGGGCATCTTGTTATTGGGGATATTGATAATCTGTAGAGCTACAGATAACTTGTGGGTCACAGTCTATTATGGGGTACCTGTGTGGAAAGATGCAGAAGCCACCCTATTTTGTGCATCAGATGCTAAAGCATATGATACAGAAGTACATAATGTCTGGGCTACACATGCCTGTGTACCCACAGACCCCGACCCACAAGAAATAAATTTGGGAAATGTGACAGAAAAGTTTAACATGTGGAAAAATAAGATGGTAGAGCAGATGCATGAAGATATAATCAGTCTATGGGATCAAAGCCTAAAGCCATGTGTAAAGTTAACCCCCCTCTGCGTCACTTTAGAGTGCCATACTATAACTCCACCATCAACGCCACGAAGGAAATGCAGGGAGAAGTAAAAAACTGCTCTTTCAATATAACTACAGAAATAAGGGATAGAAAACAGAAAGTATACTCACTTTTTTATAGAGCTGATGTAGTACAACTTGGTGACAATAACAGCAGCCAGTATATACTAATACATTGTAATACTTCAACCATTACACAGGCCTGTCCAAAGGTATCCTTTGAGCCAATTCCCATACATTATTGTGCCCCAGCTGGTTTTGCGATTCTAAAGTGTAATAGTGAGACATTCAGTGGAGAAGGGGAATGCAAGAATGTCAGTACAGTACAATGCACACATGGAATCAGGCCAGTAGTATCAACTCAACTGCTATTAAATGGCAGCCTAGCAAAGGAGCAGGTAATGATTAGATCTAAAAATTTCACGAACAATGCCAAAACCATAATAGTACAACTTAACCAGTCCATATCAATTAATTGTACCAGACCTAACAACAATACAAGAAAAAGTATACACATAGGACCTGGACAAGCGTTCTATGCAACAGGTGACATAATAGGAAATATAAGACAAGCACATTGTAATGTGTCTAGAGCTGAATGGAATGAAGCTTTAAAGCGGGTATCTGCAAAATTAAGGGAACAGTTTAAGAACAAAACAATAGTTTTTAATTCATCTACAGGAGGTGATCCAGAAATTACAACACATAGTTTTAATTGTGGAGGAGAATTTTTCTATTGCAATACAACAGGCCTGTTTAATAGTACTTGGTACAAAAATGGTACAGGCAGCATACAGAATGACACAAATGGCACAATAACTCTTCAATGCAGGATAAAGCAAATTATAAATATGTGGCAAAGAGTAGGACGAGCAATGTATGCCCCTCCCATCCAAGGAGTAATAAAGTGTAATTCAAATATTACAGGACTACTATTAACAAGAGATGGTGGTGGTAATGATAGTGAGACCAATGATAGTGAGACCTTCAGACCTGGAGGAGGAGACATAAAGGACAATTGGAGAAGTGAATTATATAAGTATAAAGTAGTAAAAATTGAACCACTAGGAGTAGCACCCACCAGGGCAAAAAGAAGAGTGGTGGAGAGAGAAAAAAGAGCAGTAGGAATAGGAGCTGTCTTCCTTGGGTTCTTAGGAGCAGCAGGAAGCACTATGGGCGCAGCATCMATAACGCTGACGGTACAGGCCAGACAGCTACTGTCTGGCATAGTGCAACAGCAGAGCAATCTGCTGAGGGCTATAGAGGCTCAACAACAGATGTTGAGACTCACAGTCTGGGGCATTAAACAGCTCCMAGCGAGAGTCCTGGCTGTGGAAAGATACCTAAAGGATCMACAGCTCCTAGGAATTTGGGGCTGCTCTGGAAGAYTCATCTGCACCACTGCTGTGCCTTGGAACTCTAGTTGGAGTAATAAATCACAAGAAGAAATATGGGATAATATGACCTGGCTAGAATGGGATA
AAGAAATTAGCAATTACACAGATATAATATATGGTCTAATTGAAAAATCGCAGAACCAACAGGAAAAGAATGAACAAGATCTATTGGCATTGGACAAGTGGGCAGGTCTGTGGAACTGGTTTGACATATCAAATTGGCTATGGTATATAAGAATCTTTATAATGATAGTAGGAGGCTTGATAGGTTTAAGAATAATTTTTGCTGTGCTTTCTGTAGTGAACAAAGTTAGGCAGGGATACTCACCTTTGTCATTTCAGACCCTTACCCCAAGCCCGAGGGGACCCGACAGGCCCGAAGGAACAGAAGAAAGAGGTGGAGAGCAAGACAAAGACAGATCCATTCGATTGGTGAACGGATTCTTAGCGCTTGCCTGGGACGATCTGAGGAACCTGTGCCTCTTCAGCTACCACCGCTTGAGAGACTTCATCTTGATTGCAGCGAGGACTGTGGAAATTCTGGGACAGAGGGGGTGGCAGATCATCAAATATCTGGGGAATCTTGTGCAGTATTGGGGTCAGGAACTAAAGAATAGTGCTATTAGCTTGCTTAATGCCACAGCAATAACAGTAGCTGGGTGGACAGATAGGGTTATAGAACTAGCACAAAGATTGGGTAGGGCTATCCGTCATATACCTAGAAGAATCAGACAGGGTTTAGAAAGGGCTCTGCTATAA';
xl2='ATGAGAGTGAAGGAGAAATATCAGCACTTGTGGAGATGGGGGTGGAGATGGGGCACCATGCTCCTTGGGATGTTGATGATCTGTAGTGCTACAGAAAAATTGTGGGTCACAGTCTATTATGGGGTACCTGTGTGGAAGGAAGCAACCACCACTCTATTTTGTGCATCAGATGCTAAAGCATATGATACAGAGGTACATAATGTTTGGGCCACACATGCCTGTGTACCCACAGACCCCAACCCACAAGAAGTAGTATTGGTAAATGTGACAGAAAATTTTAACATGTGGAAAAATGACATGGTAGAACAGATGCATGAGGATATAATCAGTTTATGGGATCAAAGCCTAAAGCCATGTGTAAAATTAACCCCACTCTGTGTTAGTTTAAAGTGCACTGATTTGAAGAATGATACTAATACCAATAGTAGTAGCGGGAGAATGATAATGGAGAAAGGAGAGATAAAAAACTGCTCTTTCAATATCAGCACAAGCATAAGAGGTAAGGTGCAGAAAGAATATGCATTTTTTTATAAACTTGATATAATACCAATAGATAATGATACTACCAGCTATAAGTTGACAAGTTGTAACACCTCAGTCATTACACAGGCCTGTCCAAAGGTATCCTTTGAGCCAATTCCCATACATTATTGTGCCCCGGCTGGTTTTGCGATTCTAAAATGTAATAATAAGACGTTCAATGGAACAGGACCATGTACAAATGTCAGCACAGTACAATGTACACATGGAATTAGGCCAGTAGTATCAACTCAACTGCTGTTAAATGGCAGTCTAGCAGAAGAAGAGGTAGTAATTAGATCTGTCAATTTCACGGACAATGCTAAAACCATAATAGTACAGCTGAACACATCTGTAGAAATTAATTGTACAAGACCCAACAACAATACAAGAAAAAGAATCCGTATCCAGAGAGGACCAGGGAGAGCATTTGTTACAATAGGAAAAATAGGAAATATGAGACAAGCACATTGTAACATTAGTAGAGCAAAATGGAATAACACTTTAAAACAGATAGCTAGCAAATTAAGAGAACAATTTGGAAATAATAAAACAATAATCTTTAAGCAATCCTCAGGAGGGGACCCAGAAATTGTAACGCACAGTTTTAATTGTGGAGGGGAATTTTTCTACTGTAATTCAACACAACTGTTTAATAGTACTTGGTTTAATAGTACTTGGAGTACTGAAGGGTCAAATAACACTGAAGGAAGTGACACAATCACCCTCCCATGCAGAATAAAACAAATTATAAACATGTGGCAGAAAGTAGGAAAAGCAATGTATGCCCCTCCCATCAGTGGACAAATTAGATGTTCATCAAATATTACAGGGCTGCTATTAACAAGAGATGGTGGTAATAGCAACAATGAGTCCGAGATCTTCAGACCTGGAGGAGGAGATATGAGGGACAATTGGAGAAGTGAATTATATAAATATAAAGTAGTAAAAATTGAACCATTAGGAGTAGCACCCACCAAGGCAAAGAGAAGAGTGGTGCAGAGAGAAAAAAGAGCAGTGGGAATAGGAGCTTTGTTCCTTGGGTTCTTGGGAGCAGCAGGAAGCACTATGGGCGCAGCCTCAATGACGCTGACGGTACAGGCCAGACAATTATTGTCTGGTATAGTGCAGCAGCAGAACAATTTGCTGAGGGCTATTGAGGCGCAACAGCATCTGTTGCAACTCACAGTCTGGGGCATCAAGCAGCTCCAGGCAAGAATCCTGGCTGTGGAAAGATACCTAAAGGATCAACAGCTCCTGGGGATTTGGGGTTGCTCTGGAAAACTCATTTGCACCACTGCTGTGCCTTGGAATGCTAGTTGGAGTAATAAATCTCTGGAACAGATTTGGAATCACACGACCTGGATGGAGTGGGACAGAGAAATTAACAATTACACAAGCTTAATACACTCCTTAATTGAAGAATCGCAAAACCAGCAAGAAAAGAATGAACAAGAATTATTGGAATTAGATAAATGGGCAAGTTTGTGGAATTGGTTTAACATAACAAATTGGCTGTGGTATATAAAATTATTCATAATGATAGTAGGAGGCTTGGTAGGTTTAAGAATAGTTTTTGCTGTACTTTCTATAGTGAATAGAGTTAGGCAGGGATATTCACCATTATCGTTTCAGACCCACCTCCCAACCCCGAGGGGACCCGACAGGCCCGAAGGAATAGAAGAAGAAGGTGGAGAGAGAGACAGAGACAGATCCATTCGATTAGTGAACGGATCCTTGGCACTTATCTGGGACGATCTGCGGAGCCTGTGCCTCTTCAGCTACCACCGCTTGAGAGACTTACTCTTGATTGTAACGAGGATTGTGGAACTTCTGGGACGCAGGGGGTGGGAAGCCCTCAAATATTGGTGGAATCTCCTACAGTATTGGAGTCAGGAACTAAAGAATAGTGCTGTTAGCTTGCTCAATGCCACAGCCATAGCAGTAGCTGAGGGGACAGATAGGGTTATAGAAGTAGTACAAGGAGCTTGTAGAGCTATTCGCCACATACCTAGAAGAATAAGAC
AGGGCTTGGAAAGGATTTTGCTATAA'k=2;q=2;X(1)=0;
whilek<>
ifxl1(k-1)=='A'X(k)=X(k-1)-1;elseifxl1(k-1)=='T'
X(k)=X(k-1)+1;
elseifxl1(k-1)=='G'
X(k)=X(k-1)-1;
elseifxl1(k-1)=='C'
X(k)=X(k-1)+1;
else
breakendendendendk=k+1;endY(1)=0;
whileq<>
ifxl2(q-1)=='A'
Y(q)=Y(q-1)-1;elseifxl2(q-1)=='T'
Y(q)=Y(q-1)+1;
elseifxl2(q-1)=='G'
Y(q)=Y(q-1)-1;
elseifxl2(q-1)=='C'
Y(q)=Y(q-1)+1;
else
breakendendendendq=q+1;end
plot(X,'r')holdonplot(Y)
结果:
基因序列分析
基因序列分析
核酸和蛋
在获得一个基序列,需要对其进行生信息学分析,从中尽量发信息,从而导一步的验研究。通过色位分析、含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可基因的调控研究提供基础。通过蛋白质基本质分析,疏水性分析,跨膜区预测,信号预测,亚细定位预测,抗原性位点预测,可对基因编码蛋白的性质初步判断和预测。尤其通过疏水性析和跨膜区预测可以预测基是否膜蛋白,这对确定实验研方向有重要的参考意义。此外,通过相似性搜索、功能点分析、构分析、查询基因表达谱聚簇数据库、基因敲除据库、基因组上下游邻等,尽量挖掘网络据库中的信息,可以对因功能作出推论。上述技术路线可为其它类似分子生信学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人
下面介绍其一些基析。值得注意的是,在对序行分析时,首应当明确序列的性质,是mRNA序还是基因组序列?是计算机拼接得到
(一)核酸序列分析
1、双序列比对(pairwise alignment) 序列对是指比较两条序列的相似性和寻找相似碱基及基的对应位置,它是用计算机进行序分析的强大工具,分为全局比对和局部比对两类,各Needleman-Wunsch算法和Smith-Waterman算法为代。由于这些算法是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,用适当的比对工具,在比对时调整空格罚分(gap penalty)和空格延伸
除了利用BLAST、FASTA等局比工具进行序列对数据库的搜
以上介绍的这些双列比对工具的用都比较简单,一般
(1)BLAST和FASTA
FASTA()和BLAST()是目前运用较广泛的性搜工具。这工具都采局部比对的方法,选择计分矩阵对序列计分,通过分值的大小统学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有定相似的序列。一般认为,如果蛋白的序列一致为25-30%,则可为序列同源。BLAST根据搜索序列和数库的不同类型分为5(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为用,TBLASTN在搜索相似序列进行新基因预测时特有用。 使用BLAST时,先选择需要使用的BLAST程序,然
(2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列
(3)相似性和源性:必须,相似(similarity)和同源性( homology)两个完全不同的概念。同源序列是指从某一共同祖先经趋异进化而形成的不同序列。相似性是指序列对过程检测序列和目标序列之间相同碱基或氨基酸残序列所占比例的大。经过比对,当相似性高
2、多序
在研究生物问题,常常需要时两个上序列进行比对,这就是多序列。多序列比对可用于研一组相关基因或蛋白,推断基因的进化关系,还可用于
ClustalW用法:
(1)输入:序列
(2)输:除了文本式外,还可以通过JalView示和编辑结果。此外,还可以外使用GeneDoc(常见
3、ORF(Open Reading Frame)分析
从核酸序列翻译得蛋白质序列,行ORF分析,每个生物信息学分析软件包几乎都翻译功能。推荐使用NCBI的ORF Finder()软件或EMBOSS中的getorf()软件。ORF Finder 以图形方式,分为正链+1、+2、+3和反链+1、+2、+3六个相位测ORF;Getorf可指定预测ORF的长度下限
(1)序列的准确性:尤其是通过计算机拼的序列,需
(2)ORF是否整:看在ORF上同一相位是具有终
(3)参考Kozak一致性规律,即起始密码子位点符
(4)不要
4、染色体定 根据基图谱序进行染色体定位和浏览因组上下游基因。具体方法为:(1)进行Genomic BLAST搜索。(2)通过“Genome view”观察基因组结构。(3)击相应染色体区
定位。
5、基因结构分析 根据基因的mRNA序列及因组列,可以进行基因结构的分析。推用BLAST或BLAT()进行分析。由于真核生物转录后内含子被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显与基因序列片断匹配,根据这些片段可以判断外显子的数目大小。外显子和内含
6、基因
(1)启动预测:用泉港开发的FIRSTEF程序()进行动子预测。用RT-PCR等实验方法得的mRNA往往缺少完整的5’端,采用FirstEF 程序可
方法:以FastA格
(2)转因子合位点分析:推荐使
()对转录因子数库TRANSFAC()进行搜索,寻找
方法:输入起始密码子游序列。结果将给出多可能的转录
(二)
1、跨膜区预测
各个物种膜蛋白比差别不大,约四分之的人类已知白为膜蛋白。由于膜蛋白不溶水,分离纯化困难,不容易生晶体,很难确定其结构。
推荐使用TMHMM软()对蛋白行跨测。TMHMM综合跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋拓学限制等性质,采用隐马氏模型(Hidden Markov Models),对膜区及膜内外区进行整体的测。TMHMM是前最好的进行跨膜区预测的软件,它尤其长于区可溶性蛋白膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软进行正确预。因此,综合分析不同的软件预测结
方法:输入待分
2、信号肽预测
信号肽位分泌白的N端,当蛋白跨膜位置时被切。信号肽的特征是包括一个电荷区域、一个疏水性区域不带电荷但具有极性
推荐使用SignalP软件2.0版()PDCD5N端序列行信号肽分析。SignalP2.0根信肽序列特征,采用神经网络方法隐马氏模型方法,根据物种的不同,分别选择用核和原核序列进行训练,对号肽位置及切割位进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score判断:如果mean S-score大于0.5,则预测为分泌白,存在信号,但II型跨膜蛋白的N端序列
方法:输入待分析蛋白序列,如为核基因选择原核训练
3、亚细胞定位预测
亚细胞定位与白质的功能着非重的联系。亚细胞定位预测基下原理:(1)不的细胞器往往具有不同的理化环境,它根据蛋白质结构及表面理化特征,选择性容纳蛋白。(2)白质表面直接暴露于细胞器环境中,它序列折叠过程决
推荐使用PSORT()II件PDCD5蛋白的细胞内定位预测。PSORT
基因序列特征及表达分析
基因组学应用
研究报告
Research Report
vv -2ogo , 一个在草菇原基中高表达的基因
谢斌
王健
汪健芳许
谢宝贵*
福建农林大学菌物研究心, 福州, 350002*通
摘要本研究结合草菇子实不同生长时期表达谱及光定量PCR 分析果,获得一个在原基高表达的基因,推测它与草菇原时子实体的生长分化有关。基因组注释结显示它是一个编码2-OG 依赖性氧合酶(2-oxoglutarate dependent oxygenases) 的基因,系统发育分析也支基因注释的结果,基因我们命名vv -2ogo 。转录组Reads 定位结果表明,该基因全长1451bp ,含有3个外显子,2个子,编码440个氨基酸,其中第二个内含在RNA 加工
vv -2ogo , a Gene of Volvariella volvacea Having Higher Expression Level in Primordium
Xie Bin Wang Jian
Wang Jianfang Xu Mingfeng Li Xiao Yan Junjie
Xie Baogui *
Mycological Research Center of Fujian Agricultural and Forestry University, Fuzhou, 350002*Corresponding author, mrcfafu@163.comDOI:10.13417/j.gab.034.000000
Abstract Based on the DGE (digitalgene expression profiling) data of different growth stage and RT-qPCR test results, a gene with higher expression level in primordium was discovered, which may be associated with V. volvacea primordium formation. The result of genome annotation showed that this gene named vv -2ogo encodes the 2-oxoglutarate dependent oxygenases, and the result was confirmed by the analysis of phylogenetic tree. The reads mapping in transcriptome showed that this gene contains 1451bp, including 3exons and 2introns, and encodes 440amino acids. Besides, the second intron was found to have a retention alternative splicing during RNA processing. Keywords V olvariella volvacea , 2-OG dependent oxygenases, Gene structure, Expression analysis 草菇(Volvariella volvacea ) ,也叫兰花菇、麻菇和中国蘑菇,是一种生长于热带亚热的高温型草腐生可食用真,味道鲜美,VC 含量高,有很高的营养价值,同时又有消食去热,补脾益气,增强人体免疫力等药用功效(学等, 2011) ,由于生物学转化率低、产量不
氧合酶是一种化还原酶,化底与子氧中氧原子结合的反应(尧, 2013) 。核非血红素氧合酶由一个很大的氧化酶家族组成,中2-OG 依赖性氧合酶及其相关的酶类这个族中已知的最大群体,已研究的2-OG 依赖性氧合酶都具
2-OG 依赖性氧合超级家族广存在核物和细,参与化大约50~100种不同的生化反应,其中多族成员生物化学功能尚不明确(Ar-avind and Koonin, 2001; Dunwell et al., 2004; Korvald et al., 2011) 。本研究通对课题组已有草菇基因组表达谱数据的分析,鉴定出一个2-OG 依赖性氧合酶基因,进一步利物信息学和RT-qPCR 技术对因的序列特征表达模式进行分析,以期明确该基因
1结果与分析
1.1vv -2ogo 基因的克隆与测序
我们在分草菇不
基金项:本研究由国家自然学基金项资助(31470107)和国家重点基研究发展计划
2
基因组学
Genomics and Applied Biology
表达谱时发现一个原基阶段高表的因,基组释结果表明该基因编码2-OG 赖氧合酶。为了验证基因组序拼接的可靠性,本研究以基因组序列参考,设计引物并利
通过ZOOM 件,我们发现vv -2ogo 有3个外显子(图中编号为E1, E2和E3) ;2个内含,长度分别为75和53。在RNA 加工过程中,第二个含子具有保留的可变剪接方式(图2) 。将无内子的vv -2ogo 序列提交NCBI 进行开放阅读(ORF)预测,得vv -2ogo 开放阅
在NCBI 上选择
2-OG 依赖性氧合蛋白序列进行系统进
果显示该蛋白的化与物种进有定关(3) ,Figure 3The phylogeny of 2-OG dependent oxygenases in V. 担子菌的2-OGO 聚在
利用分子氧粒参与
统进化分析支
典型的反应(Prescott,1993; Hegg and Que, 1997) 。在胶原蛋白的
Zhang, 1999) 、青霉素和头孢
数字基因表
成(Roachet al., 1995; Valeg 覽rd et al., 1998; Zhang et al.,
其随后的4发育时期
2000) 、DNA 修
长期和成熟) 的基
的新陈代谢
基阶段的表显著高
着重要角色(Schofieldand Zhang, 1999; Aravind and
组织(图4) 。采用定
Koonin, 2001; Hewitson et al., 2003) 。本研究首次在
在原基阶段表达,表
草菇中鉴定得一个原
上述两种方检测的
性氧合酶基,并进一
草菇原基阶段的特生物学过程有关。果的准确性,说明该
特殊生物学过程。
2讨论
Prescott 等(1993)研究发现,2-OG 依赖性氧合酶
2-OG 依赖性氧
该酶参与乙烯、霉素等激素
图2vv -2ogo 基因结构图
注:外显子用黑表示; 内含用实线表示; 发
Figure 2Diagram of vv -2ogo
Note:Exons are indicated by 3black boxes; Introns are indicated by 2solid lines; Alternative splicing is indicated by the imaginary
line
图1vv -2ogo
注:A:Sanger 法测序得序列; B:
Figure 1The sequence comparison of vv -2ogo between genome splicing and cloning sequencing Note:A:Sequence from sanger sequencing; B:Sequence from genome
splicing
vv -2ogo , 一个在草菇原基中高表达的基因
vv -2ogo , a Gene of Volvariella volvacea Having Higher Expression Level in
Primordium
3
图4vv -2ogo 基因在草菇5个时期的表达谱分
注:PR:原基; BU:; EG:形期; EL:伸长期; MA:成熟期; *代表与原
Note:PR:Primordia stage; BU:The stipe of button stage; EG:The stipe of egg stage; EL:The stipe of elongation stage; MA:The stipe of maturation stage; *Indicates significant difference compared with primordia stage (p <0.05, lsd="" test,="" n="">0.05,>
1997; Lukacin and Britsch, 1997) 。有研究表明,赤霉
素具有促进菌菌丝,使原基期子实体的增大用(龙芳和张萍, 2014) 。本研究结果示,草菇2-OG 依赖性氧合酶在基阶段具有显著性高表达,
对于草菇2-OG 赖性氧合酶在子实体成与发育过程作用的具
3材料与方法
3.1菌株的来源
本研究用的菌株来自福建主栽品种“优一号”的两个单孢PYd15和PYd21及其杂交获得
3.2vv -2ogo 基因注释尧克隆与测序
参照严俊杰等(2014)法,预得到的草菇vv -2ogo 序列前后各延长2000bp ,采用双末端(pairedend) 法,用ZOOM (Zhanget al., 2010) 软件将转录组测序所
将获得的vv -2ogo 长序列前后各延长500bp ,作为参考序,用Primer Premier 5.0软件设计引物(引物见表1) ,在单孢菌株PYd21中对vv -2ogo
表1PCR 所使用的引物
Table 1Primers used for PCR in this study 引物名称序
5' -ATCAGGTAGGGTTGGACACATT -3' vv -2ogo -R
5' -CGTAGATGTTTTGGACGAAGTT -3'
测序(工生物工程(上海)
因组拼接结果,验证基因组测所得序列的准确
参照刘朋虎等(2013)法,在ZOOM 软件上对转录组读段(reads)进行定位(mapping),对结果进行分,确定基因转录起始和终止位点,并找到内含以及可变剪接的位置。将序列内含子
在NCBI 上下载部囊和担子菌的2-OG 依氧合酶序列,通MEGA5.1软件,用邻位相连法(neighbor-joining)
参照刘朋虎等(2011)方法,用ZOOM 软件分别将草不同生长时期(原、钮扣期菌柄、蛋形期菌柄、伸长期菌柄和熟期菌柄) 的表达谱测序得到的高质量标签(cleantag) 定位到vv -2ogo 序
vv -2ogo 上定位的4条tag ,
通过对tag 拷数合并以及对数据进准化处理,到vv -2ogo 的表达
用美国Omega Bio-Tek 司产的E.Z.N.A.TM Plant RNA kit 试剂盒,按说明书操作过程,分别提取草菇子体原基、纽扣期菌柄、蛋形期菌柄、伸长菌柄和熟期菌柄样品总RNA 。以不同样品的RNA 为模板,
cDNA Synthesis SuperMix for qPCR (OneStep gDNA Removeal) 试剂
实时荧光PCR 使用
4
基因组学
Genomics and Applied Biology
2014, 与草菇菌长相的bZIP 转录因子基
functionally diverse protein superfamily? Phytochemistry, 65(1):7-17
Hegg E.L., and Que L.Jr., 1997, The 2-His -1-carboxylate facial
mix Ex Taq TM Ⅱ (TaKaRa),仪
定量PCR (美国BIO-RAD 公司) 。用Primer Pre-mier 5.0软件设计引物,内参基因为草菇甘油-3-磷酸脱氢酶(GAPDH),引物序列
下游引物(0.4μ mol/L)各1μ L 、模板(cDNA)2μ L 、ddH 2O 8.5μ L ,总体积25μ L 。反应程序:95℃预变
表2荧光定量PCR 所使用的引物
Table2Primers used for RT-qPCR in this study 引物名称
5' -CTCGGGGGACACTTGTTCTACC -3' vv -2ogo -R 5' -AGCTGTGATTCCTTTGCTTTGG -3' GAPDH-F 5' -CATCTTCCACTGGTGCGGCTAAG -3' GAPDH-R
5' -GGCTTCTCAAGGCGAACGACAA -3'
作者贡献
谢斌是研究主要完成者,负责料收集、试验方案的实施、数整理以及论文写作;健和汪健芳负责
和进化树构建;严俊杰与试验的指导及数据析;通讯作谢宝贵教授
感谢国家食用菌品种良中心福建分中心和建省食用菌工技术研究
参考文献
Annunen P., Helaakoski T., Myllyharju J., Veijola J., Pihlajanie-mi T., and Kivirikko K.I., 1997, Cloning of the human pro-lyl 4-hydroxylase alpha subunit isoform alpha (Ⅱ ) and cha-racterization of the type Ⅱ enzyme tetramer, Journal of Bio-logical Chemistry, 272(28):17342-17348
Aravind L., and Koonin E.V., 2001, The DNA-repair protein
AlkB, EGL -9, and leprecan define new families of 2-oxog-lutarate-and iron-dependent dioxygenases, Genome Biology, 2(3):research0007.1-research0007.8
Chen Z.H., Tao Y.X., Chen B.Z., Wang W., Lu Y.P., Deng Y.J.,
and Xie B.G., 2014, Cloning and expression analysis of a bZIP transcription factor gene involved in stipe elongation in Volvariella volvacea , Jiyinzuxue Yu Yingyong Sheng-wuxue (Genomicsand Applied Biology), 33(3):585-590(陈志宏, 陶永新, 陈炳智,
triad-an emerging structural motif in mononuclear non-heme iron (Ⅱ ) enzymes, European Journal of Biochemistry, 250(3):625-629
Hewitson K.S., McNeill L.A., Elkins J.M., and Schofield C.J., 2003,
The role of iron and 2-oxoglutarate oxygenases in signalling, Biochemical Society Transactions, 31(3):510-515
Korvald H., M ? lstad Moe A.M., Cederkvist F.H., Thiede B.,
Laerdahl J.K., Bj ? r ? s M., and Alseth I., 2011, Schizosaccha -romyces pombe Ofd2is a nuclear 2-oxoglutarate and iron dependent dioxygenase interacting with histones, PLoS One, 6(9):e25188
Liu P.H., Xie B.G., Deng Y.J., Chen B.Z., Gui F., Zhu J., Jiang Y.J.,
and Liu X.R., 2011, Volvariella volvacea glucose -6-phos-phate isomerase gene (gpi ) model and synergistic gene expre-ssion in a hybrid heterokaryon, Shiyongjun Xuebao (ActaEdulis Fungi), 18(4):1-5(刘朋, 谢宝贵, 邓优锦, 陈智, 贵甫, 朱坚, 江玉姬, 刘新锐, 2011, 草菇gpi 基因结构及其异核体表达协同增效作
Liu P.H., Xie B.G., Deng Y.J., and Jiang Y.J., 2013, Cloning, struc-tural analyses and expression levels of phosphofructokinase
gene in different strains of Volvariella volvacea , Junwu Xue-bao (Mycosystema),32(2):253-260(刘朋虎, 谢宝贵, 邓优锦, 江
chemical properties, pharmacological activity of straw mushroom as well as fresh keeping and processing technolo-gies for it, Shipin Kexue (FoodScience), 32(1):260-264(刘学铭, 森泰, 陈智毅, 2011, 草菇的化学特性与药理作用及保鲜与加工研究进
plant growth regulators on the mycelia growth of Lactarius deliciosus , Zhongguo Shiyongjun (EdibleFungi of China), 33(3):27-30(龙芳, 张万萍, 2014, 不同生长调节质对松乳菇丝生长的影响, 中国食用
Nie Y., Fu M.J., and Xu Y., 2013, Research advances on the de-velopment of microbical oxygenase and its characteristics in catalyzing bioreactions, Shengwu Jiagong Guocheng (Chin-ese Journal of Bioprocess Engineering), 11(1):87-93(聂尧,
vv -2ogo , 一个在草菇原基中高表达的基因
vv -2ogo , a Gene of Volvariella volvacea Having Higher Expression Level in Primordium
5
付敏杰, 岩, 2013, 不同微生物来源的加及其催化反应特
molecular biology and biochemistry fail to meet, Journal of Experimental Botany, 44(5):849-861
Roach P.L., Clifton I.J., F ü l ? p V., Harlos K., Barton G.J., Hajdu J.,
Andersson I., Schofield C.J., and Baldwin J.E., 1995, Crystal structure of isopenicillin N synthase is the first from a new structural family of enzymes, Nature, 375(6533):700-704Schofield C.J., and Zhang Z., 1999, Structural and mechanistic stu-dies on 2-oxoglutarate-dependent oxygenases and related en-zymes, Current Opinion in Structural Biology, 9(6):722-731Valeg ? rd K., van Scheltinga A.C., Lloyd M.D., Hara T., Ra-maswamy S., Perrakis A., Thompson A., Lee H.J., Baldwin J. E., Schofield C.J., Hajdu J., and Andersson I., 1998, Structure of a cephalosporin synthase, Nature, 394(6695):805-809Yan J.J., Guo L., Zhao J.J., and Xie B.G., 2014, Sequence char-
acteristic and expression analysis of a glutathione peroxi-dase gene vv -gpx01from Volvariella volvacea , Jilin Nongye Daxue Xuebao (Journalof Jilin Agricultural University), 36(5):540-545(严俊杰, 郭丽, 赵静静, 谢宝贵, 2014, 草菇谷胱甘肽过氧化物酶编码基vv -gpx01的序列特征及表达分析, 吉林农业
Zhang Z., Barlow J.N., Baldwin J.E., and Schofield C.J., 1997,
Metal-catalyzed oxidation and mutagenesis studies on the iron (Ⅱ ) binding site of 1-aminocyclopropane -1-carboxylate oxidase, Biochemistry, 36(50):15999-16007
Zhang Z., Lin H., and Ma B., 2010, ZOOM Lite:next-generation
sequencing data mapping and visualization software, Nucle-ic Acids Research, 38(WebServer issue):W743-W748Zhang Z., Ren J., Stammers D.K., Baldwin J.E., Harlos K., and
Schofield C.J., 2000, Structural origins of the selectivity of the trifunctional oxygenaseclavaminic acid synthase, Nature Structural Biology, 7(2):127-133
新基因序列生物信息学分析
对一条新的基因序
论文摘要
本研究的主要内是运用生物息的手结生物学实验方法对从一株产?-露聚糖酶的新菌种A.tabescens EJLY2098获得的新基序列( 命名为man)进行生物信息学的析。针然后结合利用所获得的信息设计生物学方法
论文目的和意义
英国《自然》杂志网络版2006年5月18日报道,学家对含有2.23亿碱基对,占人类基因组中碱基对总量的8%左右的人类一号色体完成测序,宣告持续16年的人类因组计划全部完成。作为人类自然科学史上重要的里程,“人基因组”的研究已从“结构基因组”段进入“功能基因组”阶段。在人类基因组计划后相继推出水稻基因组计划、铃薯基因组计划、草鱼基因组计划等,和快速增长的微生物基因测序,“海量”的基因信息的积累,催生了“功能基因组”时代的临。对充分利用“海量”基因组信息的生物信息学仅应运而生,而为以注、阐明基因功和利用基因生物学功
生物信息学是把因组DNA信分析为头,在获得了蛋白质编码区的信,进行蛋白质空间结构预测和模拟,然后依据特定蛋白质的功能进行必要的药物计。就是说,生物信息学的主要任务是组织和析生物数据,而生物学数据的分析离不开计算机算法运用。因此,可以物信息学是一门集生命科
生物信息学的主要研对象是序列,即一维分排列顺分析,包括DNA分子碱基序列和编码蛋白质的氨酸列。DNA序列分析的主要任务基因识别和发现某些功能区(如启动子、增强子等),DNA序列研究的最终目是说明遗传语言的法和语法规则,从而最终读懂DNA序列。蛋质的结构预研究始终是生物信息学的核心内容之一,目前研究工作是利用一结构中的氨基酸排列顺序所的信息来预测蛋白质的高级结构,蛋白质结构研
“基因组划”积累量物信息。而生物信息任务就是挖掘利用这些信息,从众多生命信息发现统一的,本质的,有用的规律。而这些规律必将促进生命科
所以,生物息学将在“基组”的时代,发挥极其重作用,这将有助全部读懂人类基因组的全部信息,有助揭示基因组物质结构的复杂性,有助生命起源和生物进化问题的最终决,有助于识
改进和提高。[1-10]
研究现状
随着信息学大境的改善,如信息高公路、国际互联网的展,生物学发展速。美国、及欧洲各国生物信息学已相继在Internet上建立了各自的网络节点,进行管大型据库,为研究人员提供研究数据的分析、处理、采集、交的服务。国际互联网所到之处,都有各种研究机构的联、数据库的建,开展生物息学研究。各种数据库各特色:GenBank、EMBL、DDBJ是三大苷酸及蛋白质数据库;GDB数据库主要收集遗传学图的资料;CEPH的数库收集YACcontig;Genethon、CHLC储存遗传学标记系列;Whiethead研究所数据库可了解全部18000个STS及联系作图的信息;另外有序列的数据库在建立之中。在各类数据库建立的同时,数据库设中出现了集成化趋势,成化包括:各数据的集成、数据库与数据分析软件的整
除了数据库、数分析软件的,生物信学比较基因组学的发展也较为突。中河豚、鼠、猪、牛和的基因组与人基因组的比较研究,秀丽隐杆线虫与人基组的比较研究、酵母与人基因组的比较研究,原体与嗜流感杆菌基因组的比较研究,都取得了成果,从比较中分离到一些类遗传病的候选基因,鉴
随着计算机术的发展,物信息学在人类基因组中大测序的自动化控、测序结果分析处理、序列数据的计算机理、各类遗传图谱、物理图谱的绘制、研数据网络获取、分析和交换,以数分析的结果辅
全长cDNA序列man的生物信息学分析
前言
随着因特网在上世纪90年代的出现和息技术的迅猛发。生命科学也相伴走信息化,其主要标志就是人类基因计划的实施,这一计划及相继展开的众多的基因组计划使得数据急剧增加,而传统的实验手段却远远不能满对这数据的解释,使之上升到科学知识
随着人类基因组计划的实施 ,分生物学家提供了大量的有关生物分子数据,如何将这些从实验室中取得生物息进行整理,,并能对以后的研究供料和依据,这需要运用到现代计算机技术对这些原始数据进收集,整理和分析,从是人们在研究过程中及得到有效的生物信息.因此,生物信息学不仅是门学科,也是研究过中的项技术和开发工具.核酸序列析是生物信息学应用中的一个重要方面.DNA序列分析可两大类:1.向测序的DNA序列分析; 2.指定DNA序列的分析. 通过个简单序列似性的比较可以对
序列进行初步的功能预测,对后续实验定初步研究方[12]。本论文通对从真菌A.tabescens中克隆一个基因的全长cDNA进行生物息
目前因特网上有许多生物学信息库,采用不同算法,对生物学数进行从序列水平到结构层次,进而到能的多种分析。本章的分析利用这些数据库和相
材料和仪器
(1)生物技术实验室从一产?-甘聚糖酶的新菌种A.tabescens EJLY2098克隆出一全
(2)可
核酸序列的基本分析
运用DNAMAN软件分析核酸序的分子质、碱基组成和碱基布。同时运用BioEdit(版7.0.5.3)软件对man酶切谱分析。 碱
运用NCBI信息库的BLAST序对man
网站如下:http://www.ncbi.nlm.nih.gov/BLAST/
参数选择:TRANSLATED query-PROTEIN database [blastx]; nr;stander1 开放性阅读框(ORF)分析
利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下:
序列进行初步的功能预测,对后续实验定初步研究方[12]。本论文通对从真菌A.tabescens中克隆一个基因的全长cDNA进行生物息
目前因特网上有许多生物学信息库,采用不同算法,对生物学数进行从序列水平到结构层次,进而到能的多种分析。本章的分析利用这些数据库和相
材料和仪器
(1)生物技术实验室从一产?-甘聚糖酶的新菌种A.tabescens EJLY2098克隆出一全
(2)可
核酸序列的基本分析
运用DNAMAN软件分析核酸序的分子质、碱基组成和碱基布。同时运用BioEdit(版7.0.5.3)软件对man酶切谱分析。 碱
运用NCBI信息库的BLAST序对man
网站如下:http://www.ncbi.nlm.nih.gov/BLAST/
参数选择:TRANSLATED query-PROTEIN database [blastx]; nr;stander1 开放性阅读框(ORF)分析
利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下:
参数选择:Genetic Codes:1 Standard
对蛋白质
运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)manORF出的蛋白质序列进行白结构功能域分析。该数据库由EMBL建立,中集了大部分目前已知的蛋白质结构功域的数
网址如下:
运用NCBI的BLAST程序再此蛋白质
Expect:0.01
Filter:Low complexity
Search mode:multiple hits 1-pass
同源物种分析
用DNAMAN软件将蛋白质列与GHF5的?-甘露聚酶序列和GHF6的?-甘露聚酶序列序列比对,根据果
蛋白质
运用BioEdit(版本7.0.5.3)软件对man ORF翻译的蛋白的一些本性质,对分子量、电
二级结构和功能分析
信号肽预测
利用丹麦科技大学(DTU)的CBS服务器蛋质序列的信号肽(signal peptide)预
参数选择:
Eukaryotes;Both;GIF (inline);Standard;
疏水性分析
利用瑞士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)的ExPASy器上的ProtScale程序[13]ORF 翻译后的氨基酸列做
网址如下: http://us.expasy.org/cgi-bin/protscale.pl
参数选择:
Hphob. / Kyte & Doolittle
蛋白质溶解能
利用美国哥伦比亚大学(Columbia University)的PredictProtein务器(PHD)[14]对ORF 翻译后的氨基酸序过发邮件的方式获得蛋白质溶解能力和PROSITE motif search
网址如下:
http://cubic.bioc.columbia.edu/pp/submit_def.html 磷酸化位点分析
磷酸化和去磷酸化是细胞内信传导的重方式,利用丹麦技大学(DTU)的CBS服
做磷酸化位点分析。NetPhos2.0 Server程序是基神经网络算法,对蛋白序列中的Ser、Thr和Tys三种氨基残可能成为的磷酸化位
网址如下:
跨膜区分析
蛋白质序列含有跨膜区提示它可能作为受体起作用,也可是定位于膜的锚定蛋或者离子通道蛋白等,从而,含跨膜区的蛋质往往和细的功能状态密切相关。[12]利用麦技大学(DTU)的CBS服务器上的TMHMM Server v. 2.0程序进行白序列
网址如下: http://www.cbs.dtu.dk/services/TMHMM/
参数选择:
Extensive with graphics
亚细胞定位
通过WoLF PSORT工具基于其氨基酸序列预
http://wolfpsort.seq.cbrc.jp/
参数选择:
Fungi;From Text Area
二硫键分析
运用SCRATCH Protein Predictor 对蛋白质的二硫键做出分。 网址如下: http://www.ics.uci.edu/~baldig/scratch/index.html
Dlpro(Disulfide Bonds)
二级结构预测
运用PBIL LYON-GERLAND信息库对蛋白序列进行二级结构预(Secondary structure prediction),主要
网址如下: http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_hnn.html
讨论与结果
从一株产?-甘露聚糖的新种A.tabescens EJLY2098获得
ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGC
TGCTGTTCCTGAGTGGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTATTATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTCTCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCCTCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAATAAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGGGATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCGTCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTATACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAACTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCAAGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATCAAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATATCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTACATTCCATTCCTATCCTATCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCGGGAAAGCCCGTAATCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGTCTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGCTACTCCGGACGACGGATATGCAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCTATGCGGTTACATTGAAAGCGCGGGCGTAGGATAGGGTACAGAATAAATTTTGCTCCGATGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAATAGCACTGTTGTCACGATCGATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
核酸序列的基本分析
核酸序列
SEQ New: 1483 bp;
Composition 388 A; 358 C; 351 G; 386 T; 0 OTHER
Percentage: 26.2% A; 24.1% C; 23.7% G; 26.0% T; 0.0%OTHER
Molecular Weight (kDa): ssDNA: 457.73 dsDNA: 914.24
ORIGIN
1 ACGCGGGGGA AAGATGCATC TGCTCGCTTT TCTGTCTCTG AGTACATTCC TGTGCTCTGC 61 GTTCGCTGCT GTTCCTGAGT GGGGCCAATG TGGCGGCATT GGATGGACAG GACAGACCAC 121 TTGCGTTAGT GGTACAGTAT GCGCAGCTCT CAATGACTAT TATTCTCAAT GTGTGCCTGG 181 AACGGCCACA ACAACGGCCG CTCCCACGAC TGCTACATCA ACAACCATTT CTTCCACTTC 241 TCGCACAACT GCTACGTCGA CCACAGCTTC CGCACCATCT TCTACTGGCT TTGTAACTAC 301 CTCTGGCACA GAGTTCCGCC TCAACGGTGC CAAATTTACT ATCTTCGGCG CCAACTCATA 361 CTGGGTCGGG TTGATGGGCT ATAGCACTAC AGATATGAAT AAAGCCTTCG CAGACATCGC 421 GGCTACAGGT GCCACCGTCG TCCGCACATG GGGCTTCAAT GAGGTAACGA GTCCTAACGG 481 GATTTATTAC CAGAGTTGGT CCGGAAGTAC ACCAACTATC AACACAGGTT CTACGGGTCT 541 TCAAAACTTT GATGCCGTCG TCGCTGCTGC TGCTGCACAT GGCTTGAGGC TTATTGTTGC 601 CATAACGAAC AACTGGTCCG ACTATGGTGG AATGGATGTA TACGTTAACC AAATTGTCGG 661 GTCTGGCTCT GCGCACGATT TATTCTATAC CGACTGTGAG GTTATATCTA CTTACATGAA 721 CTACGTCAAG ACCTTCGTCT CGCGCTATGT GAACGAACCT ACTATTTTAG GTTGGGAGCT 781 TGCAAATGAA CCTAGATGCA AGGGGAGTAC CGGGACGACC TCTGGATCAT GCACTGCAAC 841 GACTATCACA AAATGGGCCG CGGCAATTTC AGCGTACATC AAGTCGATCG ATCCCAACCA 901 TCTTGTCGGG ATAGGAGATG AAGGGTTCTA CAATGAACCT AGCGCACCAA CATATCCATA 961 TCAAGGTAGC GAAGGTATCG ATTTTGATGC AAATTTGGCC ATTAGTAGCA TTGATTTCGG 1021 TACATTCCAT TCCTATCCTA TCAGCTGGGG TCAAACCACT GATCCTCAGG GATGGGGTAC 1081 GCAATGGATC GCTGATCATG CAACGTCAAT GACAGCTGCG GGAAAGCCCG TAATCTTAGA 1141 GGAGTTTGGA GTCACCACTA ATCAAGCAAC TGTTTATGGC GCCTGGTATC AGGAAGTTGT 1201 CTCTTCGGGT CTTACTGGTG CTCTTATTTG GCAAGCTGGT TCTTATTTAT CATCCGGAGC 1261 TACTCCGGAC GACGGATATG CAATTTATCC TGATGATCCT GTATATTCCC TGGAAACCTC 1321 CTATGCGGTT ACATTGAAAG CGCGGGCGTA GGATAGGGTA CAGAATAAAT TTTGCTCCGA 1381 TGTGGTACTG TAGCCGAGCG GCTTGACTAT GTGAATAAAA ATAGCACTGT TGTCACGATC 1441 GATCAACACC TAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAA
对其所做对
① 对DQ286392的
② 单
Restriction table:
Enzyme Recognition frequency Positions
__________________________________________________________________________ AccI GT'mk_AC 2 258, 640
AloI GAACnnnnnnTCCnnnnnnn_nnnnn' 1 632
AloI GGAnnnnnnGTTCnnnnnnn_nnnnn' 1 600
AlwI GGATCnnnn'n_ 5 833, 885, 1056, 1095, 1290 ApoI r'AATT_y 3 333, 992, 1368
BanI G'GyrC_C 4 327, 348, 429, 1179
BbeI G_GCGC'C 2 352, 1183
BbsI GAAGACnn'nnnn_ 1 531
BbvI GCAGCnnnnnnnn'nnnn_ 7 53,
BceAI ACGGCnnnnnnnnnnnn'nn_ 3 199, 211, 540
BcgI CGAnnnnnnTGCnnnnnnnnnn_nn' 3 1003, 998, 1294
BcgI GCAnnnnnnTCGnnnnnnnnnn_nn' 3 969, 1032, 1260
BclI T'GATC_A 1 1094
BfrBI ATG'CAT 1 17
BglI GCCn_nnn'nGGC 1 91
BmrI ACTGGGnnnn_n' 1 371
BpuEI CTTGAGnnnnnnnnnnnnnn_nn' 1 605
BsaHI Gr'CG_yC 2 349, 1180
BsaJI C'CnnG_G 2 859, 1309
BsaWI w'CCGG_w 3 501, 1254, 1265
BsaXI ACnnnnnCTCCnnnnnnn_nnn' 1 215
BsaXI GGAGnnnnnGTnnnnnnnnn_nnn' 1 185
BseMII CTCAGnnnnnnnn_nn' 3 30, 67, 1080
BseRI GAGGAGnnnnnnnn_nn' 1 1155
BseYI C'CCAG_C 1 1045
BsgI GTGCAGnnnnnnnnnnnnnn_nn' 1 559
BsiEI CG_ry'CG 3 199, 889, 1440
BsiHKAI G_wGCw'C 2 57, 1223
BslI CCnn_nnn'nnGG 4 81, 449, 963, 1272
BsmAI GTCTCn'nnnn_ 3 40, 743, 1205
BsmBI CGTCTCn'nnnn_ 1 743
BsmFI GGGACnnnnnnnnnn'nnnn_ 1 827
Bsp1286I G_dGCh'C 2 57, 1223
BspCNI CTCAGnnnnnnn_nn' 3 31, 68, 1079
BspEI T'CCGG_A 3 501, 1254, 1265
BsrI ACTG_Gn' 4 290, 366, 618, 1220
BsrBI CCG'CTC 2 201, 1399
BsrDI GCAATG_nn' 1 1089
BstF5I GGATG_nn' 4 108, 641, 1077, 1251
BstZ17I GTA'TAC 1 641 156, 551, 554, 557, 560, 1103
Bsu36I CC'TnA_GG 1 1066
BtgI C'CryG_G 1 859
BtsI GCAGTG_nn' 1 832
Cac8I GCn'nGC 4 25, 781, 1234, 1345
ClaI AT'CG_AT 3 889, 979, 1440
EaeI y'GGCC_r 3 184, 196, 997
EagI C'GGCC_G 1 196
EarI CTCTTCn'nnn_ 1 1208
EciI GGCGGAnnnnnnnnn_nn' 1 306
FauI CCCGCnnnn'nn_ 2 1112, 1336
FokI GGATGnnnnnnnnn'nnnn_ 4 115, 648, 1084, 1238
FspI TGC'GCA 2 143, 673
HaeII r_GCGC'y 2 352, 1183
Hin4I GAynnnnnvTCnnnnnnnn_nnnnn' 3 690, 1079, 1111
Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn' 3 722, 1079, 1111
HincII GTy'rAC 2 259, 647
HpaI GTT'AAC 1 647
HphI GGTGAnnnnnnn_n' 1 1145
Hpy8I GTn'nAC 5 259, 510, 641, 647, 752
Hpy188III TC'nn_GA 10 75, 502, 728, 823, 908, 1191 1255, 1266, 1290, 1435
HpyF10VI GCn_nnnnn'nGC 11 67, 92, 418, 430, 452, 562, 571 574, 871, 997, 1099
KasI G'GCGC_C 2 348, 1179
MboII GAAGAnnnnnnn_n' 5 223, 271, 335, 531, 1195 MlyI GAGTCnnnnn' 2 479, 1159
MmeI TCCrACnnnnnnnnnnnnnnnnnn_nn' 1 643
MnlI CCTCnnnnnn_n' 9 311,
1133, 1328
MscI TGG'CCA 1 999
MslI CAynn'nnrTG 1 50
MspA1I CmG'CkG 3 861, 1045, 1116
MwoI GCnn_nnn'nnGC 11 66, 91, 417, 429, 451, 561, 570 573, 870, 996, 1098
NarI GG'CG_CC 2 349, 1180
NlaIV GGn'nCC 5 84, 329, 350, 431, 1181
NsiI A_TGCA'T 1 19
PleI GAGTCnnnn'n_ 2 478, 1158
PshAI GACnn'nnGTC 1 735
PvuI CG_AT'CG 2 889, 1440
PvuII CAG'CTG 2 1045, 1116
SacII CC_GC'GG 1 862
SalI G'TCGA_C 1 257
SfaNI GCATCnnnnn'nnnn_ 5 4, 26, 542, 786, 977 330, 455, 580, 692, 830, 1075
SfcI C'TryA_G 4 380, 388, 424, 1389
SfoI GGC'GCC 2 350, 1181
SmlI C'TyrA_G 1 584
TatI w'GTAC_w 2 42, 507
TspDTI ATGAAnnnnnnnnn_nn' 5 411, 732, 802, 934, 949 TspGWI ACGGAnnnnnnnnn_nn' 1 1288
TspRI _nnCAsTGnn' 3 839, 1064, 1432
Enzymes that cut five or fewer times
Enzyme Recognition frequency Positions
__________________________________________________________________________ AccI GT'mk_AC 2 258, 640
AloI GAACnnnnnnTCCnnnnnnn_nnnnn' 1 632
AloI GGAnnnnnnGTTCnnnnnnn_nnnnn' 1 600
AlwI GGATCnnnn'n_ 5 833, 885, 1056, 1095, 1290 ApoI r'AATT_y 3 333, 992, 1368
BanI G'GyrC_C 4 327, 348, 429, 1179
BbeI G_GCGC'C 2 352, 1183
BbsI GAAGACnn'nnnn_ 1 531
BceAI ACGGCnnnnnnnnnnnn'nn_ 3 199, 211, 540
BcgI CGAnnnnnnTGCnnnnnnnnnn_nn' 3 1003, 998, 1294
BcgI GCAnnnnnnTCGnnnnnnnnnn_nn' 3 969, 1032, 1260
BclI T'GATC_A 1 1094
BfrBI ATG'CAT 1 17
BglI GCCn_nnn'nGGC 1 91
BmrI ACTGGGnnnn_n' 1 371
BpuEI CTTGAGnnnnnnnnnnnnnn_nn' 1 605
BsaHI Gr'CG_yC 2 349, 1180
BsaJI C'CnnG_G 2 859, 1309
BsaWI w'CCGG_w 3 501, 1254, 1265
BsaXI ACnnnnnCTCCnnnnnnn_nnn' 1 215
BsaXI GGAGnnnnnGTnnnnnnnnn_nnn' 1 185
BseMII CTCAGnnnnnnnn_nn' 3 30, 67, 1080
BseRI GAGGAGnnnnnnnn_nn' 1 1155
BseYI C'CCAG_C 1 1045
BsgI GTGCAGnnnnnnnnnnnnnn_nn' 1 559
BsiEI CG_ry'CG 3 199, 889, 1440
BsiHKAI G_wGCw'C 2 57, 1223
BslI CCnn_nnn'nnGG 4 81, 449, 963, 1272
BsmAI GTCTCn'nnnn_ 3 40, 743, 1205
BsmBI CGTCTCn'nnnn_ 1 743
BsmFI GGGACnnnnnnnnnn'nnnn_ 1 827
Bsp1286I G_dGCh'C 2 57, 1223
BspCNI CTCAGnnnnnnn_nn' 3 31, 68, 1079
BspEI T'CCGG_A 3 501, 1254, 1265
BsrI ACTG_Gn' 4 290, 366, 618, 1220
BsrBI CCG'CTC 2 201, 1399
BsrDI GCAATG_nn' 1 1089
BstF5I GGATG_nn' 4 108, 641, 1077, 1251
BstZ17I GTA'TAC 1 641
Bsu36I CC'TnA_GG 1 1066
BtgI C'CryG_G 1 859
BtsI GCAGTG_nn' 1 832
Cac8I GCn'nGC 4 25, 781, 1234, 1345
ClaI AT'CG_AT 3 889, 979, 1440
EaeI y'GGCC_r 3 184, 196, 997
EagI C'GGCC_G 1 196
EarI CTCTTCn'nnn_ 1 1208
EciI GGCGGAnnnnnnnnn_nn' 1 306
FauI CCCGCnnnn'nn_ 2 1112, 1336
FokI GGATGnnnnnnnnn'nnnn_ 4 115, 648, 1084, 1238
FspI TGC'GCA 2 143, 673
HaeII r_GCGC'y 2 352, 1183
Hin4I GAynnnnnvTCnnnnnnnn_nnnnn' 3 690, 1079, 1111
Hin4I GAbnnnnnrTCnnnnnnnn_nnnnn' 3 722, 1079, 1111
HincII GTy'rAC 2 259, 647
HpaI GTT'AAC 1 647
HphI GGTGAnnnnnnn_n' 1 1145
Hpy8I GTn'nAC 5 259, 510, 641, 647, 752
KasI G'GCGC_C 2 348, 1179
MboII GAAGAnnnnnnn_n' 5 223, 271, 335, 531, 1195 MlyI GAGTCnnnnn' 2 479, 1159
MmeI TCCrACnnnnnnnnnnnnnnnnnn_nn' 1 643
MscI TGG'CCA 1 999
MslI CAynn'nnrTG 1 50
MspA1I CmG'CkG 3 861, 1045, 1116
NarI GG'CG_CC 2 349, 1180
NlaIV GGn'nCC 5 84, 329, 350, 431, 1181
NsiI A_TGCA'T 1 19
PleI GAGTCnnnn'n_ 2 478, 1158
PshAI GACnn'nnGTC 1 735
PvuI CG_AT'CG 2 889, 1440
PvuII CAG'CTG 2 1045, 1116
SacII CC_GC'GG 1 862
SalI G'TCGA_C 1 257
SfaNI GCATCnnnnn'nnnn_ 5 4, 26, 542, 786, 977
SfcI C'TryA_G 4 380, 388, 424, 1389
SfoI GGC'GCC 2 350, 1181
SmlI C'TyrA_G 1 584
TatI w'GTAC_w 2 42, 507
TspDTI ATGAAnnnnnnnnn_nn' 5 411, 732, 802, 934, 949 TspGWI ACGGAnnnnnnnnn_nn' 1 1288
TspRI _nnCAsTGnn' 3 839, 1064, 1432
Enzymes that do not cut:
_________________________________________________________
AarI, AatII, Acc65I, AclI, AfeI, AflII, AflIII, AgeI, AhdI, AleI, AlwNI, ApaI ApaLI, AscI, AseI, AsiSI, AvaI, AvrII, BaeI, BaeI, BamHI, BanII, BbvCI, BciVI BglII, BlpI, Bme1580I, BmgBI, BmtI, BplI, BpmI, Bpu10I, BsaI, BsaAI, BsaBI, BsiWI BsmI, BspHI, BspMI, BsrFI, BsrGI, BssHII, BssSI, BstAPI, BstBI, BstEII, BstXI BstYI, DraI, DraIII, DrdI, Eco57I, EcoICRI, Eco57MI, EcoNI, EcoO109I, EcoRI, EcoRV FalI, FseI, FspAI, HgaI, HindIII, KpnI, MfeI, MluI, NaeI, NcoI, NdeI, NgoMIV, NheI
NotI, NruI, NspI, PacI, PciI, PflMI, PmeI, PmlI, PpiI, PpiI, PpuMI, PsiI, PspOMI PsrI, PsrI, PstI, RsrII, SacI, SanDI, SapI, SbfI, ScaI, SexAI, SfiI, SgrAI, SmaI SnaBI, SpeI, SphI, SrfI, SspI, StuI, StyI, SwaI, TaqII, TaqII, Tth111I, XbaI, XcmI
XhoI, XmaI, XmnI, ZraI
碱基同源性分析
DQ286392序列的BLASTX分析结果(见图1):
图1 DQ286392序列的BLASTX分析结果
Score E
Sequences producing significant alignments: (Bits) Value gi|82659769|gb|ABB88954.1| mannanase [Armillariella tabescens] 768 0.0 gi|7208638|emb|CAB76904.1| CEL4a mannanase [Agaricus bisporus] 532 2e-149 gi|1679597|emb|CAA90423.1| CEL4b mannanase [Agaricus bisporus] 528 3e-148 gi|110627661|gb|ABG79370.1| Man5D [Phanerochaete chrysosporium] 513 1e-143 gi|116508737|gb|EAU91632.1| hypothetical protein CC1G_09314 [... 473 2e-131 gi|110627663|gb|ABG79371.1| Man5C [Phanerochaete chrysosporium] 467 6e-130 gi|119485791|ref|XP_001262238.1| endo-1,4-beta-mannosidase, p... 278 6e-73
gi|121715087|ref|XP_001275153.1| endo-1,4-beta-mannosidase, p... 277 9e-73
gi|70983951|ref|XP_747501.1| endo-1,4-beta-mannosidase [Asper... 272 4e-71
gi|70982592|ref|XP_746824.1| endo-1,4-beta-mannosidase [Asper... 261 7e-68
gi|84621433|gb|ABC59553.1| beta-mannanase [Aspergillus sulphureu 260 2e-67 gi|83775912|dbj|BAE66031.1| unnamed protein product [Aspergillus 258 8e-67 gi|558311|gb|AAA67426.1| mannanase 254 7e-66 gi|119488588|ref|XP_001262744.1| endo-1,4-beta-mannosidase [N... 252 3e-65
gi|115402327|ref|XP_001217240.1| hypothetical protein ATEG_08... 250 2e-64 ??(
由分析结果可,DQ286392和其他
高,尤其是与Agaricus bisporus物种的CEL4a和CEL4b的?-甘
以下是DQ286392分别与CEL4a和CEL4b序列对比:
gi|7208638|emb|CAB76904.1| CEL4a mannanase [Agaricus bisporus]
Length=439
Score = 532 bits (1371), Expect = 2e-149
Identities = 284/442 (64%), Positives = 339/442 (76%), Gaps = 7/442 (1%)
Frame = +2
Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 + F+ L+ + A A VP WGQCGG GWTG+T C SG+ C N++YSQC+PG+ T T
Sbjct 5 IRFIILAISISLATADVPVWGQCGGRGWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64
Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T T++ ++ T+ +T GFV SGT F LNG K+T+ G NSYWVGL G
Sbjct 65 PPTTTTSQTTAPPTTSHPVST-------GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117
Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST+ MN+AF+DIA G T VRTWGFNEVTSPNG YYQSWSG+ PTINTG++GL NFD V+
Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177
Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A+G+RLIVA+TNNW+DYGGMDVYVNQ+VG+G HDLFYT+ + + +YV+TFVS
Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVS 237
Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT++ WELANEPRCKGSTGTTSG+CT TT+T WA +SA+IK+ID NHLV IGDE
Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297
Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN+P APTYPYQGSEG+DF+ANLAISS+DF TFHSYP WGQ D + WGTQWI DHA
Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357
Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W+ EV SSGLTG LIWQAGS+LS+G T +DGYA
Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEVESSGLTGDLIWQAGSHLSTGDTHNDGYA 417
Query 1283 IYPDDPVYSLETSYAVTLKARA 1348
+YPD PVY L S+A +K RA
Sbjct 418 VYPDGPVYPLMKSHASAMKNRA 439
gi|1679597|emb|CAA90423.1| CEL4b mannanase [Agaricus bisporus]
Length=439
Score = 528 bits (1360), Expect = 3e-148
Identities = 280/442 (63%), Positives = 336/442 (76%), Gaps = 7/442 (1%) Frame = +2
Query 23 LAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGtatttaa 202 + F+ L+ + A A VP WGQCGG WTG+T C SG+ C N++YSQC+PG+ T T Sbjct 5 IRFIILAISISLATADVPVWGQCGGRDWTGETACASGSSCVVQNEWYSQCLPGSTTPTNP 64
Query 203 pttatsttisstsrttatsttasapsstGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGY 382 P T++ ++ T+ +T GFV SGT F LNG K+T+ G NSYWVGL G
Sbjct 65 PPATTTSQTTAPPTTSHPVST-------GFVKASGTRFTLNGQKYTVVGGNSYWVGLTGL 117
Query 383 STTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDavv 562 ST+ MN+AF+DIA G T VRTWGFNEVTSPNG YYQSWSG+ PTINTG++GL NFD V+
Sbjct 118 STSAMNQAFSDIANAGGTTVRTWGFNEVTSPNGNYYQSWSGARPTINTGASGLLNFDNVI 177
Query 563 aaaaaHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVS 742 AAA A+G+RLIVA+TNNW+DYGGMDVYVNQ+VG+G HDLFYT+ + + +Y + FVS
Sbjct 178 AAAKANGIRLIVALTNNWADYGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYGRAFVS 237
Query 743 RYVNEPTILGWELANEPRCKgstgttsgsctattitkwaaaisaYIKSIDPNHLVGIGDE 922 RY NEPT++ WELANEPRCKGSTGTTSG+CT TT+T WA +SA+IK+ID NHLV IGDE
Sbjct 238 RYANEPTVMAWELANEPRCKGSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDE 297
Query 923 GFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHA 1102 GFYN+P APTYPYQGSEG+DF+ANLAISS+DF TFHSYP WGQ D + WGTQWI DHA
Sbjct 298 GFYNQPGAPTYPYQGSEGVDFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHA 357
Query 1103 TSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDDGYA 1282 SM KPVILEEFGVTTNQ Y W+ E+ SSGLTG LIWQAGS+LS+G TP+DGYA
Sbjct 358 ASMKRVNKPVILEEFGVTTNQPDTYAEWFNEIESSGLTGDLIWQAGSHLSTGDTPNDGYA 417
Query 1283 IYPDDPVYSLETSYAVTLKARA 1348
+YPD PVY L S+A +K RA
Sbjct 418 VYPDGPVYPLVKSHASAMKNRA 439
开放性
用NCBI的ORF Finder对DQ286392列作开放阅读
序列DQ286392,14~1351位存在一个长1338bp的开放阅读框,编码为445个氨基酸,起始密码子为ATG,终止密码子为TAG,编码区两侧为13bp的5’非翻译区和100bp的3’非翻译(1~13bp,1352~1451bp),而且在3’端polyA尾上游88bp和38bp处各有一个加尾信号,为AATAAA,进一步明所获得片包括全长的mRNA3’非翻译区 。将该白质序列
序列“MAN”的开放阅读框及其码的氨基
M H L L A F L S L S T F L C S 59 gcgttcgctgctgttcctgagtggggccaatgtggcggcattgga
A F A A V P E W G Q C G G I G 104 tggacaggacagaccacttgcgttagtggtacagtatgcgcagct W T G Q T T C V S G T V C A A 149 ctcaatgactattattctcaatgtgtgcctggaacggccacaaca L N D Y Y S Q C V P G T A T T 194 acggccgctcccacgactgctacatcaacaaccatttcttccact T A A P T T A T S T T I S S T 239 tctcgcacaactgctacgtcgaccacagcttccgcaccatcttct S R T T A T S T T A S A P S S 284 actggctttgtaactacctctggcacagagttccgcctcaacggt T G F V T T S G T E F R L N G 329 gccaaatttactatcttcggcgccaactcatactgggtcgggttg
A K F T I F G A N S Y W V G L 374 atgggctatagcactacagatatgaataaagccttcgcagacatc M G Y S T T D M N K A F A D I 419 gcggctacaggtgccaccgtcgtccgcacatggggcttcaatgag
A A T G A T V V R T W G F N E 464 gtaacgagtcctaacgggatttattaccagagttggtccggaagt V T S P N G I Y Y Q S W S G S 509 acaccaactatcaacacaggttctacgggtcttcaaaactttgat
T P T I N T G S T G L Q N F D 554 gccgtcgtcgctgctgctgctgcacatggcttgaggcttattgtt
A V V A A A A A H G L R L I V 599 gccataacgaacaactggtccgactatggtggaatggatgtatac
A I T N N W S D Y G G M D V Y 644 gttaaccaaattgtcgggtctggctctgcgcacgatttattctat V N Q I V G S G S A H D L F Y 689 accgactgtgaggttatatctacttacatgaactacgtcaagacc T D C E V I S T Y M N Y V K T 734 ttcgtctcgcgctatgtgaacgaacctactattttaggttgggag F V S R Y V N E P T I L G W E 779 cttgcaaatgaacctagatgcaaggggagtaccgggacgacctct L A N E P R C K G S T G T T S 824 ggatcatgcactgcaacgactatcacaaaatgggccgcggcaatt G S C T A T T I T K W A A A I 869 tcagcgtacatcaagtcgatcgatcccaaccatcttgtcgggata S A Y I K S I D P N H L V G I 914 ggagatgaagggttctacaatgaacctagcgcaccaacatatcca G D E G F Y N E P S A P T Y P 959 tatcaaggtagcgaaggtatcgattttgatgcaaatttggccatt Y Q G S E G I D F D A N L A I 1004 agtagcattgatttcggtacattccattcctatcctatcagctgg
S S I D F G T F H S Y P I S W 1049 ggtcaaaccactgatcctcagggatggggtacgcaatggatcgct G Q T T D P Q G W G T Q W I A 1094 gatcatgcaacgtcaatgacagctgcgggaaagcccgtaatctta
D H A T S M T A A G K P V I L 1139 gaggagtttggagtcaccactaatcaagcaactgtttatggcgcc E E F G V T T N Q A T V Y G A 1184 tggtatcaggaagttgtctcttcgggtcttactggtgctcttatt W Y Q E V V S S G L T G A L I 1229 tggcaagctggttcttatttatcatccggagctactccggacgac W Q A G S Y L S S G A T P D D 1274 ggatatgcaatttatcctgatgatcctgtatattccctggaaacc G Y A I Y P D D P V Y S L E T 1319 tcctatgcggttacattgaaagcgcgggcgtag 1351 S Y A V T L K A R A *
对蛋白质
结果如图3和图4
图3 用Smart对 manORF出
图4 rpsblast结果
由分析结果可知,MAN有?-甘露聚糖酶的结构域外,还含有CBD(纤维素结合
同源物种分析
MAN与GHF5的?-甘
CLUSTAL multiple sequence alignment
A.aculeatus ------------------------------------------------------------
A.bisporus ---------------------------MKPAIRFIILAISISLATADVPVWGQCGGRGWT T.reesei ------------------------------------------------------------
A.fumigatus MPSKKPLSNSTAFSLSKNSQITFSVLGIMHPLPSVALLSAIGAVAAQVGPWGQCGGRSYT
A.sulphureus ------------------------------------------------------------
A.tabescens ----------------------------MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWT H.jecorina ------------------------------------------------------------
A.aculeatus -------------------------MKLSHMLLSLASLGVA---------TALRTPNHNA
A.bisporus GETACASGSSCVVQNEWYSQCLPGSTTPTNPPPTTTTSQTTAPP-----------TTSHP T.reesei ------------------------------------------------------------
A.fumigatus GETSCVSGWSCVLFNEWYSQCQPATTTSTSSVSATAAPSSTSSSKESVPSATTSKKPVPT
A.sulphureus -------------------------MKLSSSLLTLASLALANLSTALPKASPAPSTSSSS
A.tabescens GQTTCVSGTVCAALNDYYSQCVPGTATTTAAPTTATSTTISSTSR----TTATSTTASAP H.jecorina ------------------------MMMLSKSLLSAATAASALAAVLQP----------VP
A.aculeatus ATTAFPSTSGLHFTIDGKTGYFAGTNSYWIGFLTN-NDDVDLVMSQLAASDLKILRVWGF
A.bisporus VSTGFVKASGTRFTLNGQKYTVVGGNSYWVGLTGLSTSAMNQAFSDIANAGGTTVRTWGF T.reesei -ASSFVTISGTQFNIDGKVGYFAGTNCYWCSFLTN-HADVDSTFSHISSSGLKVVRVWGF
A.fumigatus GSSSFVKADGLKFNIDGETKYFAGTNAYWLPFLTN-DADVDSVMDNLQKAGLKILRTWGF
A.sulphureus ASTSFASTSGLQFTIDGETGYFAGTNSYWIGFLTD-DSDVDLVMSHLKSSGLKILRVWGF
A.tabescens SSTGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGYSTTDMNKAFADIAATGATVVRTWGF H.jecorina RASSFVTISGTQFNIDGKVGYFAGTNCYWCSFLTN-HADVDSTFSHISSSGLKVVRVWGF .. * * * . * * *.** . . . .* ***
A.aculeatus NDVNTKPTDGTVWYQLHA--NGTSTINTGADGLQRLDYVVTSAEKYGVKLIINFVNEWTD
A.bisporus NEVTS---PNGNYYQSWSG--ARPTINTGASGLLNFDNVIAAAKANGIRLIVALTNNWAD T.reesei NDVNTQPSPGQIWFQKLS--ATGSTINTGADGLQTLDYVVQSAEQHNLKLIIPFVNNWSD
A.fumigatus NDVNSKPSSGTVYFQLHDPSTGTTTINTGADGLQRLDYVVSAAEKRGIKLLIPLVNNWDD
A.sulphureus NDVTTQPSSGTVWYQLHQ--DGKSTINTGADGLQRLDYVVSSAEQHGIKLIINFVNYWTD
A.tabescens NEVTS---PNGIYYQSWSG--STPTINTGSTGLQNFDAVVAAAAAHGLRLIVAITNNWSD H.jecorina NDVNTQPSPGQIWFQKLS--ATGSTINTGADGLQTLDYVVQSAEQHNLKLIIPFVNNWSD *.*.. . .* *****. ** * *. .* ...*.. * * *
A.aculeatus YGGMQAYVTAYGAA--AQTDFYTNTAIQAAYKNYIKAVVSRYSSSAAIFAWELANEPRCQ
A.bisporus YGGMDVYVNQMVGNGQPHDLFYTNTAIKDAFKSYVRTFVSRYANEPTVMAWELANEPRCK T.reesei YGGINAYVNAFGG---NATTWYTNTAAQTQYRKYVQAVVSRYANSTAIFAWELGNEPRCN
A.fumigatus YGGMNAYVKAYGG---SKTEWYTNSKIQSVYQAYIKAVVSRYRDSPAIMAWELSNEARCQ
A.sulphureus YGGMSAYVSAYGGS--DETDFYTSDTMQSAYQTYIKTVVERYSNSSAVFAWELANEPRCP
A.tabescens YGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVSRYVNEPTILGWELANEPRCK H.jecorina YGGINAYVNAFGG---NATTWYTNTAAQTQYRKYVQAVVSRYANSTAIFAWELGNEPRCN ***. ** ** . *... * ** .. *** ** **
A.aculeatus G--------CDTSVLYNWISDTSKYIKSLDSKHLVTIGDEGFGLDVDSDGSYPYTYGEGL
A.bisporus GSTGTTSGTCTTTTVTNWAKEMSAFIKTIDSNHLVAIGDEGFYNQPG-APTYPYQGSEGV T.reesei G--------CSTDVIVQWATSVSQYVKSLDSNHLVTLGDEGLGLSTG-DGAYPYTYGEGT
A.fumigatus G--------CSTDVIYNWTAKTSAYIKSLDPNHMVATGDEGMGVTVDSDGSYPYSTYEGS
A.sulphureus S--------CDTTVLYDWIEKTSKFIKGLDADHMVCIGDEGFGLNTDSDGSYPYQFAEGL
A.tabescens GSTGTTSGSCTATTITKWAAAISAYIKSIDPNHLVGIGDEGFYNEPS-APTYPYQGSEGI H.jecorina G--------CSTDVIVQWATSVSQYVKSLDSNHLVTLGDEGLGLSTG-DGAYPYTYGEGT * . . * * ..* .* *.* **** .*** **
A.aculeatus NFTKNLGISTIDFGTLHLYPDSWGTS---YDWGNGWITAHAAACKAVGKPCLLEEYGVTS
A.bisporus DFEANLAISSVDFATFHSYPEPWGQGADAKAWGTQWITDHAASMKRVNKPVILEEFGVTT T.reesei DFAKNVQIKSLDFGTFHLYPDSWGTN---YTWGNGWIQTHAAACLAAGKPCVFEEYGAQQ
A.fumigatus DFAKNLAAPDIDFGVFHLYTEDWGIKD--NSWGNGWVTSHAKVCKAAGKPCLFEEYGLKD
A.sulphureus NFTMNLGIDTIDFATLHLYPDSWGTS---DDWGNGWISAHGAACKAAGKPCLLEEYGVTS
A.tabescens DFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHATSMTAAGKPVILEEFGVTT H.jecorina DFAKNVQIKSLDFGTFHLYPDSWGTN---YTWGNGWIQTHAAACLAAGKPCVFEEYGAQQ * *. .** * * ** **. *. * .** . **.*
A.aculeatus NHCAVESPWQQTAGNATGISGDLYWQYGTTFSWGQSPN-DGNTFYYNTSDFTCLVTDHVA
A.bisporus NQPDTYAEWFNEVESS-GLTGDLIWQAGSHLSTGDTHN-DGYAVYPDGPVYP-LMKSHAS T.reesei NPCTNEAPWQTTSLTTRGMGGDMFWQWGDTFANGAQSNSDPYTVWYNSSNWQCLVKNHVD
A.fumigatus DHCSASLTWQKTSVSS-GMAADLFWQYGQTLSTGPSPN-DHFTIYYGTSDWQCGVADHLS
A.sulphureus NHCSVESPWQQTALNTTGVSADLFWQYGDDLSTGESPD-DGNTIYYGTSDYECLVTDHVA
A.tabescens NQATVYGAWYQEVVSS-GLTGALIWQAGSYLSSGATPD-DGYAIYPDDPVYS-LETSYAV H.jecorina NPCTNEAPWQTTSLTTRGMGGDMFWQWGDTFANGAQSNSDPYTVWYNSSNWQCLVKNHVD * . *. . ** * . * * .
A.aculeatus AINAQSK-----------------------------------------------------
A.bisporus AMKNRA------------------------------------------------------ T.reesei AIN---------------------------------------------------------
A.fumigatus TL----------------------------------------------------------
A.sulphureus AIDSA-------------------------------------------------------
A.tabescens TLKARA------------------------------------------------------ H.jecorina AINGGTTTPPPVSSTTTTSSRTSSTPPPPGGSCSPLYGQCGGSGYTGPTCCAQGTCIYSN ..
A.aculeatus ---------
A.bisporus ---------
T.reesei ---------
A.fumigatus ---------
A.sulphureus ---------
A.tabescens ---------
H.jecorina YWYSQCLNT
图5 7种菌?-甘露聚
通过MAN与其6真菌GHF5的?-甘
A.tabescens EJLY2098的?-甘露聚糖酶序列和GHF5的?-甘露聚糖酶
MAN
CLUSTAL multiple sequence alignment
orpinomyces ------------------------------------------------------------ piromyces MKSLNVILTLLSLIISVLSKKVYYEAEDGKLNGITVFKELSGFSGKGYVGRFENPG----
A.tabescens -----------------MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVC
orpinomyces -----------------------MHFNKVSALLLTLATSVAG--QFREGFVQTDGTNFVV piromyces -----------------------------NSVTVTVDAPATGMYDLSIIYCANMGQKINS
A.tabescens AALNDYYSQCVPGTATTTAAPTTATSTTISSTSRTTATSTTASAPSSTGFVTTSGTEFRL . * . . . . *
orpinomyces DGCKRYFSGSNTYYLMVSNHERVDL--ALETYARHNLNVVRAWAFCDEC----------- piromyces LTVNDQSVG-DITFTENTKFETKDVGAVYLNKGKNTIGLVSSWGWMWVDAFVINDAPNAA
A.tabescens NGAKFTIFGANSYWVGLMGYSTTDMNKAFADIAATGATVVRTWGFNEVTS---------- * *. .* .*
orpinomyces --------------------------------------------------EDATRLVDFS piromyces KDVSSKLNPTLVNPKAIPAAKKLYDFLKTNYGKRILSGQVGAAGQAGDEGQEIQRIQKAT
A.tabescens --------------------------------------------------PNGIYYQSWS .
orpinomyces G--------PEVTLNGENMEKVDYYLAAA----AQRNIRVVLTLTNNWTDYGG----MDV piromyces GKLPAVWN-------------MDFIFESNDCTWRPQNPDITEMAINWWKKYEGKGIMAAQ
A.tabescens GS------TPTINTGSTGLQNFDAVVAAA----AAHGLRLIVAITNNWSDYGG----MDV * * . .. . * * * *
orpinomyces WVKQFGG--------KYHDEFYTNKDIIKG---YKQYIKAMINRVNTYTGQLYKDDPTIF piromyces WHWNIAGKTGDFAFYSKDTTFNLENAVTEGTWEYEKIIKDIDRVSGHIKKLQAVNMPLIW
A.tabescens YVNQIVGSG------SAHDLFYTDCEVIST---YMNYVKTFVSR--------YVNEPTIL . * * . * .* * *
orpinomyces S----------WQLANEARCNNGPHGLPVKNCNTDTITKWMDEIATFIHQEDPNHLVSSG piromyces RPLHENNGDWFWWGNNPKACA----------------KLWKILYERMVNYHGLNNLI---
A.tabescens G----------WELANEPRCK-GSTGTTSGSCTATTITKWAAAISAYIKSIDPNHLVGIG * * * * . *.*.
orpinomyces IEGIGTPPAGVDKNTYVYTYTEGTDYEAISALDSIDYNTVHMYP---------------- piromyces ---------------WLWNGNN----DANTPVDYIDIIGVDIYANDHGPQTTAYNTHFDF
A.tabescens DEGFYNEPS---APTYPYQGSEGIDFDANLAISSIDFGTFHSYP---------------- .* . ** *
orpinomyces -------------------------VGWG-LKDYAKDGVTWIKAHADVDKKFNKPTVVEE piromyces YGGKKMVVLSENGRIPDIQQCVDQDVWWG-------------------------------
A.tabescens -------------------------ISWGQTTDPQGWGTQWIADHATSMTAAGKPVILEE . **
orpinomyces WGLSTSADNVPIEQRDPIYTQWMNEVLANDNIGMNMFWYVCGEDYYGT-----DGYLLE- piromyces -----------------YFQTWNSEFILQD-------------SYHTDAQLK--------
A.tabescens FGVTT--------NQATVYGAWYQEVVSSG-LTGALIWQAG--SYLSSGATPDDGYAIYP . * * . *
orpinomyces EDEITAVIDPFTKKLYANQTCENLDTISIVHTDLVDVYYEVEGCQPKYGTCTGGKCCAHG piromyces -------------EYFNHKTVMNMDELPSFN---------VDSYNGDSGSSHNG------
A.tabescens DDPVYSLETSYAVTLKARA-----------------------------------------
orpinomyces TRCEGSEYYGQCRPITEPPYRGATSPVEGYVLPGAKSTSKKNNTTKKTTTKTTTSAKSEP piromyces ------------------------------------------------------NSESNS
A.tabescens ------------------------------------------------------------
orpinomyces TSSSSDECFSIALGFPCCSDNTVVYSDNDGDWGVENGEWCGIGGTIVDNDSCFAKSLGYS piromyces NTGNSDECWSINLGYPCCIGDYVVTTDENGDWGVENNEWCG-----IVHKSCWSEPLGYP
A.tabescens ------------------------------------------------------------
orpinomyces CCSSCDVVYTDNDGNWGVENGEWCGIKDSC------------------------------ piromyces CCVGNTVISADESGDWGVENNEWCGIVHKSCWAEFLGYPCCVGNTVISTDEFGDWGVEND
A.tabescens ------------------------------------------------------------
orpinomyces -------
piromyces DWCGILN
A.tabescens -------
图6 3种真菌?-甘聚糖酶的基酸序列比对 通过MAN与其他2种真GHF6的?-甘露糖
A.tabescens EJLY2098的?-甘露聚糖酶序列和GHF6的?-甘露聚
系统进化树分析
图7 9种真菌?-甘露聚糖酶的氨酸序列比对生成的统进化树 由?-甘聚糖酶进化树,可知,A.tabescens和A.bisporus最为相似,可归为一类。此外,A.tabescens和A.bisporus与其GHF5的?-甘露聚糖酶的氨基酸序列的5真菌可
A.bisporus :Agaricus bisporus(CAB76904)
A.fumigatus :Aspergillus fumigatus Af293(EAL85463)
A.sulphureus :Aspergillus sulphureus (ABC59553)
A.aculeatus :Aspergillus aculeatus (AAA67426)
H.jecorina :Hypocrea jecorina (AAA34208)
A.tabescens :Armillariella tabescens (DQ286392)
T.Reesei:Trichoderma Reesei (1QNS_A)
Orpinomyces : Orpinomyces sp. PC-2 (AAL01213)
Piromyces : Piromyces sp. (CAA62968)
蛋白质
结果如下
Protein: ~out
Length = 445 amino acids
Molecular Weight = 46959.25 Daltons
Amino Acid Number Mol%
Ala A 50 11.24
Cys C 8 1.80
Asp D 19 4.27
Glu E 14 3.15
Phe F 17 3.82
Gly G 45 10.11
His H 6 1.35
Ile I 24 5.39
Lys K 8 1.80
Leu L 22 4.94
Met M 6 1.35
Asn N 18 4.04
Pro P 18 4.04
Gln Q 13 2.92
Arg R 7 1.57
Ser S 45 10.11
Thr T 61 13.71
Val V 27 6.07
Trp W 13 2.92
Tyr Y 24 5.39
图8 氨基酸组成
分析结果,蛋白质分子质量为Molecular Weight = 46959.25 Daltons MAN的445个氨基酸中强性氨基酸(K,R)有15个,强酸性基酸(D,E)33个,疏水氨基酸(A,I,L,F,W,V)153
附[16]:、组成蛋白质
1、非极性氨基酸
包括:甘氨酸、丙氨、缬氨酸、亮氨酸、
2、极性氨基酸
极性中性氨基酸:氨酸、酪氨酸、丝
天冬酰
酸性氨基
碱性氨基酸:赖氨酸、精氨酸、组氨酸
其中:属于芳香族氨酸的:色氨酸、酪氨酸、苯丙氨酸 属
含硫氨基
二级结构和功能分析
信号肽预测
结果如图9
图9 信号肽分析
由图9分析,知信
在生物体内,蛋白的合成所与功能场所常被一层或多层细膜所隔,这样就产生了蛋白质转的问题。核糖体是真核生细胞内合成蛋白质场所,几在任何时候,都有数以百计或千计的蛋白质离核糖并被输送到细胞各部分,以补充细胞的物质成分和更新细胞功能。由于细胞各部都有特定蛋白质组分,因此,合的蛋白质必须准确无误地定向送才能保证生命活动的进行。一般认为,蛋白质定位的信息存在于蛋白质自身结构中,并且通过上特殊体互相作用得以表达。起始密码子,有一段编码疏水性氨基酸序列RNA片段,这个氨基酸序列就称为信号序列。含信号肽的蛋白质一能够被分泌到细胞,可能作为重要的细胞因子起作用,而具有潜在的应用价值[12]。MAN的第18~19位之间有信号肽的剪切位
疏水性分析
结果如图10:
图10 疏水性分析
Using the scale Hphob. / Kyte & Doolittle, the individual values for the 20 amino acids are:
Ala: 1.800 Arg: -4.500 Asn: -3.500 Asp: -3.500 Cys:
2.500 Gln: -3.500
Glu: -3.500 Gly: -0.400 His: -3.200 Ile: 4.500 Leu:
3.800 Lys: -3.900
Met: 1.900 Phe: 2.800 Pro: -1.600 Ser: -0.800 Thr: -0.700 Trp: -0.900
Tyr: -1.300 Val: 4.200 Asx: -3.500 Glx: -3.500 Xaa: -0.490
Weights for window positions 1,..,9, using linear weight variation model:
1 2 3 4 5 6 7 8 9 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 edge center edge
由图中得知,MAN的水性较,最大值达到2.300,且位于N端的信号肽剪切处,
蛋白质溶解能
结果如下:
蛋白质溶解能力分析结果,可知:MAN有45.7%的残基暴露于白质表面,54.83%
------------------------------------------------------------- Pattern-ID: ASN_GLYCOSYLATION PS00001 PDOC00001
Pattern-DE: N-glycosylation site
Pattern: N[^P][ST][^P]
200 NWSD
Pattern-ID: PKC_PHOSPHO_SITE PS00005 PDOC00005
Pattern-DE: Protein kinase C phosphorylation site
Pattern: [ST].[RK]
75 TSR
440 TLK
Pattern-ID: CK2_PHOSPHO_SITE PS00006 PDOC00006
Pattern-DE: Casein kinase II phosphorylation site
Pattern: [ST].{2}[DE]
97 SGTE
124 STTD
219 SAHD
226 TDCE
331 SSID
417 TPDD
Pattern-ID: MYRISTYL PS00008 PDOC00008
Pattern-DE: N-myristoylation site
Pattern: G[^EDRKHPFYW].{2}[STAGCN][^P]
24 GQCGGI
33 GQTTCV
40 GTVCAA
56 GTATTT
105 GAKFTI
164 GSTPTI
216 GSGSAH
264 GSTGTT
271 GSCTAT
336 GTFHSY
379 GVTTNQ
399 GLTGAL
409 GSYLSS
Pattern-ID: MICROBODIES_CTER PS00342 PDOC00299
Pattern-DE: Microbodies C-terminal targeting signal
Pattern: [STAGCN][RKH][LIVMAFY]$
443 ARA
Pattern-ID: CBD_FUNGAL PS00562 PDOC00486
Pattern-DE: Cellulose-binding domain, fungal type
Pattern: CGG.{4,7}G.{3}C.{5}C.{3,5}[NHG].[FYWM].{2}QC
26 CGGIGWTGQTTCVSGTVCAALNDYYSQC
Pattern-ID: GLYCOSYL_HYDROL_F5 PS00659 PDOC00565
Pattern-DE: Glycosyl hydrolases family 5 signature
Pattern: [LIV][LIVMFYWGA]{2}[DNEQG][LIVMGST].NE[PV][RHDNSTLIVFY] 252 LGWELANEPR
由分析结果得知,MAN含有1个N型糖基位点,含有2个蛋激酶C磷酸化位点,6酪蛋白激酶Ⅱ磷酸化位点,13个肉蔻酰基化位,1个C—端锚定微体信号,1个真菌维素结合域,1个GHF5的结合域。蛋白质的糖基化,酰基化磷酸化是化学修饰,具有重要的生物学意义,提供蛋
磷酸化位点分析
由以上的PROSITE motif search可知MAN含有磷酸化位点,
磷酸化位
图11 磷酸化位点分析
445 Sequence
MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGTATTTAAPTTATSTTISSTSRTTA 80 TSTTASAPSSTGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGYSTTDMNKAFADIAATGATVVRTWGFNEVTSPNGIYYQ 160 SWSGSTPTINTGSTGLQNFDAVVAAAAAHGLRLIVAITNNWSDYGGMDVYVNQIVGSGSAHDLFYTDCEVISTYMNYVKT 240 FVSRYVNEPTILGWELANEPRCKGSTGTTSGSCTATTITKWAAAISAYIKSIDPNHLVGIGDEGFYNEPSAPTYPYQGSE 320 GIDFDANLAISSIDFGTFHSYPISWGQTTDPQGWGTQWIADHATSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGL 400 TGALIWQAGSYLSSGATPDDGYAIYPDDPVYSLETSYAVTLKARA 480 ..................................T.........................T.......S....S.S..T. 80 .S...S..S......TS.......................................................S....... 160 ...........................................Y.....Y......S.S......T.............. 240 ....Y........................S...................................Y.......Y...... 320 ..........S................T................S................................... 400 ..........Y.S...T....Y........YS..T.Y..T..... 480
Phosphorylation sites predicted:
Ser: 15 Thr: 9 Tyr: 9
由磷酸化位点分析,有15个Ser,9个Thr,9个Tyr可能成为
跨膜区分析
分析结果如下:# Sequence Length: 445
# Sequence Number of predicted TMHs: 0
# Sequence Exp number of AAs in TMHs: 0.5878400000000000000000000000001 # Sequence Exp number, first 60 AAs: 0.53369
# Sequence Total prob of N-in: 0.02631
Sequence TMHMM2.0 outside
1 445
图12 跨膜区分析
MAN无明显跨区,不可能是膜
亚细胞定位
Final Results:
48.0 %: extracellular, including cell wall
16.0 %: nuclear
12.0 %: cytoplasmic
12.0 %: endoplasmic reticulum
8.0 %: vesicles of secretory system
4.0 %: mitochondrial
prediction for queryProtein is exc
亚细胞定位分析可知MAN有48%的能性分泌到细外,16%的可能性在于细胞核内,有12%的可能性存在于胞质中,有12%的可能性存在分泡中,4%的可能性存
二硫键分析
结果如下:
Total number of cysteines: 8
Predicted number of bonds: 3
Cysteines at the following positions are predicted to form the disulfide bond:
26,37,43,53,262,273
Predicted disulfide bonds(cysteine pairs) ordered by probability in descending order:
Bond_Index Cys1_Position Cys2_Position
1 262 273
2 26 43
3 37 53
由分析可知,MAN含有8个Cys,共形成3个二硫键,分别连接第262位和第273位,第26位和43位,第37位和第53位Cys。绝大多数情况下二硫键是在多肽链的β-转角附近成的。二硫键的形成并规定多肽链的折叠,而一旦蛋白质采取了它的三维结构则二硫键形成将对此构象起作用。假如蛋白质中所有的二硫相继被还原将引起蛋白质的天然构象改变和生物活性丢。在许多情下二硫键可选性的被还原。同时,该白含有二硫键也使该白对热、对
二级结构预测
结果如下:
Hierarchical Neural Network result for : UNK_317230 Abstract Guermeur, Y. PhD Thesis
View HNN in: [MPSA (Mac, UNIX) , About...] [AnTheProt (PC) , Download...] [HELP] 10 20 30 40 50 60 70 | | | | | | | MHLLAFLSLSTFLCSAFAAVPEWGQCGGIGWTGQTTCVSGTVCAALNDYYSQCVPGTATTTAAPTTATST ceeeehhhhhhhhhhhhhhcccccccccccccccceeecccehehhhhhcccccccccccccccccccce TISSTSRTTATSTTASAPSSTGFVTTSGTEFRLNGAKFTIFGANSYWVGLMGYSTTDMNKAFADIAATGA eeecccccccccccccccccceeeecccceeeeccceeeeecccceeeeeccccchhhhhhhhhhhhccc TVVRTWGFNEVTSPNGIYYQSWSGSTPTINTGSTGLQNFDAVVAAAAAHGLRLIVAITNNWSDYGGMDVY eeeeeeeccccccccceeeeeccccccccccccchhhhhhhhhhhhhhccceeeeeecccccccccceee VNQIVGSGSAHDLFYTDCEVISTYMNYVKTFVSRYVNEPTILGWELANEPRCKGSTGTTSGSCTATTITK eeeeeccccccceeecchhhhhhhhhhhhhheeeeccccceeeeeccccccccccccccccccchhhhhh WAAAISAYIKSIDPNHLVGIGDEGFYNEPSAPTYPYQGSEGIDFDANLAISSIDFGTFHSYPISWGQTTD hhhhhhhhhhhccccceeecccccccccccccccccccccccccccceeeeeeccccccccccccccccc PQGWGTQWIADHATSMTAAGKPVILEEFGVTTNQATVYGAWYQEVVSSGLTGALIWQAGSYLSSGATPDD cccccchhhhchccchcccccceeeeeececccceeeeehhhhhhhhccccceeeeeccccccccccccc GYAIYPDDPVYSLETSYAVTLKARA
ccceccccccchhhhhhhhhhhccc
Sequence length : 445
HNN :
Alpha helix (Hh) : 102 is 22.92%
310 helix (Gg) : 0 is 0.00%
Pi helix (Ii) : 0 is 0.00%
Beta bridge (Bb) : 0 is 0.00%
Extended strand (Ee) : 96 is 21.57%
Beta turn (Tt) : 0 is 0.00%
Bend region (Ss) : 0 is 0.00%
Random coil (Cc) : 247 is 55.51%
Ambigous states (?) : 0 is 0.00%
Other states : 0 is 0.00%
图13 二级结构预测
MAN的二级结构,主以α–旋,不规则盘绕和延伸链为蛋白最大的结构元件,?–
总结与展望
本章通过对对一株?-甘露聚糖酶的新
EJLY2098获的新因序列( 命名为man)及行生物信息学
man于14~1351位存在个长1338bp的开放阅读框,码为445个氨基酸,起始密码为ATG,终止密码子为TAG。将其ORF出的氨基酸序列(命名为MAN,已登录Genbank:DQ286392)继续进行生物信息学分析,DQ286392与目前数据库中存有数据中具有明显的性,尤其与GHF5的?-甘露糖酶的氨基酸序列保守性较强。对其进行的一级结构分二级结构分中,表明了MAN是一个酸性蛋白,亲性较弱,疏水性强,号肽序列为
亚细胞定位最大可能性为定位于细胞外。有N型糖基化位,蛋白激酶C磷酸化位,酪蛋白激酶Ⅱ磷酸化位点,肉豆酰基化位点, C—末端定微体信号,真菌纤维素结合结构域, GHF5的结合域。主要以α–螺旋,不规则盘绕和伸链新蛋白最大量的结构元件,?–折叠布于整
通过这些分析数据,可以功能、构上获得有价值的信息,为下一步的研及开发利用做出探
在人类基因组计划的推动下,以生物信息的采集、处理、存、传布、分析和解释等多方面研究内容的生物信息学得了很好的发展。本章通过运用生物信息学研究内容的部分对一个未知基序列的结构和功进行了预测,为下一步研究方案的制定供了依据,以期究的利进行。现生物信息学术贯穿了生物学,信息学和数学等多门学科,仅为科学研究起到了大作用,而且能为高技术产品的开发带巨大的经
附录1:
ioEdit version 7.0.5.3 (10/28/05) Restriction Mapping Utility
(c)1998, Tom Hall
~out Restriction Map
2003-2-11 13:09:59
1483 base pairs
Translations: none
Restriction Enzyme Map:
1 ACGCGGGGGAAAGATGCATCTGCTCGCTTTTCTGTCTCTGAGTACATTCCTGTGCTCTGCGTTCGCTGCTGTTCCTGAGT 80 1 TGCGCCCCCTTTCTACGTAGACGAGCGAAAAGACAGAGACTCATGTAAGGACACGAGACGCAAGCGACGACAAGGACTCA 80
SfaNI BfrBI Cac8I BsmAI MslI BsiHKAI MwoI Hpy188III NsiI SfaNI TatI BbvI HpyF10VI
BseMII Bsp1286I BseMII
BspCNI BspCNI
81 GGGGCCAATGTGGCGGCATTGGATGGACAGGACAGACCACTTGCGTTAGTGGTACAGTATGCGCAGCTCTCAATGACTAT 160
81 CCCCGGTTACACCGCCGTAACCTACCTGTCCTGTCTGGTGAACGCAATCACCATGTCATACGCGTCGAGAGTTACTGATA 160
BslI BglI BstF5I FspI BbvI
NlaIV MwoI FokI
HpyF10VI
161 TATTCTCAATGTGTGCCTGGAACGGCCACAACAACGGCCGCTCCCACGACTGCTACATCAACAACCATTTCTTCCACTTC 240
161 ATAAGAGTTACACACGGACCTTGCCGGTGTTGTTGCCGGCGAGGGTGCTGACGATGTAGTTGTTGGTAAAGAAGGTGAAG 240
EaeI EaeI BceAI MboII
BsaXI EagI BsaXI
BceAI
BsiEI
BsrBI
241 TCGCACAACTGCTACGTCGACCACAGCTTCCGCACCATCTTCTACTGGCTTTGTAACTACCTCTGGCACAGAGTTCCGCC 320
241 AGCGTGTTGACGATGCAGCTGGTGTCGAAGGCGTGGTAGAAGATGACCGAAACATTGATGGAGACCGTGTCTCAAGGCGG 320
SalI MboII BsrI EciI
AccI MnlI
HincII
Hpy8I
321 TCAACGGTGCCAAATTTACTATCTTCGGCGCCAACTCATACTGGGTCGGGTTGATGGGCTATAGCACTACAGATATGAAT 400
321 AGTTGCCACGGTTTAAATGATAGAAGCCGCGGTTGAGTATGACCCAGCCCAACTACCCGATATCGTGATGTCTATACTTA 400
BanI ApoI BanI BsrI SfcI SfcI
NlaIV KasI BmrI
MnlI BsaHI
MboII NarI
NlaIV
SfoI
BbeI
HaeII
401 AAAGCCTTCGCAGACATCGCGGCTACAGGTGCCACCGTCGTCCGCACATGGGGCTTCAATGAGGTAACGAGTCCTAACGG 480
401 TTTCGGAAGCGTCTGTAGCGCCGATGTCCACGGTGGCAGCAGGCGTGTACCCCGAAGTTACTCCATTGCTCAGGATTGCC 480
TspDTI SfcI HpyF10VI BslI MnlI PleI MwoI MwoI MwoI MlyI
HpyF10VI BanI HpyF10VI
NlaIV
481 GATTTATTACCAGAGTTGGTCCGGAAGTACACCAACTATCAACACAGGTTCTACGGGTCTTCAAAACTTTGATGCCGTCG 560
481 CTAAATAATGGTCTCAACCAGGCCTTCATGTGGTTGATAGTTGTGTCCAAGATGCCCAGAAGTTTTGAAACTACGGCAGC 560
BsaWI Hpy8I MboII BceAI BbvI BbvI BspEI BbsI SfaNI BbvI BbvI Hpy188III BsgI
TatI
561 TCGCTGCTGCTGCTGCACATGGCTTGAGGCTTATTGTTGCCATAACGAACAACTGGTCCGACTATGGTGGAATGGATGTA 640
561 AGCGACGACGACGACGTGTACCGAACTCCGAATAACAACGGTATTGCTTGTTGACCAGGCTGATACCACCTTACCTACAT 640
MwoI MwoI MnlI AloI BsrI AloI AccI HpyF10VI MwoI SmlI BpuEI
HpyF10VI
HpyF10VI
641 TACGTTAACCAAATTGTCGGGTCTGGCTCTGCGCACGATTTATTCTATACCGACTGTGAGGTTATATCTACTTACATGAA 720
641 ATGCAATTGGTTTAACAGCCCAGACCGAGACGCGTGCTAAATAAGATATGGCTGACACTCCAATATAGATGAATGTACTT 720
BstF5I FspI Hin4I
BstZ17I MnlI
Hpy8I FokI
MmeI
HincII
HpaI
Hpy8I
721 CTACGTCAAGACCTTCGTCTCGCGCTATGTGAACGAACCTACTATTTTAGGTTGGGAGCTTGCAAATGAACCTAGATGCA 800
721 GATGCAGTTCTGGAAGCAGAGCGCGATACACTTGCTTGGATGATAAAATCCAACCCTCGAACGTTTACTTGGATCTACGT 800
Hin4I TspDTI BsmBI Hpy8I Cac8I
Hpy188III BsmAI SfaNI
PshAI
801 AGGGGAGTACCGGGACGACCTCTGGATCATGCACTGCAACGACTATCACAAAATGGGCCGCGGCAATTTCAGCGTACATC 880
801 TCCCCTCATGGCCCTGCTGGAGACCTAGTACGTGACGTTGCTGATAGTGTTTTACCCGGCGCCGTTAAAGTCGCATGTAG 880
TspDTI Hpy188III TspRI BsaJI MwoI
BsmFI BtgI HpyF10VI
MnlI MspA1I
BtsI SacII
AlwI
881 AAGTCGATCGATCCCAACCATCTTGTCGGGATAGGAGATGAAGGGTTCTACAATGAACCTAGCGCACCAACATATCCATA 960
881 TTCAGCTAGCTAGGGTTGGTAGAACAGCCCTATCCTCTACTTCCCAAGATGTTACTTGGATCGCGTGGTTGTATAGGTAT 960
AlwI Hpy188III TspDTI TspDTI
BsiEI
PvuI
ClaI
961 TCAAGGTAGCGAAGGTATCGATTTTGATGCAAATTTGGCCATTAGTAGCATTGATTTCGGTACATTCCATTCCTATCCTA 1040
961 AGTTCCATCGCTTCCATAGCTAAAACTACGTTTAAACCGGTAATCATCGTAACTAAAGCCATGTAAGGTAAGGATAGGAT 1040
BslI BcgI SfaNI ApoI BcgI BcgI
ClaI MwoI BcgI
HpyF10VI
EaeI
MscI
1041 TCAGCTGGGGTCAAACCACTGATCCTCAGGGATGGGGTACGCAATGGATCGCTGATCATGCAACGTCAATGACAGCTGCG 1120
1041 AGTCGACCCCAGTTTGGTGACTAGGAGTCCCTACCCCATGCGTTACCTAGCGACTAGTACGTTGCAGTTACTGTCGACGC 1120
MspA1I AlwI TspRI MnlI FokI BclI BbvI Hin4I PvuII Bsu36I BstF5I BsrDI MwoI Hin4I
BseYI BspCNI AlwI FauI
Hin4I HpyF10VI MspA1I
Hin4I PvuII
BseMII
1121 GGAAAGCCCGTAATCTTAGAGGAGTTTGGAGTCACCACTAATCAAGCAACTGTTTATGGCGCCTGGTATCAGGAAGTTGT 1200
1121 CCTTTCGGGCATTAGAATCTCCTCAAACCTCAGTGGTGATTAGTTCGTTGACAAATACCGCGGACCATAGTCCTTCAACA 1200
MnlI HphI BseRI BanI Hpy188III
PleI KasI MboII
MlyI BsaHI
NarI
NlaIV
SfoI
BbeI
HaeII
1201 CTCTTCGGGTCTTACTGGTGCTCTTATTTGGCAAGCTGGTTCTTATTTATCATCCGGAGCTACTCCGGACGACGGATATG
1280
1201 GAGAAGCCCAGAATGACCACGAGAATAAACCGTTCGACCAAGAATAAATAGTAGGCCTCGATGAGGCCTGCTGCCTATAC 1280
BsmAI BsrI Cac8I BstF5I BcgI Hpy188III
EarI BsiHKAI FokI BsaWI BsaWI BslI
Bsp1286I BspEI BspEI
Hpy188III
1281 CAATTTATCCTGATGATCCTGTATATTCCCTGGAAACCTCCTATGCGGTTACATTGAAAGCGCGGGCGTAGGATAGGGTA 1360
1281 GTTAAATAGGACTACTAGGACATATAAGGGACCTTTGGAGGATACGCCAATGTAACTTTCGCGCCCGCATCCTATCCCAT 1360
TspGWI BsaJI MnlI FauI Cac8I
Hpy188III
AlwI
BcgI
1361 CAGAATAAATTTTGCTCCGATGTGGTACTGTAGCCGAGCGGCTTGACTATGTGAATAAAAATAGCACTGTTGTCACGATC 1440
1361 GTCTTATTTAAAACGAGGCTACACCATGACATCGGCTCGCCGAACTGATACACTTATTTTTATCGTGACAACAGTGCTAG 1440
ApoI SfcI BsrBI TspRI BsiEI Hpy188III
PvuI
ClaI
1441 GATCAACACCTAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 1483
1441 CTAGTTGTGGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT 1483
参考文献
[1] 李伟,茅矛.生物信息学新进展——第六届国际生物信息学和基
因组研究年会综.国
[2] 郭志,怀渝,梁龙.生物信
2004,5(3)313-317
[3] 丁达夫,梁卫
[4] 欧阳光,福初.生物信息学:
新领域.科学通报,1999,44(14)1457-1468
[5] 文建,李
国生物工程
[6] 王斌会.
息,2000,13(10)519-520
[7] 陈铭.后因组代的生物信息学.生物信息
[8] 郑珩, 王. 药物生物信息学.
物技术与医
[9] T.K.Attwood, D.J.Pasrry-Smith 著,
概论.北京:北京大学出版社,2002
[10] 郝林,淑誉编著.生物信息
版社,2000
[11] Andreas D.Baxevanis. The Molecular Biology Database
Collection: 2002 update. Nucleic Acids Research,2002,30(1):1-12