范文一:【word】 酶的最适温度
酶的最适温度
理论广煮
l?
酶的最适温度
许彦
(湖北省武汉市中南民族大学药学院湖北武汉430074)
[摘要]对温度敏感是酶的’’个重要特性,酶作为生物催化剂,和’般催化剂样呈现出温度效应,提高温度可以提高酶促反应速度,但另-?方面
又会加速酶蛋白的变性速度,所以在较低的温度范内,酶反应速度随温度升高而增人,但是超过一定温度后,反应速度就会F降.
[关键词]酶温度淀粉酶活性
中图分类号:TS827文献标识码:A文章编号:1009—914X(2011)09—0164一Ol
1引言
酶(enZyme),早期是指在酵母中的意思,指I_=n生物体内活细胞产生
的一种牛物催化剂,是催化特定化学反应的蛋I质,RNA或其复合体.酶通
过降低反应的活化能加快反应速度,【枷比能在机体中『分温和的条件下,高
效率地催化各种生物化学反应,促进生物体的新陈代谢,但同时又不
改变反
应的平衡点.生命活动中的消化,吸收,呼吸,运动和生殖都是酶促反应过
程.酶是细胞赖以生存的基础.细胞新陈代谢包括的所有化学反应几乎都是
在酶的催化下进行的.酶具有催化效率高,专一性强,作用条件温和等特点.
酶反应速度达到最大是的温度称为酶的最适温度.酶的最适温度小是一
个常数,它与作用时间的长短有关系.各种酶在其最适温度范围内,活性最
强,酶促反应速度最大.但如果超过最适温度继续升温,反应速度反而下降.
不同类酶均有其作用的最适温度,高丁或低于该温度,酶的活性就会下降,直
至完全遭到破坏.
2实验原理
唾液淀粉酶可以催化将淀粉水解成麦芽糖和糊精.存在于人和一些动物
唾液中.
直链淀粉遇碘旱蓝色,糊精遇碘蓝紫,紫,橙等颜色.这些显色反应
的灵敏度很高,町以用作签别淀粉的定量和定性的方法,也町以用它
来分析
碘的含量.
直连淀粉具有遇碘变蓝的特性,这是由淀粉本身的结构特点决定的.直
链淀粉是由a一葡萄糖分子缩合而成螺旋状的长长的螺旋体,每个葡萄糖单
元都仍有羟基暴露在螺旋外.碘分子跟这些羟基作用,使碘分子嵌入淀粉螺
旋体的轴心部位.淀粉跟碘生成的包合物的颜色,跟淀粉的聚合度或相对分
子质量有关.在一定的聚合度或相对分子质量范围内,随聚合度或相对分子
质量的增加,包合物的颜色的变化南无色,橙色,淡红,紫色到蓝色.但南
于无自由半缩醛羟基,所以不具还原性.
糊精的聚合度更低,显棕红色,红色,淡红色等.麦芽糖分子结构中有
醛基,是具有还原性是’种还原糖,与碘不发生显色反应.因此,呵以用碘
检查淀粉的水解,片j以间接判断唾液淀粉酶的存在及其活性大小.
3材料和器材
3.1材料
0.3%氯化钠的0.5%淀粉溶液
新鲜唾液:嘲少量蒸馏水漱L](为了清除IJ腔内食物残渣),收集唾液
2m],用蒸馏水稀释5,10倍(根据各人的酶活性而定)
KI—I2溶液
32器材
恒温水浴锅广泛应用于十燥,浓缩,蒸馏,浸渍化学试剂,浸渍药
品和牛物制剂,也可用于水浴恒温加热和其他温度试验,是生物,遗传,病
毒,水产,环保,医药,卫生,生化实验室,分析室教育科研的必备工具.其
书要特点:A工作室水箱选材小锈钢,有优越的抗腐蚀性能.B温控精确,有
数字显示,自动温控.C操作简便,使用安全.
4操作步骤
取试管3只,分别编号1号,2号,3号,为各加0.3%氯化钠的0.
5%淀粉溶液2ml,l,2号试管直接放入恒温水浴锅中加热5min,3号试管置
冰浴中预冷5min,其余步骤按表2操作.
5结果
l号试管溶液呈蓝色,2号试管溶液呈棕黄色,3号试管溶液呈棕红色
6讨论
实验证明唾液淀粉酶的最适温度为37?.唾液淀粉酶在其最适温度37
?时活性最强,淀粉全部反应成各种糊精和麦芽糖故2号试管溶液
显棕黄
色;由于酶本身是蛋白质,因此煮沸使之变性失活,且这一变化是不可逆的,
即使之后是在37?是酶仍无活性,故1号试管溶液显蓝色;预冷可使酶活性
受到抑制,淀粉未能全部分解,故3号试管溶液显棕红色.
参考文献
[1]许冰,贾爱芳,赵文献.温度对酶活性的影响[J].临床合理用药,
2OlO.3(7):28.
表1某些酶的最适温度
酶的名称木瓜蚤白酶蔗糖酶胰蛋白酶唾液淀粉酶碱性磷酸酶
最适温度/~C5065455O3736.53747
表2操作步骤
,
,—
一
管编号
试剂处理,\,,
l23
淀粉溶液/ml’0
第l,2号试管放入37?.第3号试管放入冰水中,各5rain
煮沸10min的唾液/ndl
新鲜的稀释唾液/mlll
援匀后再莺新放回37?水浴和冰水中,20min
KI—I2溶液/滴02’—.,
164l科技博览
范文二:温度对酶活力的影响--最适温度的测定
温度对酶活力的影响,,最适温度的测定 一、实验目的
掌握测量最适温度的基本原理和方法。
二、实验原理
温度对酶的影响具有双重作用。一方面,温度加速酶反应的速度;另一
方面酶是蛋白质,温度升高会加速酶蛋白的变性。
酶反应速度达到最大值时的温度称酶反应的最适温度。如果保持其它反
应条件恒定,而在一系列变化的温度下测酶活力;以温度为横坐标,反应速
度为纵坐标作图,可得到一条温度-酶活力曲线,可求得最适温度。
温度是影响酶促反应速度的重要因素之一。在温度较低时,绝对温度对
Vmax的影响遵守Arrnenius公式程式: E1Valog,,(),常数10maxRT 2.3
三、实验材料
1.试剂
(1)酸性磷酸酯酶原酶液
(2)1.2mmol/Lnpp(用0.05mol/LPH5.0柠檬酸缓冲液配制)
(3)0. 3mol/LNaOH溶液
2.仪器
(1)恒温水浴槽
(2)可见分光光度计
(3)试管 刻度吸管
四、方法步骤(分2大组)
管号 1 2 3 4 5 6 7 8 0* 试剂 对硝基1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 苯磷酸 酯(mL)
不同温10? 20? 30? 35? 40? 50? 60? 70? 50? 度预热 2min的
稀释酶
液2.0ml
反应时15
间(min)
0.3 mol/L 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 3.0 NaOH (mL)
0*号管先加入1.0mL NPP,反应温度为50?,然后加入0.3 mol/L NaOH 3.0 mL,最后加酶。
五.实验结果
1.实验数据
温度10 20 30 35 40 50 60 70 (?)
A1.416 1.405 1.706 1.926 1.163 2.492 0.938 1.15 405
2.数据处理
温度—酶活力曲线
结果分析:
1)在PH值4.6的缓冲体系中,将反应置于不同的温度梯度中,测A405,做温度-吸光值的曲线图如上,其中40、60的数值偏差太大,所以作图时将其去掉 2)因为吸光值越大,说明对硝基酚的含量越高,即相同的时间内酶促反应快,及酶的活力高,因此由此表可以知道酸性磷酸酶在50度的时候酶的活力达到最大值,在10-50度间酶的活力随着温度的升高而增大,而以后随着温度的升高酶的活力下降。
因此在PH值4.6的缓冲体系中,该酶的最适温度是50度,但是还要看此温度时酶的活力稳定性是否好,才能决定最适反应温度。
范文三:一种预测木聚糖酶最适温度的PCANN模型
一种预测木聚糖酶最适温度的PCANN模型 第28卷第1期
2007年1月
华侨大学(自然科学版)
JournalofHuaqiaoUniversity(NaturalScience)
Vol_28No.1
Jan.2007
文章编号:1000—5013(2007)01—0055—04
一
种预测木聚糖酶最适温度的PCANN模型
张光亚,葛慧华,方柏山
(华侨大学材料科学与工程学院,福建泉州362021)
摘要:采用主成分分析法对样本数据集进行预处理,将得到的新样本数据集输入神经网络,构建F/lO家族
木聚糖酶氨基酸组成和最适温度的主成分分析神经网络(PCANN)模型.结果表明,当学习速率为0.07,动态
参数为0.8,Sigmoid参数为0.96,隐含层结点数为5时,模型对温度拟合的平均绝对百分比误差为4.97,
绝对误差为3.03?.同时.方法具有良好的预测效果,预测的平均绝对百分比误差为4.68,平均绝对误差
为3.55?.
关键词:主成分分析;BP神经网络;木聚糖酶;最适温度;虚拟筛选 中图分类号:Q550.3;Q811.211;TP183文献标识码:A
设计具有新特性的蛋白主要有两种方法,即理性设计(定点突变法)和非理性设计(定向进化法).定
点突变在一次循环中仅能对一个位点进行突变,当靶目标超过3个时,其效率急剧下降[1].而且,由于对
定点突变结果的预测能力有限,对每个突变体要用实验一一验证,方可判断是否达到所需目标,从而降
低了工作效率,限制了筛选通量,制约了突变的序列范围.定向进化虽然取得了不少成功的例子[2],但
其受限于实验所能筛选的序列的数量(高通量筛选可达10).因此,筛选往往成为定向进化的瓶颈[4].
计算机技术的迅猛发展使其开始应用到筛选过程,其最大筛选的序列库可达10曲,极大增加了获得新蛋
白的几率].目前已有一些应用成功的例子L6.],算法和数学模型是其核心.本文利用F/10家族木聚糖
酶信息及其对应的最适温度,采用主成分分析的BP神经网络,建立了预测其最适温度的模型.该模型
具有较高的拟合和预测精度,可望用于对木聚糖酶的改造过程中的计算机虚拟筛选.
1材料与方法
1.1数据来源
F/10家族木聚糖酶的序列来源于Swiss-ProtRelease44.4(2004—08—31);木聚糖酶最适pH值
的数据来源于文[8],最适温度均为实验所得数据.23个木聚糖酶ID号及最适温度,如表1所示.木聚
糖酶的氨基酸组成分析由Bioedit软件完成.以各主成分得分值经标准化处理后的数据作为神经网络的
输入层,各木聚糖酶对应的最适温度为输出层,采用单隐含层的BP神经网络.主成分分析及神经网络
由DPS软件完成.表中,ID为Swiss—Prot的登录号,T曲.为文献报道的最适温度,T.m为文[8]计算的最
适温度,T为PCANN模型计算的最适温度,APEl.,PE-分别为文[8]和PCANN模型的平均绝对
百分误差.
1.2基于主成分分析的神经网络
1.2.1主成分分析主成分分析(PrincipalComponentAnalysis,PCA)也称主分量分析,
是Hotelling
于1933年首先提出的.它利用降维的思想,把多指标转化为少数几个不相关的综
合指标.通过主成分分
析,把变量作为神经网络的输入参数,既可减少神经网络的输入变量,加快网络的
收敛,又起到了主成分
收稿日期:
作者简介:
基金项目:
2006-05-13
张光亚(1975一).男,讲师.博士研究生,主要从事生物信息学和酶工程的研究;通信
作者:方柏山(1957一),
男,教授,博士生导师.E-mail:bsfang@hqu.edu.cn, 国务院侨务办公室科研基金资助项目(05QOO18)
56华侨大学(自然科学_版)2007年
过滤噪音的目的.具体操作过程有5个步骤.(1)对原始数据(氨基酸组成百分比)进
行标难化处理.(2)
建立相关矩阵.(3)计算特征值及特征向量.(4)建立主成分方程,计算主成分荷载及
主成分得分.(5)
根据主成分分析结果构建神经网络的输入层数据.
表1F/IO家族木聚糖酶
Tab.1XylanaseinfamilyF/IO
lDI1占MZpfAPID丁0b.了-柙1^PE.1如梆.1
Q6o042lO284.1417.5191.839.97P565886757.8413.6763.175.72
Q6oo419O91.441.6089.380.69Po79866566.161.7868.174.87 Q600379084.086.5892.042.26P4o9436567.143.2967.193.37 Q126038585.911.0788.163.71P457o36o50.8715.2261.061.76
P409428081.oo1.258O.23o.28P335596049.6217.3O58.O83.19
P2336o8O72.818.9978.382.O3P265416068.6714.4560.580.96 P515847567.4310.O978.374.49P147685560.96lO.8453.921.97 Po75287069.73O.3974.155.93P262235558.2O5.8256.192.17 P235567081.O215.7469.O11.42Qoo1775249.914.0244.5514.33 P409447075.157.3668.592.O10598594052.8932.2348.242O.61 P369177071.672.3970.891.28P294174o44.8112.O346.2215.56 Plo4787076.469.2374.O35.76平均值9.254.97
1.2.2均匀设计法由于BP神经网络在多数情况下无法确定最佳隐含层神经元个数,
而网络恰恰对
隐含层中神经元个数很敏感.太少的神经元导致网络不适应,太多又容易溢出.饲
时,选择合适的神经网
络拓扑结构和参数至关重要.在实际应用中,一些研究者往往根据自己的经验来选
择参数.为了克服上
述弊端,本文采用均匀设计来优化神经网络的拓扑结构和选择适当的运行参数.均
匀设计由方开泰[9]创
造,它是将数论和多元统计相结合的一种新颖的试验方法.为了定量比较拟合和测
试效果,特定义以下
3个特征指标.即平均绝对百分比误差PE,均方根误差.sE和平均绝对误差,它们分
别为
=?,
=
‰=三II
其中,和分别表示实际值和拟合值(或预测值).
2结果与分析'
2.120种氨基酸组成的主成分分析
原始数据经主成分分析后得到的特征值及累计方差贡献率,如表2所示.表中,P为
主成分,Ev为
特征值,v为贡献率,u为累计贡献率.分析表中数据,选显着水平一95,则只选择前l1
个主成分
即可代表原始数据中蕴涵的绝'部分信息.11个主成分和原2o个变量之间的关系
(限于篇幅,仅写出
前3个主成分)为
Pc.
1=一O.317A一0.166C+0.108D+0.351E+0.290F一0.278G+
0.185H+0.252J+O.271K+0.219L+0.197M一0.154N+0.020P一
0.244Q+0.133R一0.279S一0.258T一0.156V+0.075W+0.216Y,(1) Pc_2=0.1ooA+0.261C一0.135D+0.109E+0.176F一0.0l1G+0.36~.6H一
0.260J一0.262K十0.040L一0.032M一0.310N一0.009P+0.1.65Q十
0.445R一0.023S一0.114丁一0.058V+0.404W一0.292Y,(2)
Pc.
3=一O.O8lA+0.383C一0.300D一0.049E+0.089F+0.191G一0.006H+
0.026J一0.221K一0.051L+0.334M+0.331N+0.038P一0.18=8Q+
0.180R+0.140S一0.109T一0.474V,O.23Olw+0.242Y.(3)
第1期张光亚,等:一种预测木聚糖酶最适温度的PCANN模型
式(1),(3)也说明了各氨基酸与主成分之间的关系.相关系数越大,表明对该主成
分的影响越大.根据
Liu等m的研究结果,F/IO家族主成分分析的前7个主成分所代表的该家族木聚
糖酶的二级结构,分
别为转曲,螺旋,折叠,转角,折叠,螺旋和转角,这与该家族的结构特征基本吻合.本
文主成分分析结果
与其基本相符,但略有差异.
表2主成分及其累计方差贡献率
Tab.2Principalcomponentsandtheiraccumulativesquareerrors PcEvA/(%)/()PcEvA/(%)/(%)PcEvA/(%)/()PcEvA/(%)/(%) 16.733.633.660.94.680.0110.41.895.3160.10.399.6 22.814.047.670.84.184.1120.31.396.6170.00.299.8 32.512.359.980.73.587.6130.21.197.8180.00.199.9 41.89.269.190.63.290.8140.20.998.7190.00.1100.0
51.36.375.4100.52.793.5150.10.799.3ZO0.00.0100.0
2.2BP神经网络拓扑结构的优化
将主成分分析方法所得的新样本数据集,作为神经网络的输入层,最适温度作为输出层,选择3层
BP神经网络.本次使用的BP神经网络包含一个隐含层,对学习速率(),动态参数(五),Sigmoid参数
(5)和隐含层结点数(N)共4个因素9水平进行均匀设计,所得的均匀设计表如表3所示.为了避免过
.度拟合而导致测试效果较差,将允许误差设为o.005,最大迭代次数设为1000次计算结果显示,当学
习速率为0.07,动态参数为0.8,Sigmoid参数为0.96,隐含层结点数为5时,所得模型对温度拟合的平
均绝对百分比误差为4.97,均方根误差为4.o0?,平均绝对误差为3.07?,具有很好的拟合效果
(表1).所得神经网络的拓扑结构为"1l一5—1",后续训练及预测均采用上述参数. 表3均匀设计表(9')
Tab.3Uniformdesign(9)
水平SkN占E水平SkNPE水平SNAPE
10.900.090.651l5.7140.930.080.7085.4470.960.070.8054.97
20.9l0.200.50108.5l50.940.150.5575.9280.970.100.6045.23
30.920.400.3596.i160.950.300.4065.4290.980.250.4535.3l
2.3BP神经网络模型预测
为了检验所建立的神经网络的可靠性,将上述PCA方法所得的新样本数据集从中随机取出5组作
BP神经网络模型进行为测试集,其余18组作为学习集.利用拓扑结构经优化后的
学习和预测,共进行
了35次,取预测结果较好的一次进行了回归分析,如图l所示.由图1可知,PCA—BPNN(主成分分析
(a)=0.8468x+1.1929(6)—1.0882x一7.7211
图1PCANN的拟合和预测值
Fig.1FittingandpredictingvalueofPCANN BP神经网络)方法拟合数值的最佳线性拟合和"拟合值等于目标值"的理性曲线基本重合,而预测结构
又有一定的偏差.由此可见,拟合的效果优于预测的效果,其平均绝对百分比分别为5.06和4.68%,
均方根误差分别为4.O8?和3.95?,平均绝对误差分别为2.98?和3.55?.所建立的神经网络模型
华侨大学(自然科学版)2007拒
具有令人满意的拟合和预测效果.
3结束语
木聚糖酶结构与功能,性质的关系错综复杂,使用传统回归分析所得的数学模型往往不能满足要
求.本文利用主成分分析对样本集进行预处理,在保留数据最大量信息的前提下,消除BP网络输入间
的相关性,减少神经网络的输人数,使输入层的节点数从2O减少到11个,简化了网络结构.而且.再经
均匀设计优化,使得神经网络的拓扑结构更为合理,同时,程序运行的速度也明显加快,使神经网络的执
行效率有了较大的提高,得到的神经网络模型也有较高精度.
参考文献:
[13r
[23
[3]
[4]
Is]
[63
[7]
[8]
[9]
[io3
ANDREASS,JEANHJ.Multiplesite-directedmutagenesisofmorethan10sitessimultaneouslyandinasingle
round[J].AnalyBiochem,2004,324:285—29L
LIUXiang—
mei,QUYin-bo,FANYin,eta1.Studiesonthekeyaminoacidresiduesresponsibleforthealksli-tol—
eranceofthexylanasebysite-directedorrandommutagenesis[J].JMolCatalysisB:Enzy.2002,18(4—6):307-
313.
徐卉芳,张先恩,张治平.等.大肠杆菌碱性磷酸酶的体外定向进化研究[J].生物化学
与生物物理进展,2003,30
(1):181-186.
VOIGTCA,KAUFFMANS.WANGZhen-gang.Rationalevolutionarydesign:Thetheoryofinvitroproteinevo.
lutionmJ].AdvProteinChem,2001.55;79—160.
ROBERTJH,JORGB,MARIELA.eta1.Combiningcomputationalandexperimentalscreeningforrapidoptimi.
zationofproteinproperties[J].ProcNatlAcadSciUSA,2002,99:15926—15931.
VOIGTCA,MAYOSL.ARNOLDFH,eta1.Computationalmethodtoreducethesearchspacefordirectedpro—
teinevolution[J].ProeNatlAcadSciUSA,2001,98:3778—3783.
RICHARDF,AJOYR,SRIDHARG,eta1.Optimizingthesearchalgorithmforproteinengineeringbydirectede'
volution[J].ProteinEng,2003,16(8):589—597.
LIULiang-wei,WANGMei—
li,SHAOWei-lan,eta1.Anovelmodeltodeterminethedipeptidesresponsiblefor optimumtemperatureinF/10xylanase[J].ProcessBiochem,2005?40(3):1389—1394.
方开泰.均匀设计与均匀设计表[M].北京:科学出版社,1994:363—372.
LIULiang—
wei,ZHANGJing.CHENBin.eta1.PrinciplecomponentanalysisinF/10andG/11xylanase[J].
BiochBiophyResCo,2004.322(1):277—280.
APrincipalComponent-ArtificialNeuralNetworkModelfor
PredictingOptimumTemperatureinF/IOXylanases
ZHANGGuang—ya,GEHui—hua,FANGBai—shan
(CollegeofMaterialScienceandEngineering,HuaqiaoUniversity.362021,Quanzhou,China)
Abstract:Theprincipalcomponentanalysiswasfirstappliedtothedataprocessingintrainingsets?andthentheob—
tainednewprincipa1componentswereusedasinputparametersofBPneuralnetworks.Apredictionmodelforoptimum
temperatureofxylanasesinF/10familywasestablishedbasedonuniformdesign.whenthelearningrate?momentumpa'
rameter.Sigmoidparameterandtheneuronnumbersofthehiddenlayerwas0.07,0.8,0.96and5,respectivelyftheealeu.
Iatedtemperaturesfittedthereportedoptimumtemperaturesverywel1.Themeanabsolutepercenterrorwas4.97%.At
thesametime.thepredictedtemperaturesfittedthereportedoptimumtemperatureswellandthemeanabsoluteerrorwas
3.55?.Itwassuperiorinfittingsandpredictionscomparedtothereportedmodelbasedonstepwiseregression.
Keywordslprincipalcomponentanalysis;BPneuralnetworks;xylanase;optimumtemperature;virtua1screening
(责任编辑:黄仲一)
范文四:PCA_SVM模型在几丁质酶最适温度建模中的应用
( )第 29 卷 第 2 期 自 然 科 学 版 Vol . 29 No . 2 华 侨 大 学 学 报
2008 年 4 月 ( )Ap r . 2008 J o ur nal of H uaqiao U niver sit y Nat ural Science
() 文章编号 : 100025013 20080220236205
PCA2S VM 模型在几丁质酶最适温度
建模中的应用
林 毅 , 蔡福营 , 袁孙熹 , 张光亚
( )华侨大学 材料科学与工程学院 , 福建 泉州 362021
( ) 摘要 : 采用主 成 分 分 析 法 PCA 对 样 本 数 据 集 进 行 预 处 理 , 将 得 到 的 新 样 本 数 据 集 输 入 支 持 向 量 机
( ) ( ) SV M,籍助均匀设计 UD,构建几丁质酶氨基酸组成和最适温度的数学模型 . 当径向基核函数的 3 个参
εγ数 ,惩罚系数 C 为 10 ,为 0 . 5 ,为 5 时 ,模型对温度拟合的平均绝对百分比误差为 5 . 06 % ,预测的平均绝对 误
差为 1 . 83 ?,说明具有良好的预测效果且优于神经网络的预测结果 .
关键词 : 几丁质酶 ; 数学模型 ; 主成分分析 ; 支持向量机 ; 最适温度+ 中图分类号 : Q 556 . 2 ; Q 141 文献标识码 : A
( ) 几丁质酶 Chiti na se , EC3 . 2 . 1 . 14是能够催化水解 N2乙酰2D2葡萄糖胺糖苷键的酶. 在自然界 中 ,几丁质酶在碳和氮的循环中扮演着重要的角色 ,它存在于多种物种体内 ,包括人 、细菌 、真菌 、病毒 、 线虫 、昆虫 、鱼等. 几丁质酶在工业上有重要的应用 ,主要是降解壳聚糖为低聚物 ,此外 ,几丁质酶还有杀
[ 1 ] [ 2 ] 虫活性和抗菌作用. 工业应用的几丁质酶的最适温度为 30,70 ?,p H 值为 4,8 . 近年来 ,有两种 方法可获得耐碱 、耐热的几丁质酶. 一种方法是通过从极端环境中筛选几丁质酶产生菌株 ; 另一种方法
[ 3 ] [ 4 ] 是对几丁质酶进行遗传改造. 随着理性定向进化和非理性定向进化技术的发展 ,又提出了一种半理
[ 526 ] 性的定向进化技术. 本文利用几丁质酶的序列信息及最适温度 ,利用主成分分析的支持向量机 ,建立
了氨基酸组成和最适温度之间的数学模型 .
1 材料与方法
) (几丁质酶蛋白质序列数据 ,均来源于 N CB I 美国国立生物技术信息中心上的蛋白质数据库 . 26 个 几丁质酶 ID 号分别为 P32823 ,B A C53628 , A A K69033 , A A F23368 , A A O22144 , A A C23715 ,J C7996 , B A A34922 , A A K69033 , A A A98644 , A A K26395 , Q9 F RV1 , A A C09387 , 2DB TC , Q05638 , B A C99074 , B A A88833 , BA A88834 , B A C76622 , BA A88835 , A A Y99632 A A M93195 , A AL 01886 , A AL 46648 ,
[ 7 ] [ 8 ] [ 9210 ] A A G12973 ,B A A36460 . Na ka shi ma, Klei n和 Cho u 等研究表明 , 蛋白质的折叠信息与氨基酸 组成有明显的关联性 1 鉴于几丁质酶的相对分子量差别很大 ,所以用几丁质酶的 20 种氨基酸组成和氨 基酸残基数作为输入数据 ,对应的最适温度为支持向量机的输出数据 ,则几丁质酶蛋白序列的特征向量
可表示为
v T( )X = [ x| x, x, , x, x] 11 i 1 2 20 21
v 上式中 , X 表示蛋白质序列的特征值 , x为蛋白质序列中氨基酸的特征向量 , x 为第 T 个蛋白质序列i i
) ( 第 i i = 1 , , 20种氨基酸出现的频率数 , x为蛋白质序列氨基酸的个数 , T 表示蛋白质序列的个数 , 21
特征向量中元素的顺序按照 20 种氨基酸的字母顺序排列. 所有几丁质酶的氨基酸组成分析由 Bioe dit
软件完成 , 主 成 分 分 析 由 SPSS10 . 0 完 成 , 支 持 向 量 机 是 由 Tho r st e n J oachi ms 用 C 语 言 编 写 的.
207206 2007收稿日期 : () 林 毅 19762,男 ,副教授 ,主要从事应用与环境微生物的研究 . E2mail :lyhxm @hqu. edu. cn. 国家自然科 作者简介 :() () 学基金资助项目 40601046; 福建省高等学校新世纪优秀人才计划支持项目 2006; 福建省 自然科学基 基金项目 :()金资助项目 B0510011
2 结果与分析
2 . 1 氨基酸组成的主成分分析
( ) 原始数据经主成分分析 PCA 后得到的特征值及累计方差贡献率 ,如表 1 所示. 表中 , P为主成 c
φφα分 , E为特征值 ,为贡献率 ,为累计贡献率. 分析表 1 中的数据 ,选择显著水平= 95 % ,只挑选前v VA cu
表 1 主成分特征值及累计方差贡献率
Ta b. 1 Princip al co mpo nent a nd t heir explaining va ria nce s
φφφφPE/ % / %PE/ % / %c v VA cu c v VA cu 1 5 . 21 24 . 79 24 . 79 12 0 . 30 1 . 42 97 . 31 2 4 . 19 19 . 97 44 . 76 13 0 . 18 0 . 83 98 . 14 3 2 . 84 13 . 51 58 . 27 14 0 . 14 0 . 67 98 . 81 4 2 . 19 10 . 45 68 . 71 15 0 . 08 0 . 38 99 . 19 5 1 . 50 7 . 14 75 . 85 16 0 . 06 0 . 27 99 . 46 6 1 . 07 5 . 12 80 . 96 17 0 . 05 0 . 25 99 . 72 7 0 . 92 4 . 40 85 . 36 18 0 . 03 0 . 16 99 . 87 8 0 . 80 3 . 80 89 . 16 19 0 . 02 0 . 10 99 . 98 9 0 . 60 2 . 86 92 . 01 20 0 . 01 0 . 02 100 . 00 10 0 . 434 2 . 07 94 . 08 21 0 . 00 0 . 00 100 . 00 11 0 . 38 1 . 80 95 . 88
(11 个主成分即可代表原始数据中蕴涵的绝大部分信息. 11 个主成分和原 21 个变量之间的关系 限于篇
) 幅 ,仅写出前 3 个主成分为
P = 0 . 200 A + 0 . 063 C + 0 . 116 D + 0 . 146 E - 0 . 212 F - 0 . 004 G + 0 . 267 H - c , 1
0 . 319 I - 0 . 271 K - 0 . 059 L - 0 . 225 M - 0 . 327 N + 0 . 311 P + 0 . 034 Q +
0 . 344 R - 0 . 265 S + 0 . 204 T + 0 . 194V + 0 . 150 W - 0 . 236 Y + 0 . 159 n
= - 0 . 326 A - 0 . 333 C + 0 . 386 D + 0 . 363 E - 0 . 0342 F - 0 . 289 G + 0 . 117 H + P c , 2
0 . 115 I + 0 . 302 K + 0 . 128 L - 0 . 012 M - 0 . 035 N + 0 . 053 P - 0 . 317 Q +
0 . 043 R - 0 . 143 S - 0 . 133 T + 0 . 101V + 0 . 044 W + 0 . 186 Y + 0 . 301 n
= - 0 . 014 A - 0 . 038 C + 0 . 162 D + 0 . 114 E - 0 . 363 F + 0 . 029 G - 0 . 351 H - Pc , 3
0 . 060 I - 0 . 030 K - 0 . 341 L + 0 . 045 M + 0 . 100 N - 0 . 269 P + 0 . 249 Q -
0 . 312 R - 0 . 008 S + 0 . 369 T + 0 . 350V + 0 . 019 W + 0 . 105 Y + 0 . 260 n. 上式中 , n 表示几丁质酶含有的氨基酸个数向量 .
各氨基酸与 11 个主成分之间的关系 , 如表 2 所示 1 为简单起见 , 表 2 中氨基酸正负相关系数保留 1
表 2 几丁质酶氨基酸与各主成分的关系
Tab. 2 Mea ning of p rinciple co mpo nent s i n chitina se
正相关氨基酸 负相关氨基酸 P0 . 2 A 0 . 3 H 0 . 3 P 0 . 3 R 0 . 2 T 0 . 2V 0 . 2 F 0 . 3 I 0 . 3 K 0 . 2 M 0 . 3 N 0 . 3 S 0 . 2 Y c , 1
Pc , 2 0 . 4 D 0 . 4 E 0 . 3 K 0 . 2 Y 0 . 3 A 0 . 3 C 0 . 3 G 0 . 3 Q P0 . 4 F 0 . 4 H 0 . 3 L 0 . 3 P 0 . 3 R 0 . 2 D 0 . 2 Q 0 . 4 T 0 . 4V c , 3
P0 . 3 C 0 . 3 E 0 . 2 G 0 . 2 K 0 . 2 N 0 . 5 W 0 . 2 Y c , 4 0 . 2 A 0 . 3 I 0 . 4 L 0 . 2 M 0 . 2V P0 . 2 A 0 . 3 F 0 . 3 N 0 . 2V c , 5 0 . 2 D 0 . 6 G 0 . 5 M
P0 . 2 I 0 . 3 M 0 . 2 T 0 . 4 Y c , 6 0 . 3 L 0 . 6 S 0 . 2 W
P0 . 4 C 0 . 4 F 0 . 2 I 0 . 4V c , 7 0 . 3 A 0 . 2 H 0 . 3 L 0 . 3 N 0 . 2 W 0 . 2 Y P0 . 3 I 0 . 3 N 0 . 3 P 0 . 5 Q 0 . 2 W 0 . 2 A 0 . 2 D 0 . 2 S 0 . 4 T 0 . 2 Y c , 8
P0 . 2 C 0 . 2 G 0 . 2 H 0 . 2 N 0 . 2 P 0 . 2 S 0 . 3 Y c , 9 0 . 3 A 0 . 2 M 0 . 2V 0 . 6 W Pc , 10 0 . 3 C 0 . 4 H 0 . 3 L 0 . 3 T 0 . 4 A 0 . 2 G 0 . 5 P
P0 . 2 A 0 . 2 C 0 . 4 Q 0 . 2 H 0 . 2 M 0 . 3 Q 0 . 2V 0 . 2 Y 0 . 2 G 0 . 4 I 0 . 6 T c , 11
( ) 位小数 ,且仅列出相关系数绝对值大于等于 0 . 2 的氨基酸. 与蛋白质结构数据库 M M PD中所报道的
为无规卷曲 、转角 、折叠 、转角 、转角 、螺旋和折叠 . 这与几丁质酶结构特征基本吻合 ,但略有差异 ,可能与
所选择的样本有关.
2 . 2 支持向量机模型结构的优化
[ 11213 ] 由于支持向量机的核函数及其参数的选取 ,对分类结果有一定的影响. 选取多项式和 Si gmoid二核函数 , 通过计算发现 ,运算不是速度慢就是发散 , 因而不对其进行详细研究. 对于径向基核函数 ,
εγ 有 3 个参数 ,分别为惩罚系数 C ,和,常规的参数选取方法是“一对多”策略 ,就是先确定一个值 ,令这 个
子值不变再确定另外一个值 ,最后找出一组最优的参数 ,不过这样的方法很笨拙 ,而且也体现不出各因 之间的交互影响 . 本文设计的 3 因素 15 水平均匀设计表来优化参数 ,如表 3 所示 . 表 3 中 , e, e, RMS MA P e分别为平均绝对百分比误差 ,均方极误差 ,平均绝对误差 , N 为运算次数.MA
表 3 均匀设计表
Tab. 3 U nifo r m de sign
εeee N C γ RMS MA P MA
5 . 00 1 10 . 00 0 . 50 0 . 05 1 . 80 4 . 35
2 0 . 10 0 . 80 1 . 00 0 . 06 2 . 58 5 . 93
3 0 . 005 0 . 40 0 . 09 0 . 11 4 . 74 9 . 23
4 1 . 00 0 . 10 0 . 50 0 . 07 3 . 00 6 . 89
0 . 10 5 50 000 . 00 0 . 20 0 . 11 4 . 53 9 . 05
6 0 . 01 0 . 01 0 . 90 0 . 06 2 . 66 6 . 08
7 100 . 00 0 . 000 01 0 . 30 0 . 07 3 . 22 7 . 46
8 10 000 . 00 0 . 05 0 . 01 0 . 20 8 . 61 11 . 75
9 50 . 00 0 . 15 0 . 001 0 . 23 9 . 94 12 . 34
0 . 005 10 0 . 50 0 . 60 0 . 22 9 . 26 11 . 94
11 0 . 05 0 . 000 1 0 . 03 0 . 17 6 . 97 10 . 91
12 5 . 00 0 . 005 0 . 07 0 . 13 5 . 26 9 . 67
13 500 . 00 1 . 00 0 . 05 0 . 14 5 . 99 10 . 23
14 5 000 . 00 0 . 70 0 . 10 0 . 11 4 . 53 9 . 05
15 1000 . 00 0 . 001 1 . 50 0 . 06 2 . 30 5 . 34
εγ计算结果显示 ,当 C 值为 10 ,为 0 . 5 ,值为 5 时 ,对温度
预测的平均绝对百分比误差为 5 % ,均方根误差为 1 . 8 ,平均绝
( ) 对误差为 4 . 35 ,具有比神经网络更好的拟合效果 图 1. 后续
( εγ) 训练及测试均采用上述参数 C = 10 ,= 0 . 5 ,= 5.
2 . 3 主成分分析 - 支持向量机模型预测
对支持向量机而言 ,由于训练样本集的大小有限 ,训练后
对训练集外输入的响应如何 ,直接决定了支持向量机的性能 . 对预测结果的评价基于两种较为客观和严格的检验方法 , 一 图 1 结构优化后支持向量机的拟合值 种是 J ack k nif e 检验 , 另一种为 k2fol d cro ss2vali datio n 检验 ,
Fig. 1 The fit ting temperat ure of suppo rt 在 J ac k k nif e 检验方法中 ,每一种蛋白质依次从数据库中取出 vecto r machine being op timized 作为测试蛋白 ,而剩余的蛋白质作为训练集 ; 在 k2fol d cro ss2
( ) vali datio n k2CV检验方法中 ,随机将数据库分为 k 个子集 , 依次取出一个子集作为测试集 , 而其余的 k - 1 个子集作为训练集 , 此过程循环 k 次 . 由于数据量较少 ,为了提高检验的灵敏度 ,采用 J ac k k nif e 检 验方法 ,每次从 26 组数据中取出 25 个序列作为训练数据 ,留出一个作检测 ,依次循环 ,共进行 26 次循
() ( ) ( ) 环测试. B P 神经网络 B PN N、支持向量机 SV M和主成分分析2支持向量机 PCA2SV M的测试结果 , 如表 4 所示 . n 为循环次数 . 由于篇幅所限 ,只列出 5 组较好的结果和 5 组较差的结果 . 从表 4 中可以看 出 ,主成分分析2支持向量机模型的拟合值总体上要好于预测值 ,训练和测试的平均绝对百分比误差分 别为 0 . 05 和 0 . 24 ,训练和测试的平均绝对误差为 1 . 83 和 9 . 94 . 没有经主成分分析优化过的支持向量 机模型 ,其训练和测试的平均绝对百分比误差分别为 0 . 06 和 0 . 26 ,训练和测试的平均绝对百分比误差
分别为 2 . 61 和 10 . 76 . 显然 ,主成分分析在支持向量机模型的数据优化中起了重要的作用 .
表 4 3 种模型的测试结果
Ta b. 4 Re sult s of t he cro ss2validatio ns of t hree mo del s
ee MA PMAn 方式 B PN N SV M PCA2SV M B PN N SV M PCA2SV M
训练值 0 . 06 0 . 06 0 . 05 2 . 66 2 . 59 1 . 82 1 测试值 0 . 01 0 . 07 0 . 05 0 . 59 3 . 39 2 . 72 训练值 0 . 08 0 . 06 0 . 05 3 . 68 2 . 46 1 . 68 测试值 2 0 . 51 0 . 58 0 . 60 15 . 44 17 . 51 18 . 06 训练值 测试值 0 . 07 0 . 05 0 . 05 3 . 02 1 . 89 1 . 79 7 0 . 54 0 . 31 0 . 31 34 . 78 20 . 10 20 . 04 训练值 测试值 0 . 08 0 . 07 0 . 05 3 . 23 2 . 67 1 . 91 9 训练值 0 . 46 0 . 34 0 . 04 16 . 06 11 . 74 1 . 25 测试值 0 . 06 0 . 05 0 . 03 2 . 45 2 . 73 1 . 53 10 训练值 2 . 17 1 . 35 1 . 40 43 . 43 27 . 02 27 . 91 测试值 0 . 07 0 . 06 0 . 05 2 . 75 2 . 68 1 . 96 训练值 20 0 . 08 0 . 23 0 . 22 4 . 66 13 . 97 13 . 35 测试值
训练值 0 . 08 0 . 06 0 . 05 3 . 14 2 . 65 1 . 90 21 测试值 0 . 01 0 . 16 0 . 15 0 . 42 8 . 72 8 . 05 训练值 0 . 06 0 . 06 0 . 05 2 . 39 2 . 53 1 . 82 测试值 22 0 . 47 0 . 18 0 . 20 18 . 99 7 . 23 7 . 82 训练值 0 . 07 0 . 06 0 . 05 2 . 92 2 . 55 1 . 84 测试值 25 0 . 47 0 . 36 0 . 37 16 . 33 12 . 52 13 . 05 训练值 0 . 06 0 . 06 0 . 05 2 . 42 2 . 68 1 . 96 测试值 26 0 . 15 0 . 23 0 . 22 8 . 91 13 . 97 13 . 35
0 . 07 0 . 06 0 . 05 3 . 00 2 . 61 1 . 83 平均值 0 . 36 0 . 26 0 . 24 14 . 60 10 . 76 9 . 94 2 . 4 3 种预测模型的比较
参考文 [ 14 ]的研究结果 ,选择 1 个隐含层的神经网
络 ,B P 神经网络的训练误差仍设为 0 . 01 ,其运算次数为
1 000 ,用均匀设计方法优化 B P 神经网络的 4 个参数 :
学习速率 、动态参数 、Si gmoi d 参数和隐含层结点数 . 当
4 个参数分别为 0 . 09 ,0 . 4 ,0 . 98 和 10 时 ,B P 神经网络
具有最佳的 拟合 结果 . 后 续训 练 及测 试 均 采 用 上 述 参
数 . 同样 ,用 J ac k k nif e 检验方法来检验 B P 神经网络的
测试结果 ,测试结果如表 4 所示. 其 26 个样本的训练和 测试的平均绝对百分比误差的平均值为 0 . 07 和 0 . 36 , 图 2 3 种模型的比较 而支持向量机训练和测试的平均绝对百分比误差的平 Fig. 2 The co mp ari so n bet ween mo del 均值为 0 . 06 和 0 . 26 ,都比主成分分析2支持向量机模型
的结果略差些 ,如图 2 所示 . 26 个测试样本预测结果的平均绝对误差为 14 . 6 ,高于支持向量机模型的
10 . 76 ,更高于主成分分析2支持向量机的预测结果 9 . 94 .
从图 2 可以看出 ,用 B P 神经网络预测几丁质酶最适温度 ,结果比较差 ,其预测结果不稳定 ;而支持 向量机模型的出的结果要好的多 ,其预测结果浮动较小 ,且大部分预测值接近于真实的实验值. 经过主
成分分析处优化输入数据后的支持向量机 ,其预测值明显比没用主成分分析优化数据的支持向量机模
型更接近实验值. 这大大提高了模型的运算速度和测试精度 .
3 结束语
本文利用主成分分析法对样本集进行预处理 ,利用均匀设计对其拓扑结构进行了优化 ,大大提高了 支持向量机的学习速率和性能 . 利用几丁质酶的晶体数据 ,结合多序列比对等手段 ,可寻找出有利和不 利于提高该酶最适温度的可能位点 ,然后有目的地利用仿真软件进行随机突变. 利用基于本文所得数学 模型的计算机软件进行虚拟筛选 ,可减轻筛选工作量 ,提高效率 . 尽管本文采用了均匀设计的方法对支
持向量机的检测效果还会有所改善 . 由于本文仅考虑了 20 种氨基酸的频率分布和氨基酸的个数 ,排除 了其他影响因素 ,这是一种最简单的情形 . 同时 ,样本中噪声的影响也不可忽视 ,对于进一步提高该模型 质量的相关研究仍需要逐步深入 ,所得结果仍需要实验进一步验证.
参考文献 :
[ 1 ] BU SSIV K A P , V A N EIJ K M . The Biolo gy of t he ga ucher cell : The cradle of huma n chitina se [ J ] . A Survey of
() Cell Biolo gy ,2006 ,23 2:712128 .
() 蒋红彬 ,蒋千里 . 几丁质酶的研究概况 [J ] . 山东科学 ,2000 ,13 3:41245 . [ 2 ]
C HA N G Mi ng2Chun , L A I Pe2L in , WU Mei2L i . Biochemical characterizatio n a nd site2directed mutatio nal a nalysi s [ 3 ]
of t he do uble chitin2binding do main f ro m chitina se 92 of A e rom on as h y d ro p hi l a J P101 [J ] . F EM S Micro biolo gy L et2
() ter s , 2004 ,232 5:1261 .
ALL EN S. Enzyme f unctio nalit y :De sign ,engineering , and screening [ M ] . New Yo r k : Marcel Dekker ,2004 :12712 . M [ 4 ]
() IL DV A N A S. Inver se t hinking a bo ut do uble muta nt s of enzyme s [J ] . Biochemi st r y ,2004 ,43 2:14517214520 . ROB [ 5 ]
ER T J H , J O R G B , MA R IE L A . Co mbining co mp ut atio nal a nd experimental screeni ng fo r rapid op timizatio n of p [ 6 ]
() ro tein p rop erties [J ] . Proc Natl Acad Sci , 2002 ,99 3: 15926215931 .
N A KA S H IMA H , N IS H I KA WA K , OO I T. The folding t yp e of a p ro tein i s releva nt to t he amino acid co mpo si2 [ 7 ]
() tio n [J ] . J Biochem , 1986 , 99 1: 1532162 .
() KL EIN P. Predictio n of p ro tein st r uct ural cla ss by di scriminate a nalysi s [J ] . Biochem Biop hys Acta , 1986 , 874 2: [ 8 ]
2052275 .
() C HO U K C , MA GGIO RA G M . Do mai n st r uct ure p redictio n[J ] . Pro t ein Eng , 1998 , 11 7: 5232538 . [ 9 ]
C HO U K C. A key driving fo rce in deter minatio n of p ro tein st r uct ural cla sse s [J ] . Biochem Biop hys Res Co mmun , [ 10 ]
() 1999 , 264 1: 2162224 .
V A PN I K V . Stati stical lea r ning t heo r y[ M ] . New Yo r k : Wiely , 1998 :12736 . [ 11 ]
() CO R T ES C , V A PN I K V . Suppo rt vecto r machine net wo r k s [J ] . Machi ne L ea r ning ,1995 ,20 4:2732297 . [ 12 ]
FA N G K T. The unifo r m design applicatio n of number t heo retic met ho ds in exp erimental design [ J ] . Acta Mat h [ 13 ]
() Appl Sin , 1980 , 66 3: 3632372 .
() 张光亚 ,方柏山 . 木聚糖酶氨基酸组成与其最适 p H 的神经网络模型 [J ] . 生物工程学报 ,2005 ,21 4:6582661 . [ 14 ]
A Un if orm Design Ba sed PCA2SVM Model f or Predict ing
Opt imum Temperature in Chit ina se
L IN Yi , CA I Fu2yi ng , YU A N Yu2xi , Z H A N G Gua ng2ya
( )College of Mat erial Science and Engi neeri ng , Huaqiao U niver sit y , Q ua nzho u 362021 , Chi na Abstract : The p ri ncip al co mpo nent a nalysi s wa s applied to t he data p roce ssing in t raining set s , t he new p rincipal co mpo2 nent s were t hen used a s inp ut dat a of suppo rt vecto r machine mo dle. A p redictio n mo del fo r op timum temp erat ure of chiti2
εγna se wa s esta bli shed ba sed o n unifo r m de sign. When t he regula rized co nst ant C , a nd were 10 , 0 . 5 a nd 5 , re sp ective2 ly , t he calculated temperat ure fit ted t he repo rted op timum temperat ure of chitina se ver y well and t he mean a bsol ute per2 cent
( ) er ro r MA P Eswa s 5 . 06 %. At t he sa me time , t he p redicted temperat ure fit t ed t he repo rted op timum temperat ure
( ) well a nd t he mea n a bsol ute er ro r MA Ewa s 1 . 83 ?. It wa s superio r in fit tings and p redictio ns co mpa red to t he mo delba sed o n back p rop agatio n neural net wo r k .
Key words : p rinciple co mpo nent a nalysi s ; suppo rt vecto r machine ; chitina se ; op ti mum temperat ure
()责任编辑 : 黄仲一 英文审校 : 陈国华
范文五:PCA-SVM模型在几丁质酶最适温度建模中的应用
PCA-SVM模型在几丁质酶最适温度建模中
的应用
第29卷第2期
2008年4月
华侨大学(自然科学版)
JournalofHuaqiaoUniversity(NaturalScience)
VoI.29No.2
Apr.2008
文章编号:1000—5013(2008)02—0236—05
PCA-SVM模型在几丁质酶最适温度
建模中的应用
林毅,蔡福营,袁宇熹,张光亚
(华侨大学材料科学与工程学院,福建泉州362021)
摘要:采用主成分分析法(PCA)对样本数据集进行预处理,将得到的新样本数据集输入支持向量机
(SVM),籍助均匀设计(UD),构建几丁质酶氨基酸组成和最适温度的数学模型.当径向基核函数的3个参
数,惩罚系数C为10,,为0.5,y为5时,模型对温度拟合的平均绝对百分比误差为5.06,预测的平均绝对
误差为1.83?,说明具有良好的预测效果且优于神经网络的预测结果. 关键词:几丁质酶,数学模型;主成分分析;支持向量机;最适温度
中图分类号:Q556.2;Q141文献标识码:A
几丁质酶(Chitinase,EC3.2.1.14)是能够催化水解N一乙酰一D一葡萄糖胺糖苷键的酶.在自然界
中,几丁质酶在碳和氮的循环中扮演着重要的角色,它存在于多种物种体内,包括人,细菌,真菌,病毒,
线虫,昆虫,鱼等.几丁质酶在工业上有重要的应用,主要是降解壳聚糖为低聚物,此
外,几丁质酶还有杀
虫活性和抗菌作用….工业应用的几丁质酶的最适温度为30~70?,pH值为4,8[2].近年来,有两种
方法可获得耐碱,耐热的几丁质酶.一种方法是通过从极端环境中筛选几丁质酶产生菌株;另一种方法
是对几丁质酶进行遗传改造.随着理性定向进化[3]和非理性定向进化技术]的发展,又提出了一种半理
性的定向进化[5剞技术.本文利用几丁质酶的序列信息及最适温度,利用主成分分析的支持向量机,建立
了氨基酸组成和最适温度之间的数学模型.
1材料与方法
几丁质酶蛋白质序列数据,均来源于NCBI(美国国立生物技术信息中心)上的蛋白质数据库.26个
几丁质酶ID号分别为
P32823,BAC53628,AAK69033,AAF23368,AAO22144,AAC23715,JC7996,
BAA34922,AAK69033,AAA98644,AAK26395,Q9FRV1,AACO9387,2DBTC,Qo56
38,BAC99074,
BAA88833,BAA88834,BAC76622,BAA88835,AAY99632AAM93195,AAL01886,A
AL46648,
AAG12973,BAA36460.Nakashima[,KleinE和Chou等研究表明,蛋白质的折叠信息与氨基酸
组成有明显的关联性.鉴于几丁质酶的相对分子量差别很大,所以用几丁质酶的2O种氨基酸组成和氨
基酸残基数作为输入数据,对应的最适温度为支持向量机的输出数据,则几丁质酶蛋白序列的特征向量
可表示为
X一[Iz1,zz,…,z2o,z21]丁.(1)
上式中,X表示蛋白质序列的特征值,为蛋白质序列中氨基酸的特征向量,z为第T个蛋白质序列
第i(一1,…,20)种氨基酸出现的频率数,z为蛋白质序列氨基酸的个数,T表示蛋白质序列的个数,
特征向量中元素的顺序按照2O种氨基酸的字母顺序排列.所有几丁质酶的氨基酸组成分析由Bioedit
软件完成,主成分分析由SPSS10.0完成,支持向量机是由ThorstenJoachims用C语言编写的.
收稿日期:2007—07—06
作者简介:林毅(1976一),男,副教授,主要从事应用与环境微生物的研究.E-mail:lyhxm@hqu.edu.cn.
基金项目:国家自然科学基金资助项目(40601046);福建省高等学校新世纪优秀人才计划支持项目(2006),福建省
自然科学基金资助项目(B0510011)
第2期林毅,等:PCA—SVM模型在几丁质酶最适温度建模中的应用237 2结果与分析
2.1氨基酸组成的主成分分析
原始数据经主成分分析(PCA)后得到的特征值及累计方差贡献率,如表1所示.表中,P为主成
分,E为特征值,为贡献率,为累计贡献率.分析表1中的数据,选择显着水平a一95%,只挑选前
表1主成分特征值及累计方差贡献率
Tab.1Principalcomponentandtheirexplainingvariances
PcE9v^f%'p/%P9v^//
15.2124.7924.79120.3O1.4297.31 24.1919.9744.76130.180.8398.14 32.8413.5158.27140.140.6798.81 42.1910.4568.71150.080.3899.19 51.507.1475.85160.060.2799.46 61.075.1280.96170.050.2599.72 70.924.4085.36180.030.1699.87
80.8O3.8O89.16190.020.1099.98
90.6O2.8692.01200.010.02100.O0
100.4342.0794.08210.O00.O0100.O0
110.381.8O95.88
11个主成分即可代表原始数据中蕴涵的绝大部分信息.11个主成分和原21个变量之间的关系(限于篇
幅,仅写出前3个主成分)为
Pc.1—0.2OOA+o.063C+0.116D+0.146E一0.212F一0.004G+0.267H一
0.319I一0.271K一0.059L一0.225M一0.327N+0.311P+0.034Q+ 0.344R一0.265S+0.204T+0.194V+0.150W一0.236Y+0.159n
Pc_2一一0.326A一0.333C+0.386D十0.363E一0.0342F一0.289G+0.117H+ 0.115J+0.302K+0.128L一0.012M一0.035N+0.053P一0.317Q十
0.043R一0.143S一0.133T+0.101V+0.044W+0.186y+0.301n Pm一一0.014A一0.038C+0.162D十0.114E一0.363F+0.029G一0.351H一
0.060I一0.030K一0.341L+0.045M+0.100N一0.269P+0.249Q一
0.312R一0.008S+0.369T+0.350V+0.019W+0.105Y+0.260n. 上式中,i'1表示几丁质酶含有的氨基酸个数向量.
各氨基酸与11个主成分之间的关系,如表2所示.为简单起见,表2中氨基酸正负相关系数保留1
表2几丁质酶氨基酸与各主成分的关系
Tab.2Meaningofprinciplecomponentsinchitinase 正相关氨基酸负相关氨基酸
O.2AO.3HO.3PO.3RO.2TO.2VO.2FO.3jO.3KO.2MO.3NO.3SO.2y
O.4DO.4EO.3KO.2yO.3A0.3CO.3G0.3Q
O.2D0.2Q0.4T0.4V0.4FO.4H0.3L0.3PO.3R O.3CO.3E0.2G0.2K0.2N0.5W0.2Y0.2AO.3jO.4LO.2M0.2V O.2DO.6GO.5MO.2AO.3FO.3NO.2V
O.3LO.6SO.2WO.2jO.3MO.2TO.4y
O.4CO.4FO.2j0.4V0.3A0.2H0.3L0.3N0.2W0.2Y O.3f0.3N0.3P0.5Q0.2W0.2A0.2DO.2SO.4TO.2y
0.2C0.2G0.2H0.2N0.2P0.2S0.3Y0.3A0.2M0.2V0.6W
O.3CO.4H0.3L0.3T0.4A0.2G0.5P 0.2A0.2C0.4Q0.2H0.2M0.3Q0.2VO.2y0.2G0.410.6丁
位小数,且仅列出相关系数绝对值大于等于0.2的氨基酸.与蛋白质结构数据库(MMPD)中所报道的
几丁质酶蛋白质三级进行了比较,发现主成分分析的前7个主成分所代表的几丁质酶的二级结构,分别
I234S6789?
238华侨大学(自然科学版)
为无规卷曲,转角,折叠,转角,转角,螺旋和折叠.这与几丁质酶结构特征基本吻合,但略有差异,可能与
所选择的样本有关.
2.2支持向量机模型结构的优化
由于支持向量机的核函数及其参数的选取,对分类结果有一定的影响11-13].选取多项式和Sigmoid
二核函数,通过计算发现,运算不是速度慢就是发散,因而不对其进行详细研究.对于径向基核函数,
有3个参数,分别为惩罚系数C,e和y,常规的参数选取方法是"一对多"策略,就是先确定一个值,令这
个值不变再确定另外一个值,最后找出一组最优的参数,不过这样的方法很笨拙,而且也体现不出各因
子之间的交互影响.本文设计的3因素15水平均匀设计表来优化参数,如表3所示.表3中,eM,e,
e分别为平均绝对百分比误差,均方极误差,平均绝对误差,N为运算次数. 表3均匀设计表
Tab.3Uniformdesign
NCeRMS
0.05
0.O6
0.11
0.07
0.11
0.06
0.07
0.20
0.23
0.22
0.17
0.13
0.14
0.11
0.06
1O.OO 0.10
O.OO5 1.OO
50000.00 0.01
1OO.OO l0000.OO 5O.OO O.5O
0.05
5.OO
5OO.OO 5000.OO 1000.00 计算结果显示,当C值为10,,为0.5,),值为5时,对温度
预测的平均绝对百分比误差为5,均方根误差为1.8,平均绝
对误差为4.35,具有比神经网络更好的拟合效果(图1).后续
训练及测试均采用上述参数(C一10,,:0.5,y一5).
2.3主成分分析一支持向量机模型预测
对支持向量机而言,由于训练样本集的大小有限,训练后
对训练集外输入的响应如何,直接决定了支持向量机的性能.
对预测结果的评价基于两种较为客观和严格的检验方法,一
种是Jackknife检验,另一种为志一foldcross—validation检验, 在Jackknife检验方法中,每一种蛋白质依次从数据库中取出
作为测试蛋白,而剩余的蛋白质作为训练集;在志一foldcross一 图1结构优化后支持向量机的拟合值
Fig.1Thefittingtemperatureofsupport vectormachinebeingoptimized validation(忌一CV)检验方法中,随机将数据库分为k个子集,依次取出一个子集作为测试集,而其余的
k一1个子集作为训练集,此过程循环k次.由于数据量较少,为了提高检验的灵敏度,采用Jackknife检
验方法,每次从26组数据中取出25个序列作为训练数据,留出一个作检测,依次循环,共进行26次循
环测试.BP神经网络(BPNN),支持向量机(SVM)和主成分分析一支持向量机(PCA—SVM)的测试结果,
如表4所示.为循环次数.由于篇幅所限,只列出5组较好的结果和5组较差的结果.从表4中可以看
出,主成分分析一支持向量机模型的拟合值总体上要好于预测值,训练和测试的平均绝对百分比误差分
别为0.05和0.24,训练和测试的平均绝对误差为1.83和9.94.没有经主成分分析优化过的支持向量
机模型,其训练和测试的平均绝对百分比误差分别为0.06和0.26,训练和测试的平均绝对百分比误差
分别为2.61和10.76.显然,主成分分析在支持向量机模型的数据优化中起了重要
的作用.
%叭盯
一LL
跚鼹?鹃%?鹃?
一L钆&
,
一??????叭???? 一5lOOOOOOOOOOOOl
—OO5l一?舳?加叭??????一L
l23456789uM
第2期林毅,等:PCA—SVM模型在几丁质酶最适温度建模中的应用239
1
9
9
1O
2O
21
22
25
26
平均值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
训练值
测试值
O.O6 0.01 O.O8 0.51 0.07 0.54 O.O8 0.46 0.06 2.17 O.O7 0.O8 0.O8 O.O1
0.06 0.47 0.07 0.47 O.O6 0.15 O.O7 O.36 O.O6 0.07 O.O6 0.58 0.05 0.31 O.O7 0.34 O.O5 1.35 0.06 O.23 0.06 0.16 O.O6 0.18 0.06 0.36 O.O6 0.23 0.06 O.26
O.O5 0.05 0.O5 0.60 0.05 0.31 0.05 0.04 O.O3 1.4O O.O5 0.22 0.05 O.15 0.05 0.2O 0.05 0.37 O.O5 0.22 0.05 O.24 2.66 0.59 3.68 15.44 3.O2 34.78 3.23 16.06
2.45 43.43 2.75 4.66 3.14 0.42 2.39 18.99 2.92 16.33 2.42 8.91 3.00 14.6O 2.59 3.39 2.46 17.51 1.89 20.1O 2.67 11.74 2.73 27.O2 2.68 13.97 2.65 8.72 2.53 7.23
2.55 12.52 2.68 13.97 2.61 1O.76 1.82 2.72 1.68 18.06 1.79 20.O4 1.91 1.25 1.53 27.91 1.96 13.35 1.9O 8.05 1.82 7.82 1.84 13.05 1.96 13.35 1.83 9.94 2.43种预测模型的比较
参考文[14]的研究结果,选择1个隐含层的神经网
络,BP神经网络的训练误差仍设为0.01,其运算次数为
1000,用均匀设计方法优化BP神经网络的4个参数:
学习速率,动态参数,Sigmoid参数和隐含层结点数.当
4个参数分别为0.09,0.4,0.98和1O时,BP神经网络
具有最佳的拟合结果.后续训练及测试均采用上述参
数.同样,用Jackknife检验方法来检验BP神经网络的
测试结果,测试结果如表4所示.其26个样本的训练和
测试的平均绝对百分比误差的平均值为0.07和0.36,
而支持向量机训练和测试的平均绝对百分比误差的平
均值为0.06和0.26,都比主成分分析一支持向量机模型
图23种模型的比较
Fig.2Thecomparisonbetweenmodel 的结果略差些,如图2所示.26个测试样本预测结果的平均绝对误差为14.6,高于支持向量机模型的
1O.76,更高于主成分分析一支持向量机的预测结果9.94. 从图2可以看出,用BP神经网络预测几丁质酶最适温度,结果比较差,其预测结果不稳定;而支持
向量机模型的出的结果要好的多,其预测结果浮动较小,且大部分预测值接近于真实的实验值.经过主
成分分析处优化输入数据后的支持向量机,其预测值明显比没用主成分分析优化数据的支持向量机模
型更接近实验值.这大大提高了模型的运算速度和测试精度.
3结束语
本文利用主成分分析法对样本集进行预处理,利用均匀设计对其拓扑结构进行了优化,大大提高了
支持向量机的学习速率和性能.利用几丁质酶的晶体数据,结合多序列比对等手段,可寻找出有利和不
利于提高该酶最适温度的可能位点,然后有目的地利用仿真软件进行随机突变.利
用基于本文所得数学
模型的计算机软件进行虚拟筛选,可减轻筛选工作量,提高效率.尽管本文采用了均匀设计的方法对支
持向量机的结构进行了优化,但在各因素水平的选择上仍带有一定的随意性,如果经过精心的选择,支
240华侨大学(自然科学版)2008钲
持向量机的检测效果还会有所改善.由于本文仅考虑了20种氨基酸的频率分布和氨基酸的个数,排除
了其他影响因素,这是一种最简单的情形.同时,样本中噪声的影响也不可忽视,对于进一步提高该模型
质量的相关研究仍需要逐步深入,所得结果仍需要实验进一步验证. 参考文献:
[1]BUSSIVKAP,VANEUKM.TheBiologyofthegauchercell:Thecradleofhumanchitinas
e[J].ASurveyof
CellBiology,2006,23(2):71—128.
[2]
[3]
[4]
[5]
[63
[73
[8]
[93
[103
[
[
[
1]
2]
3]
[143
蒋红彬,蒋千里.几丁质酶的研究概况[J].山东科学,2000,13(3):41—45.
CHANGMing—Chun,LAIPe—Lin,WUMei—Li.Biochemicalcharacterizationandsite
—directedmutationalanalysis
ofthedoublechitin-bindingdomainfromchitinase92ofAeromonashydrophilaJP101[J].FEMSMicrobiologyLet
ters,2004,232(5):1-61.
ALLENS.Enzymefunctionality:Design,engineering,andscreening[M].NewYork:MarcelDekker,2004:1_712.
MILDVANAS.Inversethinkingaboutdoublemutantsofenzymes[J].Biochemistry,2004,43(2):14517-14520.
ROBERTJH,JORGB,MARIELA.Combiningcomputationalandexperimentalscreeningforrapidoptimization
ofproteinpropertiesEJ].ProcNatlAcadSci,2002,99(3):15926—15931.
NAKASHIMAH,NISHIKAWAK.00IT.Thefoldingtypeofaproteinisrelevanttotheaminoacidcomposi
tion[J].JBiochem,1986,99(1):153—162.
KLEINP.Predictionofproteinstructuralclassbydiscriminateanalysis[J].BiochemBiophysActa,1986,874(2):
205—275.
CHOUKC,MAGGIORAGM.Domainstructureprediction[J].ProteinEng,1998,11(7):523—538.
CHOUKC.AkeydrivingforceindeterminationofproteinstructuralclassesEJ].BiochemBiophysResCommun,
1999,264(1):216-224.
VAPNIKV.StatisticallearningtheoryEM].NewYork:Wiely,1998:1-736. CORTESC,VAPNIKV.Supportvectormachinenetworks[J].MachineLearning,1995,20(4):273—297.
FANGKT.Theuniformdesignapplicationofnumbertheoreticmethodsinexperimentaldesi
gn[J].ActaMath
ApplSin,1980,66(3):363—372.
张光亚,方柏山.木聚糖酶氨基酸组成与其最适pH的神经网络模型[J].生物工
程,2005,21(4):658—661.
AUniformDesignBasedPCA—SVMModelforPredicting
OptimumTemperatureinChitinase
LINYi,CAIFu—ying,YUANYu—xi,ZHANGGuang—ya
(CollegeofMaterialScienceandEngineering,HuaqiaoUniversity,Quanzhou362021,China)
Abstract:Theprincipalcomponentanalysiswasappliedtothedataprocessingintrainingsets,thenewprincipalcompo—
nentswerethenusedasinputdataofsupportvectormachinemodle.Apredictionmodelforoptimumtemperatureofchiti—
nasewasestablishedbasedonuniformdesign.WhentheregularizedConstantC,,andywere10,0.5and5,respective—
ly,thecalculatedtemperaturefittedthereportedoptimumtemperatUreofehitinaseverywellandthemeanabsoluteper
centerror(MAPEs)was5.06.Atthesametime,thepredictedtemperaturefittedthereportedoptimumtemperature
we11andthemeanabsoluteerror(MAE)wasi.83?.Itwassuperiorinfittingsandpredictions
comparedtothemodel
basedonbackpropagationneuralnetwork.
Keywords:principlecomponentanalysis;supportvectormachine;chitinase;optimumtemperature
(责任编辑:黄仲一英文审校:陈国华)
转载请注明出处范文大全网 » 【word】酶的最适温度