科技期刊中生物信息学常见名词用法错误辨析

投稿
更新时间2018-06-18
阅读量286次
评分0
赞0
踩0

　　摘要：为准确编辑生物信息学稿件，对目前科技期刊生物信息学稿件中最常见的一些既有关联又有区别的名词用法错误进行了辨析。结果表明：生物信息学稿件中常见的基因、蛋白质、核苷酸序列、氨基酸序列、同源性、亲缘关系等名词的使用及其表述经常有误甚至有歧义；同时对基因和蛋白质的符号表达错误进行了辨析，虽然有90%的科技期刊中基因符号已用斜体字母表达，但其中还是有很多基因符号尤其以基因命名的引物名称以及重组质粒中的基因符号未能用斜体字母表达。该研究结果可为科技期刊编辑掌握生物信息学稿件中最基本的一些名词的使用及其表述提供参考。

　　关键词：科技期刊，生物信息学，基因，蛋白质

　　引言

　　生物信息學是近年来发展起来的一门新兴学科，科技期刊中有关生物信息学方面的文章越来越多，但科技期刊的很多编辑对生物信息学方面的知识了解有限，在尚无规范和标准可参考的情况下，只能原稿来什么样就发什么样，经常会出现一些关联名词描述方面的错误，因此，对生物信息学中一些关联名词用法进行研究具有重要的意义。目前，在生物信息学编辑方面仅见蒋元霖[1]、刘华[2]、张翠英[3]、张冰[4]等关于科技期刊中基因及蛋白质符号的规范表达，宋亚珍等[5]关于同源性、一致性、相似性概念辨析等研究，有关生物信息学中更多名词的用法及其准确表述的研究尚未见报道。而科技期刊中有关基因的克隆与表达以及蛋白质的提取、分离、纯化和功能等方面研究的文章越来越多，笔者根据对此类文章的编辑实践以及对部分科技期刊此类文章的阅读，发现一些既有关联又有区别的名词，如基因与蛋白质，核苷酸序列与氨基酸序列，同源性与亲缘关系等的使用及其表述不少有误甚至存在歧义，为此，本研究对这些高使用频率关联名词的用法错误进行了分析，旨在为同人提供参考。

　　一基因和蛋白质名词用法错误辨析

　　基因和蛋白质是最常见的两个名词，虽然是两个不同的概念，但又紧密关联。基因是一段有遗传效应的脱氧核糖核苷酸序列（DNA），基因的基本结构单位是脱氧核苷酸；DNA要通过RNA的转录（mRNA）和翻译（tRNA）才能产生蛋白质，即基因编码蛋白质，蛋白质的基本结构单位是氨基酸[6-8]。生物信息学稿件中常见的错误有：

　　1.基因与蛋白质混淆

　　例1.本研究通过PCR技术对RcTIR1基因进行了克隆，生物信息学分析显示其含有富含亮氨酸重复序列的结构域，并通过多序列比对显示该基因与小立碗藓的生长素受体蛋白TIR1相似度达76%，初步认为该基因为生长素受体蛋白TIR1。

　　例1中，存在多个错误：（1）“其含有富含亮氨酸”中的“其”指基因，而基因是不含有氨基酸的，应将“其”改为蛋白质；（2）“多序列比对显示该基因”中的“该基因”是不能与蛋白质直接比较的，应将“该基因”改为蛋白质；（3）“相似度76%”指的是氨基酸序列之间的同源性比对，数值结果应描述为一致性，应将“相似度76%”改为“一致性76%”；（4）“初步认为该基因为生长素受体蛋白TIR1”有逻辑错误，即“基因”是“蛋白质”。因此，本例应改为：“本研究通过PCR技术对RcTIR1基因进行了克隆，生物信息学分析显示该基因编码的蛋白质含有富含亮氨酸重复序列的结构域，并通过多序列比对显示该基因编码的蛋白质与小立碗藓的生长素受体蛋白TIR1一致性达76%，初步认为该基因编码的蛋白质为生长素受体蛋白TIR1。”

　　2.标题或图题中基因、蛋白质的描述与研究内容不一致

　　例2.Fesod的生物信息学分析；Fesod生物信息学分析

　　例3.Actin系统进化树分析；Actin系统进化树分析

　　例2、例3均为常见的二级标题或图题，其中每个例子的第一句都是表述基因层面的内容，第二句都是表述蛋白质层面的内容，表面看上去都没有错误，但在文中标题或图题中基因、蛋白质的表述与研究内容经常不一致。如生物信息学分析中，如果是通过软件对克隆的基因片段推导的蛋白质的分子量、等电点、信号肽、跨膜区、二级结构等进行预测，标题或图题应表述为蛋白质的生物信息学分析；如果是对克隆的基因序列及其结构等进行的分析，标题或图题应表述为基因的生物信息学分析。再如系统进化分析中，如果是基于基因序列（核苷酸序列）构建的系统进化树，标题或图题应表述为基因系统进化分析；如果是基于蛋白质序列（氨基酸序列）构建的系统进化树，标题或图题应表述为蛋白质系统进化分析。

　　二基因符号与蛋白质符号用法错误辨析

　　笔者随机对2015和2016年30多种科技期刊中基因符号的斜体表达情况进行调查，结果还是有10%左右的期刊未用斜体字母表示基因符号，即使用斜体字母表示基因符号的期刊，存在的问题也很多，如对一些基因与蛋白质未能准确区分，导致基因符号和蛋白质符号表达存在诸多问题。生物信息学稿件中常见的错误有：

　　1.引物名称、重组质粒中的基因符号等未用斜体

　　例4.设计了IGFBP2基因的1对简并引物IGFBP2F和IGFBP2R

　　例5.刺参凝集素基因AJL与原核表达载体pET32a（+）的重组质粒pET32a（+）AJL

　　例4中，引物名称是以基因命名的，基因“IGFBP2”应为斜体，即改为“简并引物IGFBP2F和IGFBP2R”；例5中，重组质粒是指将酶切的基因片段和表达载体通过酶连接并转化至大肠杆菌细胞（或其他细胞）中得到的重组体，因此，本例中基因“AJL”应为斜体，即改为“重组质粒pET32a（+）AJL”。

　　2.蛋白质符号未用正体或未大写

　　例6.用邻接法构建的基于nm23氨基酸序列的系统进化树

　　例6中，“nm23”表示的是蛋白质，而字母全为小写，说明蛋白质符号用法错误，可以找作者确定此蛋白质的准确符号，是首字母大写还是所有字母全大写，也可以将“nm23氨基酸序列”直接改为“nm23基因推导的氨基酸序列”。

　　目前，基因和蛋白质的命名及符号在不同物种间没有统一的规则[9]，根据《TIG遗传命名指南》[10]有关细菌、原生动物、酵母、丝状真菌、植物、无脊椎动物、脊椎动物中一些典型生物模式的命名规则与书写原则，生物基因符号的组成归纳起来一般有以下几种：全小写斜体字母，全大写斜体字母，斜体的小写字母+大写字母（有首字母大写，有最后一个字母大写），斜体字母+数字等。但蛋白质符号的定义基本相同，一般用相同的基因符号命名蛋白质，不用斜体，但要大写（或首字母大写）。这表明，基因与蛋白质符号的正斜体表达目前已有统一规定，只要作者使用的生物基因和蛋白质符号命名准确，再加以正斜体，即可用字母符号准确表达基因和蛋白质，即使“基因”和“蛋白质”两词省略，也能分清描述的是基因还是蛋白质。

　　三核苷酸序列与氨基酸序列用法错误辨析

　　生物信息学稿件中，经常出现因核苷酸序列与氨基酸序列混淆而发生的表述错误。基因序列就是指核苷酸序列，或称基因核苷酸序列；而蛋白质序列就是指氨基酸序列，或称蛋白质氨基酸序列。核苷酸序列和氨基酸序列最简单的区分方法就是，核苷酸序列中仅含A、T、C、G4个字母，而氨基酸序列中还有其他字母。作为编辑，有时虽然不知道稿件作者具体是基于什么序列进行的分析，但可从一篇文章中对此类问题的前后描述以及图表来准确区分和表述这两种序列。生物信息学稿件中常见的错误有：

　　1.基因序列与氨基酸序列混淆

　　例7.茶尺蠖EoL2与其他昆虫脂肪酶氨基酸序列进化树分析

　　例8.PmMMP17与其他物种的进化分析（标题）；PmMMP17蛋白质聚类分析（图题）

　　例7中，“EoL2”是指脂肪酶基因，显然基因序列（核苷酸序列）是不能与“其他昆虫脂肪酶氨基酸序列”一起构建系统进化树的，因此，应将“茶尺蠖EoL2”改为“茶尺蠖EoL2氨基酸序列”；例8中前后两句是同一篇文章的一个二级标题和一个图题，描述的是同一个内容，显然前一句描述的是基于基因序列的物种进化分析，而后一句描述的是基于蛋白质序列的物种进化分析，前后不一致，实际上，根据原文内容后一句描述是正确的，因此，可将例8中前一句改为“PmMMP17氨基酸序列与其他物种的进化分析”。

　　2.蛋白质与核苷酸序列、基因与氨基酸序列错误搭配

　　例9.剑尾鱼Cu/ZnSOD核苷酸及氨基酸序列相似性与其他已知鱼类的比对

　　例10.猪、人、牛、绵羊和小鼠PDGFRα基因氨基酸多重序列比对结果

　　例9中，据原文正体符号Cu/ZnSOD代表蛋白质，蛋白质不能直接搭配核苷酸序列，應将蛋白质改为基因，即改为“剑尾鱼Cu/ZnSOD核苷酸序列及其推导的氨基酸序列”；例10中，基因不能直接搭配氨基酸序列，应将基因改为蛋白质，即改为“PDGFRα蛋白质氨基酸多重序列”。

　　四同源性与系统进化分析结果描述错误辨析

　　同源性分析与系统进化分析都是用于判断同源基因或同源蛋白质而进行的不同层面的分析，同源性分析进行的是基因序列或蛋白质序列的比对，其结果一般用一致性、相似度、同源序列等描述；而系统进化树的构建是基于同源基因序列或是同源蛋白质序列，其结果一般用是否聚在一个分支和亲缘关系远近等描述。生物信息学稿件中常见的错误有：

　　1.同源性分析结果用物种的亲缘关系远近描述

　　例11.EoL2编码的蛋白与其它昆虫脂肪酶蛋白序列比较分析的结果表明，EoL2序列与家蚕BmL1序列相似度最高，为57%，亲缘关系较近，其次为黑脉金斑蝶Danausplexippus（Linnaeus）DpL1为55%，与棉铃虫HaL、家蚕BmL、黑脉金斑蝶DpL2序列一致性均为44%……

　　例11中，有多个错误描述：（1）本例中描述的是同源性分析结果，不能用“亲缘关系较近”来描述，应将“亲缘关系较近”删除；（2）“BmL1序列相似度最高，为57%”中显然指相似度为57%，一般情况下，根据序列比对软件得出的结果中只有“Identity”（一致性）值，没有“Similarity”（相似度）值，因此，序列比对分析中，数值的多少要用一致性描述，序列的相似程度即相似度要用高低来描述，本例中应将“57%”改为“序列一致性为57%”，“为55%”改为“序列一致性为55%”。

　　2.系统进化分析结果用同源性描述

　　例12.将ScMT2-1-4推导的氨基酸序列进行了Blastp同源搜索，选取不同植物的MT2蛋白序列与ScMT2-1-4构建系统进化树，结果表明，ScMT2-1-4基因编码蛋白与已报道的甘蔗ScMT2-1-3基因（登录号：KJ504375）和甘蔗ScMT2-1-2基因（登录号：AAV50043）编码蛋白同源性最高，其次是高粱MT2（登录号：XP0024551970）和玉米MT2-1（登录号：NP001150795）。

　　例12中，描述的是系统进化分析结果，不能用同源性高低描述，应将“同源性最高”改为“亲缘关系最近”。

　　五结语

　　科技期刊来稿中，有很多作者对基因、蛋白质、核苷酸、氨基酸、序列等名词及其组合的表述比较混乱，甚至会出现歧义，编辑应根据文中的实际情况，将这些名词准确加以区分，正确表述。

　　作者：郝拉娣等