第四组科研菜鸟——核酸序列知多少（下）

续：

⑥点击OK：

⑦右上角所示为设计的引物，并给出了评分。选择合适的引物点击，即可在左上角显示相应参数：

⑧如图选择，复制引物：

⑨粘贴即可获得所需引物序列。

如：

5' TGAACGGCTCGCCCACCTA 3'

5' TGGCCTCGGACTTGACCACC 3'

5、如何进行新基因搜寻?

从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次

第一步:获取DNA目标序列

如果你已有目标序列，可直接进入第2步;

可通过PubMed查找你感兴趣的资料;

通过GenBank或EMBL等数据库查找目标序列，在gene的界面中找到related information的一栏

点进去后是关于p53这个基因在PubMed中所有的文献

第二步:查找ORF并将目标序列翻译成蛋白质序列

利用相应工具，如ORF Finder ( NCBI ) 、 Genefeature (Bay1or Co11ege of Medicine)、 GenLang(University of Pennsy1vania)等，查找ORF并将DNA序列翻译成蛋白质序列

点击submit之后，就会展示出所有ORF，默认会在蓝色框里面展示最长的ORF，可以点击箭头所示的地方，来用图像化的方式展示所有可能的ORF。

同时下图左侧会显示最长的这个ORF对应的氨基酸序列。右边的表格会给出具体的ORF信息，例如正负链信息，Frame信息。我们知道一个密码子由三个碱基构成，编码一个氨基酸，所以正链和负链都会有三种编码方式，每次往后挪动一个碱基，也就是这里说的Frame。对应下表中的+链1,2，3和-链1,2，3，一共六种Frame。start和stop很容易理解，就是ORF对应在fasta序列上的起始和终止位置。最后一列是ORF对应的碱基数和氨基酸数。

下载序列。在左边将感兴趣的ORF进行mark，然后右侧下拉框选择项要下载的fasta序列类型（CDs，protein），点击Download marked set进行下载。

第三步:在数据库中进行序列搜索

可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索

第四步:进行目标序列与搜索得到的相似序列的整体列线(global al ignment)

虽然第三步已进行局部列线(1ocal alignment)分析，但整体列线有助于进一步加深目标序列的认识

第五步:查找基因家族

进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在BioEdit和BOXSHADE (ISREC，Swi tzer land,http://www.ch.embnet.org/software/BOX_form.html)等服务器上进行

第六步:查找目标序列中的特定模序

分别在Procite、BLOCK、Motif数据库进行prof ile、模块(b1ock)、模序(motif)检索;

对蛋白质序列进行统计分析和结构域等预测(SMART)

第七步:预测目标序列结构

可以利用PredictProtein (EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构

第八步:获取相关蛋白质的功能信息

为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索

第九步:把目标序列输入“提醒”服务器

如果有与目标序列相似的新序列数据输入数据库，提醒(alert)服务会向你发出通知。可选用Swiss-Shop(expasy，http: //www.expasy.org/swiss-shop/)服务器

6.简介核酸三维结构数据库NDB及研究意义？

（简称NDB）由新泽西州立罗格斯大学（Rutgers，The State University of New Jersey）开发，是一个专门收集和提供核酸三维结构信息的数据库。它包括了通过各种实验手段，如X射线晶体学，核磁共振（NMR）和冷冻电子显微镜（EM）等确定的DNA和RNA分子的结构。是著名的核酸晶体三维结构数据库。

NDB主要收录经实验测定的核酸及复杂结构信息。用户可依据DNA、RNA及相关特性进行检索，并提供相关学科常用工具及软件的下载。

网址界面

核酸三维结构数据库（NDB）是一个专门收集和提供核酸三维结构信息的数据库。它包括了通过各种实验手段，如X射线晶体学、核磁共振（NMR）和冷冻电子显微镜（EM）等确定的DNA和RNA分子的结构。NDB的目标是为科研人员提供一个全面的、易于访问的资源，以便研究者能够更好地理解和利用这些结构信息。

NDB的研究意义主要体现在以下几个方面：

(1)药物设计：了解核酸的结构对于开发针对特定核酸靶点的药物至关重要。NDB中的信息可以帮助药物设计者识别潜在的药物结合位点，从而设计出更有效的药物分子。

(2)生物技术应用：NDB中的数据可以用于指导合成生物学和基因编辑技术的发展。例如，通过理解RNA的结构，可以设计出更有效的RNA干扰分子或RNA疫苗。

(3)跨学科研究：NDB中的数据可以与其他生物学数据库（如蛋白质数据库PDB）结合使用，促进跨学科研究，如结构生物学、生物信息学和分子生物学等领域的整合。

7.讨论的问题

(1) 什么情况下测序峰图会出现稳定套峰？为什么？

①PCR的产物不纯：

我们可以发现该图再197bp前测序峰表现为明显套峰，且在197bp位置有一个较高的A峰，这也说明了此PCR产物中有一个片段大小为200bp左右的小片段。
可以通过对PCR产物切胶纯化，再次进行测序。

②poly结构的测序：

在PolyT/A之后往往出现套峰现象。
我们可以使用反向引物对模板进行测序，测到该poly结构处，即可完成模板全长的拼接。

(2)基因中重复序列的意义？

①重复序列可以转录生成siRNA，与一些其他的物质结合形成复合物，导致相应的组蛋白去乙酰化，使得染色质异质化，相关基因沉默。

②重复序列可以特异性结合一些蛋白质，形成核酸的二级、三级结构。

③一些基因呈高度重复排列，如核糖体rRNA基因，这样重复的排列方式可以快速、大量表达出蛋白产物，还可以用重复序列来进行同源性比对。

(3)序列格式转化

各种软件为了自己的需要，通常对序列格式有一定的要求，给我们的使用带来了一定的困难。格式转换软件可以将不同格式数据转换以方便使用。很多综合性软件可以进行序列格式转换，如:Bioedit, DNAstar, seqverter等。

常见序列格式

①FASTA格式:又称Pearson格式。是比较简单而使用最多的序列格式。序列以">"号开头，其后是单行的关于序列的描述信息，最后是序列。例如:> 10KD_ VIGUN P18646 vigna unguiculata 10da protein precursorMEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS

②plaintext格式是一个形式最简单的格式，没有任何的注释，每行60个字母，使用标准核甘酸符号或标准的氨基酸的单字母符号。例如:MEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTYRGPCFTTGSCDDHCKNKEHLLS

③GCG格式是商业性的GCG软件包的专用格式，例如:ggagactttc ctgtcactgg ctactactac tcccaaccct cctcaaagcc gccggagcaa61 ccccaggtc tttactttac aatcggcaat ttgacttgct ctgctgcatg tctggaggga121 ccaaggaaag tgtggagacg ctccaaggat taggtgatcg gagcttgaaa agaaaaaaag

④Genbank格式例如:LOCUSAB094638 1146 bpDNA13- APR- 2006BASE COUNT17 C48 0 othersORIGINgttttaatgt gttgccttgg ttgagtggtg aagctggtta gggtagcgtg taaaacatgg61 tgggtagatt aatgctttgt gtcaccatgc cgtttggttc gat taatgta atcataagga21 gagaccataa gttatgaata cgcaga

第四组 科研菜鸟——核酸序列知多少（下）

第四组科研菜鸟——核酸序列知多少（下）