NCBI的数据库资源及其应用

更新时间:2023-08-30 22:00:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第月

生命科学

从〕

文章编号

!

的数据库资源及其应用王

,

黄高升,

第四军医大学病理学教研室

西安

摘拥有

要、

是美国的一个大型生物信息学系统、

,

它主要通过

网站为全世界的科学家服务,

,

等等多种大型生物学数据库并且提供了多种数据库、

查询工具

,

等等、

,

以及多种数据库分析,

资源

,

对于我们查询文献

人类基因组信息,

基因表达

蛋白质结构。

肿瘤遗传信息

以及不同种属遗

传信息等等有非常大的帮助关键词中图分类号生物信息学一

是一个非常重要的生物医学资源

数据库

文献标识码

、叭、、,,

,

,

,

,

,

,

!,

!

%&% ! # ro wr a n

& ( )%

+,

+ (.B L A

S T, E

/l

.& e e t r

0o

, P

u b M

e d

, L

o

e u

s

L

i

n

k

a

xi d.

t

l

z e

T

a

x

o

l

飞 xn y o: n

B) o

ser

. Do o

a ta

a n a ly s is r e s o u r e e sa l

l i n e l一d e

n

i

e

,

P

C

R

r O F f

i

z l

d

e

r

,

e

t

e

I t

1

5

a e v

r

y

i

l

t

t

b

i

l

g

i

e

l

℃s o u r e e s f o

r u s

to K

d e y

o

r e s e a r e li w

.

o r d s: N ) o n C B I; 1 i i f o

r xn a t i e s; ( a t a b a s e l

目前,

,

有一些大型生物学数据库包含了众多的,

和蛋白序列数据基因组作图蛋白质结构数据及生

生物学资源询

我们可以方便地从国际互联网上查,

不仅方便了思想和资料的交流,

减少了许多重

也提供了一种新的工作方式和思维 o方式其中最常用的是美国的 N a tional C en ter f r B io teeh no lo gy In f rm a tion (N C B I) o,。 . N C B I ( h t t p:// w w w n e b i . n l m . n i h . g o v )

复性的工作

物医学文献并且与分类数据库链接可查 G e B a k蛋白数据库要多包括:询的蛋白数据较 n n G en B an k蛋白质翻译信息e z l E r t l

,

,

e

T

h

P

r o

t e

i

n

n

r

I

o f

m

a

t i o

:1

R

e s o

u

r e

e (

P

I R

l ) (

, t tp

://、

w w w

.一n r f g e o r g e t o w b

n

.

是美国。

M H于 19 8 8年建立的分子生物学信息系统除了维护 G e B a k数据库外它还提供基于 G e n n n‘ B an k和多种生物学数据库的检索和分析服务 l],。

一P R O T中的蛋白质信息蛋白数 . . oe e . . ttp://w w w m ip s b i h m m pg d e )据库 (h二c F un d a tion以及 P ro tein D a ta B an k (P D B; i l o: w w w . b . g p db res or es e h ttp////)和 R f q的信息 e d u/ p ir/

)S W I S S、 P r o t e i n e s e R。

现将该系统的七个部分做个简要介绍 a a s e e r ea 05数据库检索系统 (D t b a R t i v l肠 1 )1

可查询上千万篇的文献和文摘以及网上可得到的近 50种期刊全文可通过布P u b M d e。 E z t n e r

,

尔公式的形式查询各种数据库收稿日期作者简介:2: 00 0一 10一0 6;

,

并与相关信息有超: 200 1一 0,

1. 1

ne n m n h gv rez E ntrez(http: w w w . bi. l . i . o/E n t/)//,

修回日期,,

1一3 1。

是一个整合的数据库检索系统

它可以查询 D N A

哲 (19 7一 )男 0

博士

讲师

生命科学

第 1卷 4

:级链接如一个序列可以与发表这个序列的文献,

编码此序列的蛋白相关的序列等链接. 1 2 T h e

相应的 D N A序列

,

以及一些

: p osition S p ecif c Iti还有几种特殊的 B L A ST era te d B L A s T P s l一B L A S T可以增加 ( )氨基酸序列

压b X o n ollly B ro w ser (h ttp:/a T/ X o n o m y/ t x a o n o m y h o m

nl ma T x

加. e

n w w . ebi.h t m l/ )

与蛋白质数据库比较的敏感性e t a d B L A S T ( P H L B L A S T )

。 P t a t e r

n i H

t I n i i t

是与 P SI B L A ST紧密,

n i h

o g v

是查询种属数据库的工具 ( a txo n o d y m t a b a s a e

o

t b s ) o n m y da a a e,。

结合的比较程序。

,

它可查询某蛋白序列中的一段氨

包含了 5 0 0种生物、

基酸序列与一些同源蛋白序列是否有高度同源就是说可查找潜在的基序。 B L A S T Z e s u q n e e c

也s

每种生它可以

可。

物的数据库至少包含一个核酸或蛋白序列显示每一分支中包含的核酸目. 1 3 L o e u s L i n k ( h t t p:/。

蛋白及蛋白结构的数

加w w,

. in neb . l m

n i h

o g v

u L/ c o L s n i k/ ) 1 z[

它提供一个简单的界面来查询人

类基因或遗传位点的准确信息别名序列号表型n u . i g e n e、、、 E C n u m b

包括基因的术语e r、 M I M n u m b e r

标准 B L A S T可以通 ne . n n ov i s过 E一 a l的形式提交 (bla t@ bi lm ih g ): c另外还有两种新的基于 B L A S T的程序 e V Sc e n可查找序列中是否包含有载体序列 r提供与 G e B a k中的免疫球蛋白基因的 n n比较两个序列之间的同源性,, 1 9 B L A s T

同源比较列近 9% 0

。 2 0 0 0

年 6月 26日,

, C

e l

e r

a

公司公布了

簇e h

作图信息等J t E

人类基因组全部序列的草稿, N C I B。

覆盖了人类基因组序

n‘ n eb i. lm . ih . ov/B L A S T/)[] n g

它是基于文本形 ai查询服务器 (qu ery@ ne b i.n lm .n ih .go ) E l式的一 v S有多种输出格式如文本和 F T格式等 A A T he B L A S T f l iy of a n l序列相似性比较程序 ( . l y Sequenee一im i arit sea c p ro群 a m s h ttp: w w w r h1 4 T Q

盯 Em,

ai s r r l e ve

马上推出了查询全基因组序列

,

的 B L A S T程序3

2

)(

//

esou rees f r g en。 o基因水平的序列分析资源 (R ev l seq u en ees le ) . . . . 3 1 U n iG e n e (h tp:// w w w neb i n lm n ih g o t v E S T (ex p ressed se q u en ee t鳍 U n iG ene/)/, E S T )

利用 B L A S T系列软件可以对 G e B a k进行序 n n列相似性寻找的工作。

c称表达序列标签是从 D N A克隆中随机挑选出来,

.标准 B L A ST 2 0可用序列或, -

进行一次性测序的结果,,

,

由于 cD N A文库的复杂性,

序列号进行比较用 B L A ST比较时可以使用不同:的基准 (m atrix) P M或 B L O S U M A适合弱蛋白相似性比较而 B L O SU M一 4 5B L O S U M 6 2 r m t a i x,

和测序的随机性有时多个 E S T代表同一基因或基 r因组将其归类形成 E S T簇 (E S T d uste )每一个

E S T簇代表一个特定基因EST簇,。

, U i n G n e

e

收集了大量的、

m

t a

i r x

适合于较长而且相似性弱的比较。

这些同样,。

也适用于核酸的比较一E,

一另外还有几个高级参数 ( G

一q

,

一r

,

一T

,

一 w

,

一 ) v

用于特殊的相似性比较中

并与表达的组织类型染色体作图表达 i n e的蛋白等链接目前人类 U n G e数据库中构建了 3 8 0 0个 E S T簇代表了大部分人类基因,。 E S T

可以对核酸和蛋白的多种数据库操:有几种比较方法可选择B L A s

’簇的 3非编码区的序列还可以转换成序列标签位 sequenee一 a ed si es t的序列帮助基因点 (既, S T S )

程序 b la tP s b l tn s a b l tx韶

用途

组作图

。 U i n G n e

e

可用基因名称

染色体,

。D

N A

一个氨基酸序列与一个蛋白数据库比较。。

文库.

序列号和普通文本等格式来查询。 .

还可通过. . n l m n i h . g o v

F T P下载3 2 e R s f o e u s L n

一个核酸序列与一个核酸数据库比

e

q

d

e t a b a . e s a t ( h

t p

://

w

w

w

n

e b

i

L/

i

r e k/ s f

q

2址m l[] ),

它只收录有全编码区

一个核酸的所有读框与一个蛋白数

或功能已有一定研究的基因、、

包含了经过整理后延、 m R N A

据库比较tb la t n s tb la tx s

,

可以用来发现未知

核酸。

’ 1长的基因 5和 3非翻译区序列

和蛋白特s f q e

可能的蛋白产物核酸数据库比较

一个蛋白序列与翻译成所有读框的。

征相关文章描述基因特征的摘要与 O M IM、 P u e、 b M d e G n B a n、 k。 R e s f q e

。 e R n U

记录e

i G

o n

都有

一个核酸的六种读框与一个核酸数据库的六种读框比较,

但由于计算。

链接可通过基因或蛋白名称序列号以及序列同源来查询和 L oeu sL in k都支持 es sq用文本来查询 R ef e也可用 R f e的 q, n E t r e z, B L A S T

,

太复杂在网页中不能应用

序号来作同源比较

,

但应在序号前加前缀

“ e r f

”。

第 1期. 3 3

,

:

N C B工的数据库资源及其应用

3:单核昔酸多态性数据库 (db S N p )[] (h ttp,‘ C, l: 11 b i是最常见的//w w w .: l i i o v S i l g S N p s N P/ )

的一半. 4 4

可以通过遗传标志名称 i n e号和 U n G e号来查询作图。 T h e D v a i s H u m a n

基因名称o o lo g y

序列a p s

遗传学变化系,

,

可以反映遗传表型与序列变化的关、

一 .

M

o u se

H

m

M

因此

,

它有助于大规模的遗传相关研究、、。

功能

(

l,t t p:

.// w w w

n e b i n l m

.

.

n ih

g o v

/

H o: n o lo g y

/ )

此站,,

和药学基因组

群体遗传学和进化生物学定点克隆和物理作图等研究日前 d b N P记录的变异通 S过 B L A ST和 E一P链接,

C R与 N C B I其他的数据库资源 en B a i k l并可以在 G、 P u b e、 M d L o e u s L i n k。

点列出了人和小鼠同源 D N A片段的遗传位点共入入与 11 J收录了 1 793个位点并与 G en e入Ia p ae k son L ab oratory的 tlie M ou se G e;, o l n e D a t a b a e J s。

‘ 9 9

O

有链接. 4 5

或基因组序列数据库的相关记录中查询组计划的发展,

随着基因

T

h

e C

a

n

e

e

r C

l

l r

o m

o

s

o

:n

e A

b

e

r

r

a

t

i

o

l l

P

r

o j

e

e

t

最终 db SN P要使 S N P每一记录都 t与基因组的核酸序列记录或物理图重叠群 (o n ig ) en B an k链接使相关的 G, k;i e: i己录 le或 U iG都有 S N P标注我们可以 b通过 (l S N P网页中的 B L A S T查询相关的 S N P记录在 L o eu sL in k位点中查询通过 E;ltrez查询还可以直接在 d bS N P的网页中用 SN P记录号发,、、 d b S T S n e e、 s f q L o e u s L i:。

. ( C C A p ) ( 1 t 1 t p:// w w w n e b i

. n l n

,

.

, l il l

.

g o v

/ C

C

A p

/ )

C

C

A P

e a o: ia a,, c是由 N C B I和 N

C I(th N ti l C

e r

它包括了瑞典 L,,: i d大学的 C an eer C h ro m oso m e A b erra tion B an k收集的数 I据也包括了 C C A P利用一些 B A C克隆通过 F S HI n s t it, l t e)

共同发起的

,

,

,

,

杂交得出人肿瘤染色体的作图数据

肿瘤染色体畸

变的资料可以用染色体区带制词查询5。

器官及肿瘤类型等限,,‘ e

表的文章题目研究的人群查询. 3 4 O R F F i n d e r ( l i t t p://。

,

以及相关的 ST S等来‘

esou rccs f r g e,‘o o基因组规模的分析资源 (Ra: l a ly s i s r; t r o z ) Gr:

w

w

w

,,e

. b i

n

. lm

n ih

.

g o v

s e a le . 5 1

./ g o r/ f g o l,

f‘

t l f

n

) l

是 N C B I提供的一个开放读框寻。 . . n e b i n l m . n i h .

E

e:, o。: e s

(

}, t t

)二:// w wG

、 v

. . . .,:; e b i:, l: n:, 11 1 9 0、

找程序. 3 5

它提供六个氨基酸框架的查询e t r o n i e P C R ( h t t p:// w w w

E/

:

l

t

r

e

z/ G

e

n

o

, e/ )

E,; t:℃2

e: i o r n (:s

数据库包括。

E

l

e

了正在测序或已完成的 6 0列。

多个物种的基因组序

电子 P C R是用两段引物序列与 S T S数据库比较以寻找一段核昔酸序列中有无 ST S序g

。/ST S/)

1其中包括了 2种已完成的微生物基因组每种,,,

,

基因组序列都有图示

列4

,

它可以帮助我们确认基因及基因作图 (501;rees f: (l r o; n::, o染色体序列资源 (R)

o s o,;,a l

可以点击观看从每条染色体到重叠群的详细资料列出了 O R F的详细资料并与不同物种的同源蛋白链接对 R N A基因则标。

S e‘ t‘ n e e s一e

4 g o v

1

. ) .、 . tt ):人类基因组资源主页 (11 l/加 w w nel 1:x:, 1 no n m e g u l/ d e/ )

出了:丑 N A或 tR N A的名称及位点il l

此数据库还有

另一种功能

,

就是将所有已完成测序的微生物基因、

e/ g

人类基因组资源主页提供了,

组编码的蛋白与原生质

细菌与真核生物中的每一,

此主页下所有内容的链接作图,

包括了/类基因测序,

种基因组比较

,

从而得到其中同源的蛋白。、

数据库、

遗传变异和基因表达的核心研究资源。

还包

中同源蛋白序列之间都有链接

在这个数据库中还细胞遗传图物理

括了疾病与基因的内容提供了 6多种遗传性疾病 0

可以看到每个染色体的遗传图图和序列图。

的概要

4

2

, t人类基因

组测序 (1。 pe n l o n e e s/ q/ )

://

w w w

.:,

e b i

.

:, I n;

.

,, i h

.

g o、

. 5 2 C l u s t o r s o f r O t h o l o g o:

, 5

G

r o u p s

(C

O G

s ) e o G S

g/

此站点包括了人类基因组测序的,,

(

l lt t p

://

w w w

.

n e b i,, l m

.

.

n il,

.

g o v

/ C O、

4 G/ )[]

进展

可以查询每个已知重叠群的序列提供基因组范围的 B L A ST比较并且可以下载重叠群或染色体的序列. 4 3 e G n e。

,

1建立在已完成测序的 2物基因组的基础上,

种细菌,

原生质和真核生

6可以见到 200 0年 6月 2。

日完成的人. n l m n i h . g o v

在将每一个蛋白相互之间进行 G a P d B L A S T比较后按照来自同一基因组的蛋 p e

类基因组序列草稿人 ap l‘ 9 9 e n e a

白相互之间比其他物种的蛋白更相似的原则( h t t p:// . w w w . n e b i。

,

将比

目的是采用研究得很清楚的遗传标志及与其相关联的 E S T位点对人类基因组作图/ g m p )/, e G, n e M a p

较结果按照一定的方法和标准并参考进化树的数据 S来构建成许多 C O G这个数据库目的主要是要建立一个已完成测序基因组编码蛋白的进化树分类它包含了 2 112个 C O G S把它们分成 17个功能类,,

‘ 9

9

q指定了人类 30 26 1个 un i u e g ene的。 8、00 0

位点

0代表了人基因组中的 6 0

个基因

我们应用此数据库可以预测单个或一组蛋白的

生命科学

第 14卷。

功能尤其是可以用于新近完成的基因组还可以通 s过基因或蛋白名称查询每种生物的每一个 C O G以及可以查询各 C O G s的进化图谱,。 . 5 3 e R . n x m n ih . g v o/ r e t r v o i r u s e s/ ) t r o v i r a l g e n o t y p in g t o o l s ( h t t p:// w w w . n e b i .

,

,

检测的一种方法,

利用 SA G E的方法,

, N C B I

建,

它是反转录病毒基因,

i n e此数据库主要依靠 U n G e i n e来建立可以用 SA G E标签来查询 U n G e簇 i n e也可以用 U n G e簇来查询 S A G E文库中代表这 i一 U n G即e簇的 SA G E标签出现几率也就是表立了 S A G E数据库,

型分析工具

,

此工具的目的在于揭示反转录病毒,

达量. 6 3

遗传多样性的特点、 H T S T

追溯其流行病学,

相当于用、 I S V、。

n O

li

n

e M

e n d

e

l i

n n a

e r h

I

i t n a

e e

i

n M

a

n ( O M

I

M

)

多序列对齐来分型的过程V L V L

包括了 H IV

. n e b i n l m

. n i h g/ o v o m i m/ ) O I M M

(

h

t t p

://

w

w

w

数、

等几种病毒的专用分析工具它 ation al In sti ute of A llergy ne e ous D ist与N n a d I f ti ease http: w w w . iaid . i n nh (// . r e s e a r e s g

据库提供人类基因和遗传疾病的有关数据地说是疾病表型和基因的信息、、、

,

更广泛遗、

,

包括基因名称、

e H V I S

职I V

. . enee D a a as (ht: hi t b e tp// v w b l lgov/) - e n a//

v o

h

d

i a

d

h

t

m

)

传谱系作图位点基因多态性基因功能基因治0疗及分子遗传学等多种资料目前共收录了 1 8 2 0 z t e条记录与 E n r中的有关记录有链接 e o eeu r o e in蛋白质结构模拟资源 (T h m l la m d l g . d a a ase)(h tp://w w w n eb i tb t。,。 7 n n i h g v o m l r S/ t e t r e D/ M M B/ )[ 5] u u

a S

n b

i

H

A

r f

i

e a ( h

t t p

://

2

1

.a e .z a s an v a f ie a r既犷 b i/hi/)

R T a n d P ro t e a e G e n e D a a a e (h t t p: o f rd H I t b s s V .s a n。 1iv d b t r d .e d u h iv o f// )这些相关数据库链接//1 S ta n

es r e f r u o c s o a a n l eno y sis of p a tern s o f g eile ex p ressio n a d ph l typ es) t n . 6 1 T h e C a eer G eno m e A n a tom y P ro jeet n . . . C G A P ) (h ttp://w w w n eb i n lm n ih g v/n eie ga/) ( o p C G A P提供了正常癌前病变及恶性肿瘤细胞的遗传学数据它是由几个互补的数据库组成 (H u m an T m or G ene I d ex n u6

基因表达及表型分析资源 (R

,

ro e n a an数据库的数据来自 p t i D taB k . .: resb org t (P D B )(h tp//w w w )包括了实验得出的 0 1 0 0多种大分子的三维结构大部分数据来源于D B M M

,

,

,

X线衍射和核磁共振光谱实验、、、。

数据库可以用蛋白,

,

e

e u

M

l o

l a r

F

i

n

g

e r

P

r

i

n

t

i

n

,

g

e e r C n a n n o C

h

r

o m

o

s o m

e A b

e r

r t a

i

o

n

P

r j o

e e

, t G

e n

e

t

i

e

ouse or G e n e In d ex及M ) u T m可以通过基因名称克隆编号组织类型样品准 i n e D备方法肿瘤发展阶段及 U n G e簇工来查询 eD N A roi er文库的资料另外还提供 xP f lA t t a i o n I n i t i a t i v e,、、、、。

名称作者名种属发表日期等多种方式查询还可以用布尔公式查询查询结果可用软件 C 3 n D来 e e ono观察其三维结构与 M dlin拟哪。、 M M D B T

和 E n r z等多种数据库链接三维结构的相似性可 t e以用 M M D B提供的 V A S T程序来比较三维结构。

,

,

C

G

A

P

的相似性通常反映了进化上的同源关系

程序x o/ r P/ f

c C来比较一个 D N A在不同 D N A文库中的 ret l s表达

情况价 n ia D i pl叮 (D D D )工具: e v no h ( ttp//w w w n b i罗/C G A p/i f/d dd)

: t (h tp/加w w, D i t

n e b i

n l m

n i h

. g v o/ p/ h I

C

G

A

T

G

渗r 11【 W h eele D L, A e记 5 R es 2 0, C; h a p p 0 0, K;, S; a, 2 0 0 0 2 i 2 a t 8 z

考e y: ( 1 ) S: ) t k i: ) i;, K J G n M 2 8 ( 1 3 n 1 2 6 1 0,

文e, L

胡s, h A E

i g

l a

D

i

.

n

n

e

l

m

i

h

g

i

)

21【 M a glott D RA e云 s R es d, 2 03[

.一 14S i e o t t

a

。亡 a

l

K 1 (

e

, H

e

t

a l

可以比较不同

。D。

N

A

文库中在统计学上有表达显

0 0

2

8 r o

著差异的基因. 6 2 S A G E m

S g i」 m i ielsk E MA e乞 s d, R es 2 0, G 0 0

一12 8,

cee而 l乞 cec肠 l云cec瓜 l‘瓜

K 5 2

矶厄 r d M

,

e

亡a l

.e: n bi即 (http//w w we r i l a A n a l y s i s o f G e S

8 ( e r

1

n l m

n i hg

o

v

/

4」 s o v R L〔 T tu a

一355, N a t

el‘ een a

l p

Y: )

a

l

e

, D A

e

t

a

l

Ag Y

e

公 s d, A; 2

R esd d: 8

3

3,

n

e E

s

A

G

E/ )

X

r p

e

s

s i

o

n

一36e

e s s

5

S (

A

G

E )

是一种对某一组 m R N A中基因表达定量

!

1

W

R c。,

2

0 0 0

2 4

3

.一 24 5

e e t

L

去al

Ce e如 l云

A

c

记s

本文来源:https://www.bwwdw.com/article/0gti.html

Top