KEGG数据库
# KEGG数据库
一个生物学过程的实现会涉及到许多蛋白质,这些蛋白质合在一起就是一个通路。通路分析能够帮助我们更好地了解某个或某一些蛋白质在一个生物学过程中所扮演的角色。
最常用的通路分析数据库是京都基因与基因组百科全书 (Kyoto Encyclopedia of Genes and Genomes, KEGG)。1995年,KEGG数据库项目由京都大学化学研究所教授Minoru Kanehisa领头启动。
目前发展为一个综合性数据库,含有18个数据库,分为三大类(系统信息、基因组信息、化学信息)。其中最核心的为 KEGG PATHWAY 和 KEGG ORTHOLOGY 数据库。
在 KEGG ORTHOLOGY 数据库中,将行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。
而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种子 pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。
KEGG数据库是手工绘制的KEGG途径图的集合,每个途径图包含分子相互作用和反应的网络,将基因组中的基因与通路中的基因产物(主要是蛋白质)连接。KEGG pathway analysis即为将目的基因定位到KEGG途径图中的过程。
KEGG和GO的作用是类似的,只是KEGG里面最知名的是代谢通路(pathway)的注释,它是查询差异基因参与的信号通路比较权威的数据库,KEGG Pathway对差异基因进行通路分析,可以了解实验条件下显著改变的代谢通路,在机制研究中非常重要。GO分析好比是将基因分门别类放入一个个功能类群的篮子,而pathway则是将基因一个个具体放到代谢网络中的指定位置。
下图为small cell lung cancer的KEGG途径图。
# KEGG的简单探索
# KEGG通路的查看
输入www.kegg.jp进入KEGG的官网,如下所示:
首页 | 搜索目标信号通路 |
---|---|
![]() | ![]() |
单击中间的KEGG PATHWAY
就可以进入到pathway界面,里面有7个KEGG PATHWAY,分别为:
- 新陈代谢(Metabolism)
- 遗传信息处理(Genetic Information Processing)
- 环境信息处理(Environmental Information Processing)
- 细胞过程(Cellular Processes)
- 生物系统(Organismal Systems)
- 人类疾病(Human Diseases)
- 药物开发(Drug Development)
再看一下KEGG的其它的信息,看一下有多少个通路,单击Current Stastics
,如下所示:
可以看到,现在貌似有542个通路。
现在回到pathway界面,看一下KEGG通路的几个大类。
- 先看第一个大类,
1.Metabolism
(这是一级分类) - 它的下面还有几个小类(如
1.1 Carbohydrate
,这是二级分类),如下图的红色方框所示 - 在每个小类下面,例如
1.1 Carbohydrate
下面,还有很多小类(例如00010 Glycolysis/Gluconeogenesis
,这是三级分类),如下所示:
现在单击一下00010
这个小类,也就是KEGG的三级分类
再在代谢通路上单击某个成分(例如酶,化合物)就能看到它们的详细信息,这就是第四层,我们就可以看到这个页面,从这个页面中我们可以知道,这个是糖酵解/糖异生参考通路(Glycolysis / Gluconeogenesis - Reference pathway
),如下所示:
在文字的介绍下面,是这个通路的参考示意图(Reference map)
在这张通路图中,每个方框都可以单击,查看每个节点的详细信息。
上面的这个通路只是其中一种,它的名称是
map00010
通路名称的命名是由2部分构成的
- 第1部分是2-4个字母
- 第2部分是5个数字
第1部分的字母前缀表示不同类型的pathway,它们的含义如下所示:
map-参考pathway ko-参考pathway(KO) ec-参考pathway(EC) rn-参考pathway(Reaction) org-物种特异pathway map
1
2
3
4
5我们上面呈现这个参考通路(reference pathway)的编号就是
map00010
- 参考通路是用人工绘制而成的
- 参考通路是没有颜色的,都是黑色的方框,白色的底。
# KEEGG代谢通路图解读
前面说到参考通路是没有颜色的,都是黑色的方框,白色的底,如果是ko00010
,那么它的图形就是下面的这个样子:
可以看到,这个KO通路是有颜色的,它是在参考通路的基础上,利用计算机生成的,这个紫色的通路表示的是一种不区分物种的,所有通路,它除了颜色与参考通路有所不同外,其余的都相同。
我们再看一张通路图,看一张人类的,这张图命名为has00010
,其中,has
表示人类,它也是在参考通路的基础上,利用计算机生成的,如下所示:
在这张图中,我们可以发现这张通路与前面的ko00010
通路不一样,ko00010
通路中所有的矩形都涂成了紫色,而has00010
通路则是有一部分涂了绿色,有一部分没有涂绿色,其中涂了绿色的方框表示是人类这个物种特有的。
现在单击一下3.1.9.1
这个方框,如下所示:
就能看到这个节点的详细信息,我们可以发现3.1.3.9
是全称是EC:3.1.3.9
,它表示一种酶,所含信息如下所示(这就是代谢通路图的第四层内容):
在这张表格中,第一行的Entry
中,有一个数字,即2538
,这个是此酶的EntrezID编号,还有一个数字T01001
,它是T number表示,KEGG数据库使用这个编码来表示基因组中的这个基因。
现在单击一个圆点,如下所示:
然后就会显示出另外一个网页,这表明,这个圆点是一个化合物,编号为C05345
,其中前面的C
表示化合物,即Compound,它的信息如下所示:
再单击一个某个圆角矩形,例如就单击Pentose phosphate pathway
,单击后,就发现我们切换一到了另外的一条通路上去如下所示:
这个通路的名称是map00030
,因此,我们就知道了,KEGG通路中,圆角矩阵表示是的其它通路,圆点表示的是化合物,常规矩形表示的是酶(也就是某个基因)。
map00010
这个通路上有些符号没有,现在换一个通路,看一下map04115
这个通路,它是p53信号通路,如下所示:
这个信号通路中有一些前面没有的符号,现在介绍一下:
符号解释 |
---|
![]() |
![]() |
类型 | 示例 |
---|---|
黑色箭头表示激活 | |
T型头表示抑制 | |
+p 表示磷酸化 | |
-p 表示去磷酸化 | |
+u 表示泛素化 | |
+g 表示糖基化 | |
+m 表示甲基化 | |
虚线箭头表示间接作用 | |
两个矩阵在一块儿表示复合体 | |
箭头加圆点,加箭头表示转录激活 |
KEGG中代码 | |
---|---|
K+num | 基因ID号,表示在所有同源物种中具有相似结构或功能的一类同源蛋白,如K04456=>丝氨酸/苏氨酸蛋白激酶(备注:K建议大写)。 |
ko + num | 代谢通路名称,表示一个特定的生物路径,如:k04151=>PIK-Akt信号通路,备注:ko小写。 |
M+num | 模块名称,M00676=>PI3K-Akt信号模块。 |
C+num | 代合物名,如C00533表示NO。 |
E-.-.-.- | 酶名,例如EC2.7.1.11.1=>丝氨酶/苏氨酸激酶,即K04456,AKT。 |
R+num | 反应名 |
RC+num | 反应类型,RP + RP+num,反应物质对。 |
# KEGG的用途
人类的七千多个基因组都是有已知功能的,KEGG把这七千多个基因分成了300个类,就是我们通常说的kegg通路;比如,我现在做了个实验,发现某细胞系里面的两万个基因里面有300个基因变化了,那这300个基因会涉及到KEGG数据库的哪几个通路?这时候就需要用到我的工具啦!将这300个基因加入工具里面,得出结果:有30个Cell cycle通路。
# KEGG分析的原理
例如,Cell Cycle KEGG 通路 hsa04110只有124个基因;而加了实验刺激后,细胞有300个基因发生统计学显著变化的情况下,如果有30个基因属于Cell Cycle通路,有高达10%的概率,那到底这个Cell Cycle通路是不是被显著改变了呢?
- 首先,把这300个基因都用KEGG数据库的500多个通路注释
- 然后一个个通路循环做超几何分布检验,给出p值;
- 例如细胞在正常的情况下,只有124个基因属于Cell Cycle 通路,那么细胞在常规情况下与所有基因的比值就是124/7000,也就是2%,
- 而我的实验结果显示,在300个有显著性差异的基因中,有30个属于Cell Cycle,比例是30/300,也就是10%,通过超几何分布计算,发现,p值远远小于0.001,也就是差异有显著性
- 因此我可以下结论,所以我的这个处理显著的改变了细胞系的Cell Cycle 通路。
总结:pathway 和 GO富集分析结果的解读,应该从生物学意义的角度出发,P value 和 Q value只是个参考而已,那些不显著的通路也值得解读(从功能注释的角度解读,而不是从富集分析的角度解读)。只要结果可以解释,有意义,不用太迷信P value。
# 代谢通路可视化
主要使用 pathview, KEGGREST和KEGGgraph这三个R包绘制的
pathview | KEGGgraph |
---|---|
![]() | ![]() |