中国基因专利的数据挖掘*
(1南京农业大学生命科学学院
南京210095 2南京沿溯生物工程有限公司
南京210095)
摘要
对中国专利基因数据库(NASDAP, http://nasdap.generank.org/)进行了统计和数据挖掘,展示了中国基因专利的全貌;揭示了我国基因专利申请的热点和薄弱面;通过对专利基因生命周期聚类结果的分析,总结出围绕一个专利基因进行二次创新的策略以及我国对此类申请的授权态度。这些数据挖掘结果可为我国药物开发和疾病诊断等生命科学高技术领域知识产权战略制定提供重要参考。
关键词 基因专利, 专利基因, 生物信息学, 数据挖掘
分类号 Q5, Q6
权利要求中所要求被保护的基因称作专利基因,包含专利基因的申请公开书或审定授权书则是基因专利的书面体现。这两者对于生物工程研究的审批、立项以及知识产权战略的制定均有较大的意义[1]。对我国专利基因和基因专利的统计和数据挖掘有助于揭示我国基因专利权利要求覆盖范围和授权偏好等信息,具体而言包括,哪些基因已被专利覆盖,哪些尚未被覆盖以及某基因的哪些技术或功能在已覆盖范围之外还有创新余地等。
专利基因在申请公开书或审定授权书中体现为序列、微阵列探针、专利基序以及单核苷酸多态性(SNP)序列等特殊文本形式,用常规技术无法对其进行检索和数据挖掘[2],因而无法概览我国基因专利的全貌。为此,在构建了中国专利基因数据库(NASDAP)的基础上,我们结合生物信息学技术对中国基因专利进行了数据挖掘。
1 数据与方法
1.1 数据内容
数据挖掘所用数据库NASDAP主要收录1999年以后,部分1999年之前(含1999年)全部的中国基因专利。除申请人、标题、摘要以及权利要求等常规信息外,NASDAP还收录序列、核酸微阵列序列、专利基序以及SNP序列等4类专利序列。
1.2 基因专利簇的创建和注释
数据挖掘以基因(蛋白)为单位组织专利。将不同专利中相同的基因聚合成一类,以便进行注释和数据挖掘。核酸序列无论是否编码蛋白质,均按6个相位翻译,选择其中最长的开放阅读框所对应的氨基酸序列作为代表序列。将核酸代表序列与蛋白序列合并再执行两两比对,将一致性98%以上且共有序列占总长度80%以上的序列聚为一簇,称为一个基因专利簇(UniPat)。定义每簇中最长的蛋白序列为该簇的参考序列。将参考序列对SWISS-PROT进行BLASTP(E<1e-40)完成基因名的注释,并将参考序列通过SWISS-PROT登陆号关联到基因本体(GO)[3]。
2 结果与分析
2.1 申请偏好
2.1.1
专利基因的序列长度偏好
将权利要求为药物的专利基因(图1a)与诊断类代表的非药物类基因(图1b)进行蛋白序列长度的对比。结果显示,药物专利中70.0%的序列长度为80aa至240aa,而非药物类序列则有76.4%位于240aa以上的区间内,两者氨基酸序列长度具有极显著的差异(P<0.0001)。因此,序列长度可作为区分中国药物专利和非药物专利的重要参考。这可能是由于大分子量蛋白作为药物存在生产成本高、易变性、抗原性强和药代动力学曲线不理想等诸多问题而不能直接用做药物。
上述两类专利申请数量的对比结果显示,非药物类仅占药物类专利的6.4%。由此可见,分子量较小的肽类药物专利构成了中国基因专利的主体。排除面向一基因所有方面的穷举式申请外,我国面向基因诊断、致病基因以及通路中关键节点方面的申请还很少体现,而此类申请在美国专利中却是热点。例如,乳腺癌致病基因BRCA1、糖尿病相关基因PIK3R5以及肥胖症相关基因LEPR的申请数量在美国被密集申请的人类专利基因排名中名列前茅[2],然而这些基因在中国基因专利中均极少被申请。这说明:一方面,申请关于这些基因的美国基因专利申请人尚未通过国际条约向中国知识产权局提出申请;另一方面,尽管这些致病基因在我国也具有较高知名度,同时也有较多空间避让美国专利而进行这些基因其他方面的开发,但它们仍然极少被中国法人或中国籍申请人所申请。

Fig. 1 中国申请公开的专利蛋白序列长度分布
a:
药物专利序列长度分布; b: 为非药物类专利序列长度分布。
a: the length distrubution of protein sequences
in drug patents; b: the length distrubution of proteins sequences in non-drug
patents.
2.1.2
专利基因在GO条目上的使用偏好 GO是反映基因的分子功能、生物学过程和细胞组分的描述性词汇集。假定每个UniPat都具备相同的申请数目,按GO条目在UniPat中的被引数排序,可获得第1张条目被引数排序表;如将每个UniPat被重复申请的次数作为考虑因素加入GO条目被引数的统计与排序,则可获第2张排序表。GO条目在这2张表中的排名变化数反映了中国专利的申请者对该GO条目的偏好,即专利中对特定方面分子生物学意义的偏好。
结果显示,在分子功能上,GO排名上升幅度较大的以受体结合活性、转录调节活性和磷脂酶活性抑制等为代表(表1),下降较快的多以基础代谢相关条目为主;在生物学过程相关条目方面,排名显著上升的多与生物学过程调控有关;在细胞组分方面,膜相关的条目比较突出。由此表明,中国基因专利的申请可能大多与药物或药靶相关。
Table 1 使用频数排名上升最多的5个和下降最多的5个GO条目
Table 1 GO terms of 10 mostly ascended
and 10 mostly descended rank changements
|
changement |
molecular function |
changement |
biological process |
|
changement |
cellular component |
|
|
775 |
high-density lipoprotein binding |
821 |
|
764 |
Arp2/3 protein complex |
||
|
775 |
host cell surface receptor binding |
759 |
cell fate determination |
|
747 |
collagen type XVI |
|
|
747 |
phospholipase inhibitor activity |
742 |
release of cytochrome c from
mitochondria |
646 |
lysosomal membrane |
||
|
710 |
transcription regulator activity |
732 |
response to pheromone |
644 |
anchored to plasma membrane |
||
|
706 |
carnitine transporter activity |
731 |
phosphatidylserine metabolism |
596 |
extrinsic to membrane |
||
|
-1071 |
urate oxidase activity |
-1412 |
antigen processing |
|
-528 |
alpha DNA polymerase:primase complex |
|
|
-1075 |
GO:0047429 a |
-1419 |
entry of virus into host cell |
-765 |
replication fork |
||
|
-1285 |
GO:0016712 b |
-1459 |
positive regulation of endocytosis |
-804 |
nematocyst |
||
|
-1409 |
GO:0008985 c |
-1511 |
regulation of antiviral response |
-919 |
GO:0019910 d |
||
|
-1490 |
beta-lactamase activity |
-1755 |
beta-lactam antibiotic catabolism |
-1293 |
multivesicular body |
||
(a) nucleoside-triphosphate
diphosphatase activity. (b) oxidoreductase activity, acting on paired donors,
with incorporation or reduction of molecular oxygen, reduced flavin or
flavoprotein as one donor, and incorporation of one atom of oxygen. (c)
pyruvate dehydrogenase (cytochrome) activity. (d) pyruvate dehydrogenase
(lipoamide) phosphatase complex (sensu Eukaryota).
2.2 面向单基因多方面的申请策略及授权偏好
2.2.1 基因与专利间的多对多关系 通过对UniPat的考察明确了基因与专利间多对多的关系。一方面,围绕一个基因所进行的多方面开发将衍生出不同的权利要求,进而对应多个不同的专利申请;另一方面,在一个专利中被要求权利的基因可能存在多个。
对一个基因的多方面权利要求归纳起来主要包括:核苷酸分子、蛋白分子、改性的蛋白分子、基因微阵列、SNP、基因或蛋白在疾病诊断方面的应用、基因或蛋白作为药物、基因或蛋白作为药靶、包含该基因的载体、宿主、细胞系、不同的制备工艺以及基因治疗用途等。我国专利中申请数最多的5个基因分别是:人免疫球蛋白重链VDJ区基因、人免疫球蛋白Fc区基因、人免疫球蛋白重链V-J4区基因、促红细胞生成素、PSCA抗体基因。抗体基因被密集申请的原因除了本身具有治疗作用外,我国基因专利权利要求主体是肽类药物可能也是一个重要因素:抗体基因通过与各种肽类基因融合表达可发挥其靶向功能,因此可作为药物载体被广泛使用。
物质专利是一种最先被申请,保护范围最广并且保护能力最强的一种基因专利形式。而就被调查的药物专利UniPat中,物质专利中的70.0%由国外法人申请。中国法人或中国籍申请人往往仅能采用申请新用途专利、新工艺专利、载体、基因工程体以及少量改变原肽的氨基酸序列等策略来分享该基因其他方面的开发空间。他们这种以蛋白本身作为药物为主的申请策略与美国人类基因专利以药靶、致病基因、重要通路的节点以及诊断用基因等上位概念为主的申请策略完全不同。在美国人类基因专利中,药物基因或免疫球蛋白基因这样的“工具基因”未排入密集申请基因的前10位[2]。
在一个专利对应多个基因方面,69.7%的专利申请采用覆盖多个基因的申请方式,申请人往往在一份权利要求中同时对多条相关基因提出申请,以期望或得大范围的保护,并认为这样能节省申请费用。有的申请中甚至还出现了一个专利申请覆盖数百个基因的情况。然而这种做法可能存在一些风险。对授权基因专利的分析表明,平均每个专利仅能获得1.04个基因的专利权。因此,过早地将多个基因写在一份申请中,在审定时极有可能被要求将原专利拆分,进而重新申请为多个专利。这样不仅不能节省费用,届时还将申请者置于了需要进行取舍以保全主要基因获得保护的境地。如果申请者不得不放弃一些当初申请的基因,这就不可避免地使这些基因立即丧失新颖性,对于申请人来说,将是一笔损失。
2.2.2
专利基因的典型生命周期
对UniPat每年的被引数进行考察,从而获得每个专利基因的生命周期。按其生命周期进行分层聚类[4],并从聚类结果中挑选以下四类典型(图2b)分别予以讨论。
1)先热后冷型:一些功能和应用范围专一的基因往往呈现这种生命周期特征。它们的申请人往往限于少数几个。如大肠杆菌肌醇六磷酸酶(UniPat编号up37)在一年内突然呈现爆发式的申请,权利要求内容包括物质专利、点突变性质改进等[5-7]。然而由于其开发空间有限,随后的申请呈现下降趋势。2)多热点型:这些基因在专利中所承载的功能多为提高蛋白可溶性或药靶导向性等。因常与其他蛋白共同表达,它们在融合蛋白中扮演一种“肽类药物伴娘”的角色。其生命周期取决于各种肽类药物的应用状况,因此生命曲线常出现波动。该类的典型代表是人免疫球蛋白Fc基因片断(up4)。3)先冷后热型:此类基因在其物质专利申请初期[8]并未引起足够的关注,沉寂之后可能某事件激发了市场需求,短时间内相继有不同机构介入进行开发,由此形成的竞争效应进一步地提高了专利申请数量。促肝再生因子(up67)的专利群[9-12]就属于这种类型。4)持续热点型:具有此类生命周期的基因往往能够开发成为用途广泛的药物,因此一个基因常对应多个申请人及多种开发方式。围绕此类基因的竞争格外激烈,不同申请人的权利要求间甚至出现了交叠。例如干扰素α-2b基因(up18)自从被申请了原核表达的工艺专利[13]后,不同机构又对其从上游调控元件[14]、在浮萍中表达[15]、与胸腺肽融合表达[16]、与Fc片断融合表达[17]、分子修饰[18]及性质改良[19]等多个方面进行开发。
专利基因生命周期考察将所有对象的公开日限定在2003年之前,因此保证了参与聚类的所有基因专利都应有足够的时间被授权。在此前提下对上述4个代表基因的实际授权情况进行了考察,结果除up18有多个授权外,其余UniPat均仅有最早的申请获得了授权。
3 讨论
数据挖掘结果显示,肽类药物专利是中国基因专利的主体。GO条目偏好所反映的分子生物学意义上的偏好也佐证了这一点。对于中国基因专利申请者而言,面向基因诊断、致病基因以及通路中的关键节点方面的申请可能还有较大的空间。与美国专利基因相比,编码非药用肽类的基因在我国专利中较少体现的原因可能是这些基因不能直接开发成药物。即使存在基因治疗等新用途的开发机会,其风险与经济效用可能均不如直接开发肽类药物来得确切。另一原因可能是分子诊断、基因治疗以及覆盖通路的申请等基因开发策略尚未被我国科研院所和企业所关注。随着我国自主药物研发力度的加大以及临床分子诊断的逐步实施,此类专利申请可能将逐步被重视起来。
对一个基因多方面的申请策略的考察表明,可在现有基础上对基因进行横向的多元开发或纵向的深入开发。横向上,可以考虑该基因直系同源物或并系同源物的开发潜力;纵向上,可采用突变、修饰或截短序列来等手段实现目标蛋白生物活性提高、抗原性降低或者稳定性增强[20]等性质改良,并从开发一个基因新功能的角度重新获得申请机会。这些申请策略提供我们在现有国内外基因资源的基础上进行二次创新的思路。围绕一个基因多方面的申请完全可以获得多方面的授权,但多数情况下,一个基因的首次申请如果覆盖面较广,而后续申请创新性不够,则仅有最早的申请能够获得授权。此外,平均每个专利仅授权1.04个基因表明,我国更倾向于批准用途明确,功能专一的单基因申请,在一项专利之内进行大面积圈地式的申请可能并不可取。
致谢 感谢国家知识产权局和知识产权出版社提供中国专利说明书及专利法律状态等信息,以及于维前、许学兰、金雅康等在数据整理方面的帮助。

Fig. 2 专利基因1999~2003年的生命周期
Fig. 2 The life cycles of
patented genes from 1999 to 2003
a
UniPat按生命周期的分层聚类[4]; b 上述聚类结果中4类典型UniPat的生命周期。
a
Hierachical clustering[4] of UniPats based on their life cyclel; b The
life cycles of 4 typical UniPats.
参考文献
[1]
Doll J J . The Patenting of DNA . Science, 1998, 280(5364):
689~690
[2]
Jensen K, Murray F. Intellectual property. Enhanced:
intellectual property landscape of the human genome. Science, 2005, 310(5746):
239~340
[3]
Ashburner M, Ball C A, Blake J A, et al.Gene ontology: tool
for the unification of biology. Nat. Genet., 2000, 25(1): 25~29
[4]
Eisen M B, Spellman P T, Brown P O, et al. Cluster analysis
and display of genome-wide expression patterns. Proc. Natl. Acad. Sci. U S A,
1998, 95(25): 14863~14868
[5]
肖特 J M, 克雷茨 K A.重组细菌肌醇六磷酸酶及其应用. 中国, 发明专利,
00808022.4. 2000-5-25
Short J M, Cleize
K A. Chinese patent, 00808022.4. 2000-5-25
[6]
雷 X. 大肠杆菌肌醇六磷酸酶的定点突变. 中国, 发明专利,
00818448.8. 2000-11-17
Ray X.
Chinese patent, 00818448.8. 2000-11-17
[7]
雷 X. 具有改良的肌醇六磷酸酶活性的磷酸酶. 中国, 发明专利, 00808141.7.
2000-3-31
Ray X. Chinese
patent, 00808141.7. 2000-3-31
[8]
孔祥平, 易学瑞, 曾平鲁, 等. 重组人源促肝细胞生长素及其生产方法和临床用途. 中国, 发明专利,
99110801.9. 1999-7-20
Kong X P, Yi X R,
Zeng P L, et al. Chinese patent, 99110801.9. 1999-7-20
[9]
黄秀东, 谈珉, 陈佩新, 等. 甲醇酵母重组表达肝再生增强因子及其突变体. 中国, 发明专利,
03115981.8. 2003-3-25
Huang X D, Tan
M, Chen P X, et al. Chinese patent, 03115981.8. 2003-3-25
[10]
蔡在龙, 毛积芳, 贺雪峰, 等. 人促肝再生因子衍生物及其表达. 中国, 发明专利,
03116665.2. 2003-4-29
Cai Z L, Mao J F,
He X F, et al. Chinese patent, 03116665.2. 2003-4-29
[11]
赖玉平, 陈车生, 吴自荣. 人促肝再生因子及其表达. 中国, 发明专利,
03116120.0. 2003-4-3
Lai Y P, Chen C
S, Wu Z R. Chinese patent, 03116120.0. 2003-4-3
[12]
董爱华, 郝爱鱼, 郑学丽, 等. 一种新型促肝细胞生长因子、制备方法及其用途. 中国, 发明专利,
03148593.6. 2003-7-7
Dong A H, Hao A
Y, Zheng X L, et al. Chinese patent, 03148593.6.
2003-7-7
[13]
刘新垣. 人工合成的干扰素α-2b基因在大肠杆菌中的高效表达. 中国, 发明专利,
99113732.9. 1999-5-25
Liu X H. Chinese
patent, 99113732.9. 1999-5-25
[14]
特雷科 D A, 赫尔特莱恩 M W, 塞尔登 R F. 中国, 发明专利, 用于产生和传递蛋白的IFN-α2基因编码区上游的基因组序列.
99808195.7. 1999-5-5
Kleit D A,
Heltlaid M W, Celdon R F. Chinese patent, 99808195.7.
1999-5-5
[15]
斯汤普 A M, 迪奇 L.在浮萍中表达生物活性多肽. 中国, 发明专利,
01815064.0. 2001-7-26
Stom A M, Dich L.
Chinese patent, 01815064.0. 2001-7-26
[16]
吴祥甫, 杨冠珍, 何志勇, 等. 新的干扰素-胸腺肽融合蛋白及其制法和用途. 中国, 发明专利,
01105705.X. 2001-3-21
Wu X F, Yang G Z,
He Z Y, et al. Chinese patent, 01105705.X. 2001-3-21
[17]
劳健明, 孙亚萍, 吉利斯S D. 干扰素-α蛋白作为Fc融合蛋白的表达和运输. 中国, 发明专利,
00810671.1. 2000-5-19
Lao J M, Sun Y P,
Jaylis S D. Chinese patent, 00810671.1. 2000-5-19
[18]
耿东进. 一种改良的人α型干扰素复合体的生产方法和用途. 中国, 发明专利, 02110839.0.
2002-2-9
Geng D J. Chinese
patent, 02110839.0. 2002-2-9
[19]
白宪鹤, 林雨霖. 人干扰素α2a基因cDNA编码修饰重组序列. 中国, 发明专利,
02146213.5. 2002-10-16
Bai X H, Lin Y L.
Chinese patent, 02146213.5. 2002-10-16
[20]
徐蓓钫, 刘建宁. 欧米加-海螺毒素变体多肽的基因序列、氨基酸序列以及它们的制备方法和医药用途. 中国, 发明专利,
00109828.4. 2000-7-10
Xu B F, Liu J N. Chinese
patent, 00109828.4. 2000-7-10
YANG Lun1,2 XIA Zhen-hua2
CHEN Jian2
MAO Ying1
Xu Lang-lai1**
(1 College of life sciences, Nanjing
Agricultural University Nanjing 210095, China)
(2Nanjing Ye$u Bio-engineering Co.
Ltd. Nanjing 210095, China)
Abstract: The application and the authorization of Chinese gene
patents reflect what's happening in biotech world of China, and the overview of
the gene patents in China could expose the developing direction of this
potential huge and challenging market of life sciences. So the statistics and
data-mining were performed against National Bio-Sequence Database of Chinese
Patent ( NASDAP, http://nasdap.generank.org/ ). The exploration of 'hot' gene
patent application revealed the preference
of applicants, the patent assigners as well as the biotech market. The application
profile in each year of the patented genes and the strategies on carrying out
multi-application on one gene without intellectual property (IP) crash were
also discussed. The results above reflect the public policy guiding and the
attitude of relevant government which draw on IP policies, which present a
landscape of Chinese gene patent, and give comprehensive consults on drawing IP
strategies in the areas of pharmaceutics, diagnostics and agriculture. They are
of great importance to the patent applicants especially to the foreign
applicants.
Key
words: gene patent, patented gene,
bioinformatics, data-mining