肿瘤生物标志物发现-------挑战和机遇

dejunchem · 发表于 2013-8-10 11:24:04

马上注册，结交更多好友，下载更多分子模拟资源。

您需要登录才可以下载或查看，没有帐号？我想注册

x

本帖最后由 dejunchem 于 2013-8-10 12:18 编辑

搞两个板块，感觉有点力不从心了，还就没更新文献了，也不知道多少人看。

Challenges and opportunities for oncology biomarker discovery

Drug Discovery Today Volume 18, Issues 13–14, July 2013, Pages 614–624

摘要：

Recent success of companion diagnostics along with the increasing regulatory pressure for better identification of the target population has created an unprecedented incentive for drug discovery companies to invest in novel strategies for biomarker discovery. In parallel with the rapid advancement and clinical adoption of high-throughput technologies, a number of knowledge management and systems biology approaches have been developed to analyze an ever increasing collection of OMICs data. This review discusses current biomarker discovery technologies highlighting challenges and opportunities of knowledge capturing and presenting a perspective of the future integrative modeling approaches as an emerging trend in biomarker prediction.

协同诊断的最近成功随着为更好确定目标人群监管压力增大已经为药物发现公司投资在新颖策略为生物标志物发现创造了一个前所未有的激励机制。与迅速进展和临床采用高通量技术平行，已发展一些知识处理和系统生物学方法分析一种往往OMICs数据的增加收集。本综述讨论当前生物标志物发现技术突出了知识俘获的挑战和机遇和展示在生物标志物趋向出现一个未来的前瞻整合建模方法。

http://www.sciencedirect.com/sci ... i/S1359644612004370
附件上不上去自己下吧。
原文部分译文转载自 汤教授新药信息和技术新浪博客

dejunchem · 发表于 2013-8-10 11:51:28

本帖最后由 dejunchem 于 2013-8-10 11:54 编辑

   自从1955年世界范围人类的平均寿命从48岁改进至71岁[1](国家比较：出生时预期寿命：http://www.cia.gov/library/publications/the-world-factbook/rankorder/2102rank.html)。两名Noble奖获得者Joshua Lederberg和George Hitchings宣称在过去50年寿命延长在很大程度上可归因于新药品[2,3]。他们的主张已得到在这段时间制药企业成功很好支持，反映在FDA(美国食品和药品监督管理局)在这段时间批准~1222个新药[4]。但是，在过去十年和所有药物公司都受危机影响，特征是支出增加，管道流失率增加和很多药物专利到期。在最近几年临床2期试验试验晚期的成功率下降10%。同时在过去五年3期终结数增倍[5,6]。这种毁灭性情况促使制药公司寻求新模型缩短药物研究至市场时间和增加临床成功率，因而满足监管当局和患者的需要。
   制药R&D药物发现范例之一是重点从重磅炸弹转移至适宜炸弹[blockbusters to nichebusters]，即治疗靶向特异性患者群被称为分层医学[]。分层医学的成功依赖于准确诊断测试确定那个患者将从靶向治疗获益。当今大约10%被FDA批准的药物说明书含有药物基因组学信息反映一种明显向这类定制化治疗的趋势[7]。制药公司积极地研讨生物标志物驱动方法作为在这个领域下一个主要重塑[reinventions]之一，这是显而易见的FDA发布‘药物说明书中药物基因组学生物标志物’总结105个被批准的药物有112伴有生物标志物27.07.2012[8](药物基因组学生物标志物在药物说明书：http://www.fda.gov/drugs/science ... etics/ucm083378.htm)。随着Zelboraf(Vemurafenib)被批准有协同对对晚期黑色素瘤BRAF突变的遗传测试和Xalkori(Crizotinib)被批准的与协同对晚期肺癌ALK基因遗传测试(FY2011创新药批准：http://www.fda.gov/downloads/Abo ... ports/UCM278358.pdf)[7]，这种趋势最近继续上升。

   尽管协同诊断的这些成功故事，R&D支出，生物标志物相关研究补助和可得到的临床验证的生物标志物数间存在显著差异[8]。建立一个更富有成效治疗设计更好了解药物的作用模式以及可发挥消退治疗效应的另外通路是至关重要的。基因组学，转录组学，蛋白质组学，代谢组学的领域中技术进展和这些技术的商品化，使高通量分析，导致delugeof公众可得到的生物医学数据蜂涌而至。另外一方面，科学文献和专利的文体积蓄巨大量的生物医学知识对转化努力有巨大价值。缺乏允许使用OMICs数据与知识来自科学文献的标准化转化算法是当前生物标志物在临床使用稀少的一个主要理由。为了填补OMICs数据解释的缺口，科学界建议一些系统生物学方法，但是，没有概念证明方法学可能导致成功地生物标志物预测，和不清楚OMICs技术如何研究发现成功转化至临床生物标志物。
本综述的范围是了解OMICs技术当前被使用为生物标志物的鉴定一方面和另外一方面那种已有方法学对从文本回收生物标志物-相关信息。我们还将揭示这些努力的整合中什么是当前有效的又和什么是未来前瞻。检查OMICs在生物标志物发现成功我们对当前在肿瘤学被批准的生物标志物进行回顾分析搜索它们发现所用技术。我们分析从文献对生物标志物-相关信息提取根据公共和专有知识的方法学它们的长处和弱点。我们评估文本挖掘方法当前状态自动化生物标志物-相关信息提取出现趋势。最后，得到整合方法更好的了解，我们纵观联合OMICs数据分析与科学文本-衍生知识的方法学和给出这个方法的前景作为新兴希望OMICs数据和文本衍生知识整合将对更好生物标志物预测转化为成功的临床结局的贡献。

dejunchem · 发表于 2013-8-10 11:56:03

生物标志物在当前临床实践中：集中在肿瘤学
整个制药R&D中，寻求肿瘤学领域治疗性突破占总R&D支出的29%。癌症仍然人类患6百万人每年死亡主要原因和每年报道千万新病例(Beyondthe Blockbuster Drug：http://www.pharmatree.in/pdf/reports/Beyondthe Blockbuster Drug_Strategies for nichebuster drugs, targetedtherapies and personalized medicine.pdf).给予事实癌症是高度异质性疾病不仅组织学和临床结局而且在分子学水平，这并不奇怪肿瘤学移动趋向靶向治疗第一个适应证。EGFR，Her2/neu，ALK，BRAF，Bcr-Abl，PIK3CA，JAK2，MEK，Kit和PML-RARα是癌症最近被批准的靶向治疗的靶点。这些靶分子及其下游效应器常常对基因组学，转录组学，蛋白质组学和表观遗传学水平往往受到各种变化。因此，这些分子的状态是患者对靶向治疗各种各样-特异性临床反应的基础[9]。
根据FDA，这类分子可前瞻地预测被选定患者亚群对治疗可能的反应被定义为生物标志物分层或预测[10]。因为癌症是靶向治疗的主要领域之一，我们在此展示表1中总结分层生物标志物当前在肿瘤学临床实践中与它们被批准的治疗。如表1所示，有少数例外例如KRAS，生物标志物的大多数是相关治疗的直接药物靶点。事实上大多数分层生物标志物治疗进入市场后已被批准的(即临床试验晚期的回顾性分析或上市后调查衍生的)，显然在临床发展期间靶点的生物学及其在病理学条件下的变化没有真正明显。而且，甚至在被分层的患者群，治疗反应是远远未到达等同成功[11–13]，提示治疗靶点的下游发生有一种确实的知识变化，在通路和分子相互作用网络上下文中生物标志物-驱动分层医学的方向进一步移动将是绝对关键的。在下一节我们将纵观澄清这类全面性下游变化的努力导致对生物标志物鉴定技术的爆炸。

登录/注册后可看大图

dejunchem · 发表于 2013-8-10 11:58:06

基于OMICs技术对生物标志物鉴定
为生物医学样品的筛选设计的高通量技术有最新突破的迅速演变在整个基因组学测序和microRNA(miRNA)分析中催生一些生物学学科致力于生成和研究这些多种OMICs数据。图1总结了最新技术以及生物标志物类型的多样化和数据类型依赖于被相应技术检测变化的性质

登录/注册后可看大图

图1：在临床前和临床研究所用为生物标志物发现当前技术和数据类型。缩写：CNV，拷贝数变异；FISH，荧光原位杂交；GCMS，气相色谱质谱；HPLC，高效液相色谱；LCMS，液相色谱-质谱联用；NMR，核磁共振；PCR，聚合酶链反应；SNPs，单核苷酸多态性；SVs，结构变异

dejunchem · 发表于 2013-8-10 12:00:28

本帖最后由 dejunchem 于 2013-8-10 12:02 编辑

代谢生物标志物
     自从OttoWarburg假设由于线粒体缺陷改变的代谢(在富氧条件下葡萄糖碳转化为乳酸)对癌症细胞特异性，代谢生物标志物已受到研究者注意是一种对早期癌症诊断和预后有效的生物标志物[33]。从那时起，许多努力致力于在肿瘤学中代谢生物标志物的鉴定。核磁共振(NMR)光谱学，高效液相色谱(HPLC)，放射免疫分析，液相色谱-质谱联用(LCMS)，气相色谱-质谱(GCMS)和酶免疫分析被仪器化分析对病理生理学变化和治疗反应中代谢物水平。直至现在只有两个代谢生物标志物已进入临床实践。变肾上腺素[Metanephrine]和去甲变肾上腺素[normetanephrine]是两个代谢物被用于伴随嗜铬细胞瘤(510(k)预测疾病状态实质上等效性测定决策总结：http://www.accessdata.fda.gov/cdrh_docs/reviews/K032199.pdf)。尽管在代谢组学中迅速技术进展，仍旧不可能鉴别代谢物衍生的从不同的亚细胞隔室和还当前分馏的方法常导致代谢物在不同层间泄漏使之甚至更难鉴定代谢物[33]。
microRNA生物标志物
   microRNAs(miRNAs)涉及关键细胞学过程例如增殖和细胞死亡和众所周知许多癌蛋白的负性控制[negativecontrol]表达使它们一种根本的备选为癌症生物标志物。还曾被报道are肿瘤发生较早期血中检测到癌症-特异性miRNAs和当肿瘤随时间进展浓度增加，成为肿瘤生长的指示剂[34]。而且，与其他类型生物标志物不一样，miRNAs在循环和甲醛石蜡包埋组织中非常稳定，使它们潜在坚实的肿瘤生物标志物。功能性miRNA种类大多数在体外用荧光素酶报告活性验证[34]。芯片分析是一种强大的高通量技术能监测能够在特异性上下文监测成千上万个小非编码RNAs表达。Mirage(SAGE)，对成熟miRNAs茎环结构定量实时聚合酶链反应(qRT-PCR)，对前体miRNAsqRT-PCR和基于珠的技术也频繁用于microRNA分析[35]。但是，在癌症临床实践尚无这类生物标志物存在。值得注意的是人类基因组学计划描述全部基因后遗传生物标志物在临床接受性出现了显著上升。需要相似努力发现和在人类细胞描述所有miRNAs特征为了转化潜在的miRNAs作为癌症生物标志物至临床成功。进一步了解对如何miRNAs完成与蛋白结合和控制mRNA的表达以及功能性相互作用网络通过miRNAs发挥其组织特异性作用需要对未来临床转化[34]。
观察从生物医学样品得到的数据点这个巨大扩增提出问题是否这些技术进展和普及，筛选平台不断的可用性导致临床突破和它们的那个被证明对被批准的生物标志物的发现是至关重要的。当前肿瘤学被批准的分层生物标志物的鉴定曾有贡献技术得到更好了解，在表2中我们对数据生成平台这些平台来发的结果提出一个OMICs精明纵观。
   从表2显然，只有极少数分层生物标志物来自当前被批准各技术和被临床对肿瘤学使用。这反映从最初高通量数据发展敏感，特异和高度预测生物标志物对临床决策相关是一条艰难和漫长的路。另外一方面，OMICs技术发现未来生物标志物的潜力巨大和在过去20年预期已经高，支持巨大投资开发这些技术。
为了解这些高通量技术的未来潜力，我们比较对上述各技术发表的备选生物标志物数即，在文献，临床试验注册或科学会议中报道的那些与被批准的生物标志物数。为这个目的，我们检索来自GVK Bio Online生物标志物数据库(GOBIOM)所有肿瘤学-相关备选生物标志物(包括疾病，分层，预后和诊断生物标志物)。GOBIOM是一个独立手工策划[manuallycurated]生物标志物-相关知识库用来自临床报告，年会和杂志文章信息衍生[48]。在书写本文时，GOBIOM具有信息对15,732个生物标志物覆盖16个治疗领域由36,681篇独特参考资料支持。
在图2中可明显看出，虽然转录组学技术，即微阵列分析，是最老和被广泛使用高通量技术之一，被报道大多数备选生物标志物是来自基因组学研究接着是蛋白质组学。来自基因组学分析信号的稳定性以及相比mRNA蛋白的较高稳定性可能是那些生物标志物超过转录组学衍生的生物标志物的原因。被批准的生物标志物数与那些在公共领域所述比较揭示大多数备选生物标志物或失败或尚未达到临床。
   甚至在从高通量技术衍生的强信号情况，转化为临床实践遇到一些关联的挑战，在第一种情况，有其功能性解释。高通量数据的解释所患疾病和特异性治疗分子病理生理学是当前生物标志物鉴定和验证的限速步骤。如适当确定，提取和解释，OMICs数据组可提供有价值的生物学见识。OMICs数据的功能性分析需要对分子相互作用和通路所患疾病病理生理学和治疗作用模式知识。跨越不同系统水平积累的生物学知识，因此，需要被收集，注释，转化为计算机-可读取格式，和贮存在一个系统地强化知识库。这类知识库然后可被使用对OMICs数据组基于知识的分析，通过整合方法目标发现关键生物学过程，通路，相互作用模块或致病网络签字可被使用为备选生物标志物。在下一节，我们将提供对现有生物标志物知识库及其在高通量数据的解释的应用分析性纵观。

登录/注册后可看大图

图2OMICs技术在肿瘤生物标志物发现的当前贡献取自Gobiom数据库。红色：公开报道备选生物标志物总数。蓝色：被批准FDA的生物标志物在当前临床实践中对肿瘤学数。

dejunchem · 发表于 2013-8-10 12:06:38

知识库致力于OMICs数据对生物标志物发现的解释
知识库的使命是收集和生物医学信息的系统化通过手工信息提取从原始发表物所谓策划过程[curationprocess]。策划过程通过对实体提取信息作图组织知识。这类知识库为OMICs数据的分析提供一些特点，允许OMICs数据覆盖至已知的通路，变化的关键性通路的鉴定和提供网络分析算法为相关基因签字后关键性分子的鉴定。在过去几年期间，已引入几个公共和商用知识库提供由一个注释的知识库和分析工具组成的整合环境以便促使进行全面功能性分析。
虽然所有这些数据库含手工策划知识，其差别在覆盖和信息的颗粒度反映信息检索方法学差异，为知识提取所用资源的变异性以及实验结果被注释器解释的差异。Shmelkov等最近曾进行一项10个公共和商用通路知识库中人监管通路质量和完整性的比较分析和惊奇地发现这些数据库的知识内容有很小重叠[63]。作者报道唯一例外是MetaCore通路数据库其内容与实验结果84%病例被验证，与之比较KEGG数据库得到低重叠24%。

Table 3. Knowledge bases to analyze OMICs data leading to biomarker discovery

Knowledge baseFeaturesApplicationsRefs
MetacoreMetacore is an integrated commercial knowledge base from Thomson Reuters (previously GeneGo) which can support functional analysis (pathways, networks and maps) of span of OMICs data including microarray, sequence based gene expression, SNPs and CGH (comparative genomic hybridization) arrays, proteomics and metabolomics
Ranking of the affected pathways and networks from the experimental data based on proprietary algorithms and common functional gene expression interpretation analysis i.e. using gene ontology (GO)
Filters based on disease, tissue, sub cellular localization and functional processes to capture specific network
The toxicology application of Metacore is specifically designed to discover safety, efficacy and toxicity biomarker to a chemical compound
See: http://www.genego.com/metacore.phpBrentnall et al. in collaboration with Institute of Systems Biology completed a quantitative proteomic analysis to investigate differentially expressed proteins associated with ulcerative colitis (UC) neoplastic progression. Functional analyses of the differentially expressed proteins with Metacore software identified Sp1 and c-MYC as biomarkers of early and late stage of UC tumorigenesis
The same collaborative group made an ICAT-based quantitative proteomics research to analyze protein expression in chronic pancreatitis in comparison with normal pancreas. Metacore assisted pathway analysis revealed that c-MYC as a prominent regulator in the networks of differentially expressed proteins common in pancreatic cancer and chronic pancreatitis
Another collaborative group with Bayer Schering Pharma discovered the functional link between the KRAS mutation and Erlotinib resistance in non-small cell lung carcinoma (NSCLC). The functional analysis of the RNA expression data with Metacore indicated a possible correlation between differential expressions of cell adhesion proteins to NSCLC49, 50 and 51
IPA (A software developed by Ingenuity Systems)IPA is a manually curated commercial knowledge base from Ingenuity systems
Its biomarker filter is specialized to prioritize the molecular biomarker based on species specific connection to diseases, detection in body fluid, expression in specific cell type, cell line, clinical samples and also in stratification biomarker discovery based on disease state or drug response
The tool also can produce functional annotation of the biomarker including pathway association
See: http://www.ingenuity.com/science/knowledge_base.htmlUsing Ingenuity pathway analysis Merck & Co. predicted and then experimentally validated that phospho-PRAS40 (Thr246) positively correlates with PI3K pathway activation and AKT inhibitor sensitivity in PTEN deficient mouse prostate tumor model and triple-negative breast tumor tissues
Bristol-Myers Squibb has analyzed gene expression signature of responders and non responders to neoadjuvant ixabepilone therapy in breast cancer. Functional analysis of the data with IPA has indicated that significant deregulation of certain proliferation and cell cycle control genes can potentially predict treatment sensitivity
Cleveland clinic reported a functional analysis with IPA of the genes carrying non synonymous SNPs that may be associated with the severity of sunitinib-induced toxicity in metastatic clear cell renal cell carcinoma. As per the functional analysis those genes clustered around biological processes like interferon-γ, TNF β, TGF β 1 and amino acid metabolism molecular pathways52, 53 and 54
Pathway StudioPathway Studio is commercial software from Elsevier for pathway analysis as well as analysis of high-throughput OMICs data. Algorithms for analysis of the differential expression data such as Gene Set Enrichment Analysis (GSEA) or network analysis algorithm (NEA) allow detection of weak but consistent expression changes across the pathway genes
It is based on the proprietary databases ResNet, DiseaseFx, ChemEffect, Mamalian and Plant database containing relationships between biological molecules, chemicals, diseases and adverse events
The databases are built based on proprietary Natural Language Processing (NLP)-based relationship extraction from scientific literature
The software suit also provide state of the art network algorithm to pinpoint important nodes from the network perspective. The researcher can also visualize weight of each relationship in the pathways based on the number of literature evidence
See: http://www.pathwaystudio.com/A group from Harvard Medical School published functional connection of 117 highly differentially expressed genes to endometrial cancer. Pathway Studio assisted analysis of the data predicted that many of these genes are correlated to angiogenesis, cell proliferation and chromosomal instability. Further more they also reported ten key differentially regulated genes to be associated to tumor progression
Xiao et al. published functional analysis of EGFR regulated phosphorproteome in nasopharyngeal carcinoma (NPC) to shed light on EGFR downstream signaling. They first identified 33 unique phospho proteins by 2 dimensional difference gel electrophoresis (2D-DIGE) and mass spectrometry. Based on the proteomic data the group built EGFR signaling in NPC by using Pathway Studio and also validate GSTP1 as one of the key EGFR-regulated proteins which is involved in chemoresistance in NPC cells55 and 56
Compendia Bioscience (Oncomine)DNA copy number browser: identifying focal amplification across multiple cancer clinical data sets to identify any associated pattern
Gene expression browser: to browse differential expression of genes across multiple cancer type covering multiple data sets
Mutation browser: discovering cancer association of certain mutations by looking at the frequency of certain gene mutation
OncoScore: based on the gene expression data to stratify the patient population based on disease prognosis and response to a therapeutic intervention. At the moment the service is limited to breast and colon cancer
See: http://www.compendiabio.com/Using Oncomine a group from the University of Michigan predicted that decreased protein expression of Raf kinase inhibitor protein (RKIP) is a prognostic biomarker in prostate cancer
Another group of the same university predicted that the high expression of EZH2 and ECAD was statistically significantly associated with prostate cancer recurrence after radical prostatectomy57 and 58
NextBioNextBio Clinical:
Semantic based integration of the proprietary OMICs data with public knowledge to get better insight leads to discovery of drug targets and biomarkers
Discover and validate stratification biomarker to a therapy accessing genomic data from cell lines, stem cells, animal models and retrospective analysis of clinical trials
NextBio Research:
Identifying crucial pathways leads to a disease phenotype supported by cross studies and multiple data points
Identification of disease biomarker and analysis of pharmacokinetic profiles or toxicity indications
It uses proprietary algorithms to rank the search outcomes based on the statistical significance of the correlation supported by bioset data points
See: http://www.nextbio.com/b/nextbioCorp.nbUsing the NextBio platform Walia et al. reported that loss of breast epithelial marker hCLCA2 (chloride channel accessory protein) promotes higher risk of metastasis[59]
SelventaDiscovery of predictive response biomarkers by reverse engineering disease mechanisms a priori from molecular patients data (OMICs data)
It utilizes an extensive and manually curated knowledge base containing literature-derived triples encoded into BEL
It identifies disease- and tissue-specific biomarker content that can match targeted therapies to subpopulation of patients
Reverse Causal Reasoning (RCR) algorithm is used for identification of master regulatorsVery recently, Selventa has introduced its openBEL framework for biomarker discovery based on mechanistic causal reasoning and demonstrated its application in stratifying responders to ulcerative colitis drug, infliximab, from non-responders based on identification of IL6 as the biomarker for alternative disease mechanisms in non-responders[60]
tranSMARTA knowledge management platform enabling integration of the OMICs data with published literature, clinical trial outcome and established knowledge from Metacore, Ingenuity IPA, National Laboratory of Medicine, US (NLM)
The applications of this platform include making novel hypothesis, validating them, disease association of certain pathways, genes, SNPs and biomarker discovery
http://www.transmartproject.org/Analysis of transcriptomic data from melanoma patients using k-means clustering facility in tranSMART showed that the expression levels of cyclin D1 increase from benign to malignant, whereas in metastatic melanomas the expression level decreases, clearly delineating multiple subgroups of samples in the presumably homogenous metastatic melanoma cohort[61]
KegArrayA microarray gene expression and metabolomics data analysis tool from KEGG
Able to map OMICs data to KEGG Pathways, Brite and genome maps
See: http://www.kegg.jp/kegg/download/kegtools.htmlKegArray was used to investigate metabolic pathways associated with the marker metabolites that were detected by 2D gas chromatography mass spectrometry in tissues from 31 patients with colorectal cancer. The results led to the identification of chemically diverse marker metabolites and metabolic pathway mapping suggested deregulation of various biochemical processes[6
生物标志物分类和生物标志物知识表示已阻碍对关于生物标志物信息文献搜索。事实上转化生物标志物的质量需要宽广范围信息灵敏度，特异性，作用机制，毒性和临床表现成绩和性能的水平，强调需要对生物标志物词汇和分类的标准化。最近，对生物标志物和诊断为建立证据标准已经建议一个典型的过程确保生物标志物根据甚至科学证据类型的定性[64]。相似地，Pistoia联盟，最初由来自几个制药公司信息专家建立，为整合生物标志物分析数据和处理不同终点曾推出一个计划集中发展一个肿瘤学和数据标准[PistoiaAlliance： http://www.pistoiaalliance.org/]。虽然在初步阶段，可以形成这类发展为未来生物标志物标准化努力基础。因此，下一代知识库应解决上述引入有效信息检索/提取工具以及生物标志物数据标准。放在一起，伴随已有知识库有优点和缺点两方面，在表4中总结。

登录/注册后可看大图

dejunchem · 发表于 2013-8-10 12:07:45

知识库的分辨率和质量很大依赖于其本体[ontology]粒度[granularity]，检索数据质量和注释器经验。手工策划知识库的创建和维护正在成为一个巨大的任务在出版的增长速度不断加快不同于手工策划稳定缓慢过程。为举例体现努力，一个最近报告显示组装对胰腺癌潜在生物标志物的组分，是通过文献的系统手工策划进行，花费超过7000人小时[65]。在缺乏自动化方法为取回生物标志物信息，手工策划的缓慢步伐不能保证当前知识库的内容对功能性OMICs数据的解释是全面和充分足够的。新颖高通路文本挖掘方法对自动化生物标志物知识处理是绝对重要的。在下一节中我们描述可用于支持知识库系统更新的自动化生物标志物信息检索方法和促进从无结构文本生物标志物-相关信息提取。

登录/注册后可看大图

图3：对备选生物标志物的鉴定数据-驱动和知识-驱动方法结合的模型驱动方法。.

dejunchem · 发表于 2013-8-10 12:09:15

为检索和提取生物标志物信息的文本挖掘策略
为加速策划过程，出现了国家的最先进的[state-of-the-art]信息检索和提取[retrieval和extraction]技术正在积极发展。在这类工具后面，有文本挖掘[text-mining]算法自动化识别潜在的生物标志物，例如在文本中基因和蛋白在一个过程被称为‘命名实体识别’或NER[66,67]。但是，存在的NER方法是不充分足够选择性为从文献取回生物标志物-相关内容信息(例如它与药物或疾病关联)。所以，从文本对生物标志物相关提取研究曾考虑命名实体间例如疾病和基因或蛋白间相关语义关系[semanticrelations]提取[68,69]。最近某些努力曾致力于使用语义增强的方法挖掘和提取这类相互关系[70,71]。这些方法的一个缺限是它们没有考虑除了疾病和基因名另外的文本特点，代表备选生物标志物质量性质例如测量证据和技术。在一种意向克服这个缺限，Ongenaert和Dehaspe(2010)曾应用不同的关键词清单含在癌症名词指定甲基化生物标志物和用它们与来自GeneCards的基因名生成在癌症中甲基化数据库，PubMeth[72]。
作为这个方向的一个步骤，我们最近已开发一个致力于生物标志物名词[terminology]组织在6个建议的类别和使用它为包埋在文献中生物标志物知识的信息检索和提取[73]。证实应用这个致力于生物标志物名词可通过联合搜索癌症相关基因和选择生物标志物搜索名词显著地增强检索性能。进一步评价这个名词在一个独立疾病领域，即阿耳茨海默氏病，显示不仅众所周知生物标志物被成功检索而且可确定新生物标志物备选物。这类名词整合至搜索工具支持supporting语义[semantic]和本体[ontological]搜索可高量非特异性搜索结果和改善内容丰富文件检索率。
最终，从文献提取的上下文-敏感生物标志物信息可被用为自动化富集知识库和/或结合OMICs数据可能生成疾病或药物作用模式的整合模块基础以备选生物标志物目标前瞻预测[74]。
讨论
当前通路分析和知识库代表对OMICs数据的解释的有用工具，上游机制性驱动的鉴定以及OMICs数据的可视化辅助对生物学过程的科学理解。常规通路分析的某些缺限阻碍知识库作为预测性工具对生物标志物发现的使用和最近Butte被综述[75]。在知识库中积累的通路大多数代表在各种生物学系统和组织中不同健康和病理条件中描述发现的混合。组织，治疗或特异性通路情况的创建是一个挑战而是当前许多商用知识库提供者的重点。因为当今知识库转换多个转录和SNPs为在通路表示的EntrezGeneID，通路的粒度应进一步改进对RNA和DNA-测序-衍生OMICs数据的分析。最后，存在的知识库只含静态信息，代表得到该数据的特殊条件下系统行为的‘快照snapshots’。通路相互依赖性反映病理过程中事件的顺序不是真正俘获的因此限制它们为模型分析和预测。Kreeger等建议根据定量模型分析一些系统生物学方法为生物标志物预测使用[76]。但是,花费劳力收集定量数据以及当前计算能力限制对含超过百个分子的复杂生物学系统模型，阻碍当前为生物标志物使用定量模型分析。定性模型分析方法可提供另外为前瞻生物标志物预测。好几个定性模型分析方法是根据boolean网络和能模拟信号通路的动力学信号。它们已被应用于新颖肿瘤学生物标志物的发现以及用于开发坚实的临床治疗决策[77]。定性模型分析的另一类型实例是BEL(生物学表达语)-基于因果网络模型分析方法整合文献衍生‘原因和效应’相互关系至一个整合的生物标志物发现平台[60,78]。因为当今被批准的生物标志物没有一个概念证明模型分析方法在前瞻性研究被预测没有当前对生物标志物预测。随着技术出现和甚至发展计算生物学的方法这个领域，为未来的发展有一个巨大的机会(图3)。
结束语
最近几年已发展各种OMICs技术目的是对疾病病理生理学和药物作用模式的详细了解。但是OMICs数据或在文本中积累的知识不不能自动地转化为临床进展。知识俘获技术与通路分析结合对OMICs数据解释提供一个巨大的骨架。缺乏标准化的转化算法阻碍允许OMICs数据的使用随着科学文献活动的知识有更大信心预测生物标志物努力。因此，当前情况的任何改进依赖于知识表示标准的改进使我们提出分子通路的动态互联被从实验数据强信号和富集颗粒知识整合支持。.
鉴于最近倡议解决生物标志物数据质量和交换的问题，期望下一代生物标志物知识库，有增强的数据质量标准和改进数据互操作性，在未来起主要作用的努力在整合生物标志物鉴定。总体趋向表明驱动离开关联生物标志物趋向因果生物标志物。因此，下一代整合性模型的目的是俘获备选生物标志物和临床结局间因果相互关系。这将在接近的将来导致新范例从事定量和定性模型分析为生物标志物前瞻性预测。

帐号		自动登录	找回密码
密码			我想注册

[研发新闻] 肿瘤生物标志物发现-------挑战和机遇

马上注册，结交更多好友，下载更多分子模拟资源。

浏览过的版块