昆明动物所在医学病毒生物信息学领域取得进展
近日,Journal of Medical Virology《医学病毒学杂志》在线刊发了题为VC (virome-comparison): a novel approach to comparing viromes based on virus species specificity and virome specificity diversity的学术论文。中国科学院昆明动物研究所研究员马占山团队在该文中提出了一种比较病毒组的新算法,能够高效率的找出某一病毒组特有或者富集的病毒种类等功能,为比较研究病毒组提供了一套崭新的算法和软件技术。马占山团队还提出了病毒“特异性多样性”的新概念和度量方法,特异性多样性概念综合了病毒时空分布和数量(丰度),并采用热力学中Renyi熵来度量特异性多样性,新概念及其度量方法的提出都具有重要的理论意义。
健康人体仅肠道中就存在约380亿病毒个体,其数量是人体体细胞的百倍,身体其他部位包括皮肤、口腔、生殖道、呼吸道等部位都存在大量病毒,病毒甚至可以存在于某些人的血液中而与其宿主相安无事(所谓潜伏感染),这些病毒的集合称之为病毒组 (Virome)。要比较两个或多个病毒组,找出其特有或者富集的病毒种类是一个貌似简单,但实际上非常复杂的计算问题,在计算机科学领域属于“NP-hard”问题(NP难题)。简单的说,对于此类问题,当问题大到一定程度时,即使用人类所建造的最强大计算机,仍然可能无法获得问题最优解。类似问题之一,“推销员最短路径”(Traveling Salesman Problem (TSP))问题或许可以较好的解释此类问题的难度。
TSP问题最早提出于19世纪,问题可以描述为:推销员需要访遍N个城市,但禁止重复访问,换句话说,该推销员要“打卡”所有城市,但不允许重复“打卡”,并且推销员为了节省时间,希望获得最短路径。显然,如果是2个或者3个城市,幼儿园小朋友都可以瞬间给出答案。如果是4-5个城市,小学生用铅笔应该也能够算出答案。但当城市数量增加到一定程度后,问题难度则是直线上升(实际上可能比指数增长还要快)!1950年代,美国兰德公司曾公开奖励解决TSP问题,当时的世界纪录仅仅是49个城市。换言之,20世纪50年代世界的算力仅仅能为推销员算出“打卡”49个城市的最短路径。2006年,世界纪录也仅仅是85900个城市,但其计算所花费的时间是136CPU年,而且是为其研发出了高度智能化的算法。“136 CPU年”意味着,如果没有超级并行计算机,而采用单个CPU计算的话,需要计算136年。
为了求解像VC这样NP-hard问题的最优解,通常是研发所谓的heuristic算法(启发式、探索式算法)以获得“次优解”,这里的“次优解”可以理解为能够满足实际应用的近似解。所谓启发式算法类似于“探索捷径”,其困难可能就在于如何寻找到适合解决问题的“灵感”。不幸的是,许多NP-hard问题的解决并不仅仅是数学家喜好的理论探索,而具有重要的经济价值。例如,TSP问题显然可以为交通网络规划、物流网、光纤铺设等提供支撑。
VC算法包括病毒“特异性”、前面提到的特异性多样性以及相对应的特异性检验和特异性多样性检验算法,能够高效的找到某个病毒组中特有的病毒种类或者富集的病毒种类,具有良好的应用前景。例如,文章中示范了找出IBD(肠炎)病人特有或富集的病毒种类,这些信息能够为研究疾病诊治手段提供重要的技术支撑。当然,该方法的应用并不限于研究人类病毒,同样也适用于研究动植物和其它生态环境中的病毒组。该研究得到国家自然科学基金资助。
文章链接:https://doi.org/10.1002/jmv.28682
昆明动物所在医学病毒生物信息学领域取得进展