科技强企!人和未来领跑国内基因组数据计算加速软件市场

旅游 人和未来 2022-05-07 17:33

原标题:科技强企!人和未来领跑国内基因组数据计算加速软件市场

作为数字经济时代的核心生产力,大数据计算加速已经成为促进多个行业发展的重要基础设施。随着测序技术不断升级,测序通量越来越高,测序成本直线下降……基因组数据正以超摩尔定律增长。如何将基因测序的原始数据读取出来、数字化并对其进行相应的解读?是制约基因行业快速发展的瓶颈,也是激励行业科研人员持续进步、不断创新的契机。

基因组数据有多“大”?

从生物学上讲,基因组数据的大小一般与其复杂性、等级高低相关。哺乳类动物的基因组数据大于鸟类,鸟类大于真菌,原核生物大于病毒。植物由于是多倍体,而成为生物界最特殊的存在。它的基因组测序数据量比较大,部分植物的基因组学数据甚至要大于人类。例如:单个人类的基因组数据大约为3Gb;猪的全基因组和人的基因组大小接近,约为2.51Gb;小麦为异源多倍体基因组,数据大小约17 Gb,是人类的5~6倍。全球有近70亿人口,这会产生多大的数据量,可想而知。

当前,目前已经普及商用的高通量基因测序仪单台每天产生的测序数据可高达6TB,每年各测序仪新增下机的数据则高达数百PB。有了这些大数据,我们就能够从分子水平上了解物种生长、发育、正常生理活动的本质和基础,还能够通过对比健康与患病物种基因组学数据的差异找到各种疾病在分子水平的病因,从而针对性地进行新药研发和改良育种。相应的,数据量越大分析难度越高,数据解读的效率远远跟不上数据的产出速度,为基因行业甚至是整个生命科学的高质量发展带来了极大的挑战。

基因组数据分析有多“难”?

随着测序技术的发展,测序价格越来越低。人类全基因组测序的成本已由2007年时的100万美元降低到1000美元以下。与此同时,大量测序数据的积累让除测序外的数据研究成本增高,后续数据存储、传输、计算、应用对各生物院校、实验室及医疗机构的计算机配置提出了更高的要求。动辄几十万、几百万甚至上千万的硬件投入,让众多科研单位不堪重负。

而基因组数据分析的“难”,不仅仅难在基础设施的采购成本过高,也难在数据处理过程的繁杂。以当前的技术条件,基因数据的分析过程包括:1.样本上机测序,即将化学信号转换为数字信号;2.原始数据下机,将数据记录成响应的数据文本格式后,对其进行解读、对比、分析,以此来知道样本所对应的物种的表型是什么?为什么可以抗病虫害等。同时,在人类中知道患者从基因层面来解释为何会患病?患的什么病?怎么治疗和改善?3.最终形成数据交付报告。根据应用场景的不同,这一过程需要用到生物学、医学、农学、统计学、计算机学等专业知识,涉及到的分析方法、软件、算法非常多。

基于GTX.CAT的基因组数据分析解决方案

GTX.CAT( Computational Acceleration Toolkits)是人和未来实验室(GTX LAB)高性能基因组计算加速方案。GTX.CAT是一组计算高效、性能卓越、与工业标准高度一致的生物信息二级分析软件工具集,集成了DNA序列比对、BAM预处理、BAM数据质控、变异检测等功能模块,完全遵循行业接受度最高的BWA-GATK最佳实践流程,提供了一套基因组数据分析全流程的完整解决方案。

GTX.CAT为纯软件解决方案,支持本地部署、云端部署及多节点部署。和需依赖新增异构计算硬件进行加速的产品相比,GTX.CAT无须确认每台服务器有空余PCIE插槽,同时也不需要每台服务器单独作部署。可轻松实现在集群上进行部署,能大大节省计算成本,提高计算效率,单位投入硬件成本获得高性价比加速效果。

GTX.CAT支持胚系突变检测、肿瘤体细胞突变检测等数据的高速比对分析,拥有丰富的质控模块,支持大规模群体联合分型,与BWA-GATK标准流程一致性达到99.7%以上,结果精准可靠。

显示全文
返回首页 分享到微信 分享到微博

相关推荐