研究案例
对于一个公司而言,把复杂数据转变成为战略资产的能力已经变得尤为重要。然而,目前的人力市场中从事大数据分析方面的人材却十分短缺。因此许多公司都面临着,大数据专业人材资源匮乏的问题。一位量子力学研究人员,同时也是Maple的忠实用户,Marvin Weinstein对大数据处理的意义概括为“当我们不知道针是什么,也不知道海里是否有针的时候,如何在复杂的多维世界中“大海捞针”呢?
动态量子聚类技术(Dynamic Quantum Clustering,DQC)通过使用DQC专有的Maple库和Maple强大的可视化工具,创建数据密度图来实现这一壮举。DQC分析的结果是一个Maple动图,可视化的记录了屏幕背后复杂的计算过程。Marvin说,Maple动图一直是DQC成功的关键,因为它们不需要使用复杂的数学公式就能揭示答案。“这些动图通过点阵让人们直观的从时间和空间上理解我们的研究成果,从而帮助我们售卖产品。”
凭借Maple的建模和自定义功能,Marvin能够在一周内建模并运行DQC。Marvin承认说,“我只做可以避免让我(手动)做的事情。”通过使用Maple中的DQC编译库,Quantum Insights公司就可以拥有一个强大的图形用户界面,而不必从头开始构建界面。Marvin认为,不必要的编码和分析往往会浪费很多时间,他利用Maple的许多内置功能来节省时间,从而推动他的研究。
DQC的核心是一种算法,这种算法将无监督聚类问题映射到量子力学领域中。它使用量子进化理论来识别相关信息,并通过Maple动图来揭示细节过程。Marvin称,DQC的目的是“让数据自己说话”。整个技术流程中不做任何假设或猜测、不清理数据、不需要专业的知识,这使得DQC是一种比现有方法更快、更廉价并且更有效的数据探索方法。
图1:使用DQC算法将原始数据转换为简化的簇和细丝
DQC技术的主要成就之一是鉴定出了几种生物标志物,并且它们与多种癌症密切相关。TCGA(癌症基因组图谱)分析方法被选为癌症研究的第一步,因为癌症是每个人都明白的大问题。人们期望能有一个更好的聚类方法,能让来自不同肿瘤样本的mRNA,更好地将肿瘤在生物学上相关群组中分类。DQC这项研究确定了73000个mRNA样本中的48个表达,这些表达定义了5种不同的癌症类型。这项发表在《自然科学》期刊上的分析表明,仅凭分子信息就能够准确诊断癌症类型,并进一步揭示了重要的亚型癌症细胞,超出了病理学家目前所能达到的水平。DQC对mRNA表达模式变化的高度敏感,是精确医学的“圣杯”,因为它能准确告诉我们哪些肿瘤可能对药物产生反应,哪些肿瘤不会产生反应。此外,分析表明,DQC显著优于tSNE-HDBScan,后者是目前用于癌症数据分析的标准聚类方法。
图2:DQC算法创建三维可视化数据,将数据聚类成更有意义的子集
现在,Marvin正在进行药物基因组学研究,为癌症和其他疾病提供更好的诊断和治疗方法。他的公司Quantum Insights正致力于制定有效的、基于数据的战略方案。虽然Quantum Insight最初关注的是癌症,但其目标是将这项研究扩展到其他医疗保健应用领域。Marvin相信DQC技术将会在任何需要数据分析的领域内,有助于挽救生命。他研究的其他成功案例包括,对阿尔茨海默氏症数据分析、违禁核材料检测、斯隆数字巡天(Sloan Digital Sky Survey)数据分析以及其他需要利用大量数据领域。