Science：生物学中的云计算和大数据

云资讯 2014-03-03 08:53:21 转载来源: 网络整理/侵权必删

诺奖得主、生物化学家弗雷德里克·桑格（Fredrick Sanger ）与苹果公司创始人史蒂夫·乔布斯（Steven Jobs）有什么联系？ 1977 年 2 月，Fredrick Sanger 与他的同事发表了第一个生物体的完整基因组序列，即噬菌体 phiX174 的 5375 个核苷酸。从那之后，人们就清楚地意识到，随着科学家测出更多复杂物种，全基因组的研究将会变得繁琐冗长

Science：当生物学遇上云计算

诺奖得主、生物化学家弗雷德里克·桑格（Fredrick Sanger ）与苹果公司创始人史蒂夫·乔布斯（Steven Jobs）有什么联系？

1977 年 2 月，Fredrick Sanger 与他的同事发表了第一个生物体的完整基因组序列，即噬菌体 phiX174 的 5375 个核苷酸。从那之后，人们就清楚地意识到，随着科学家测出更多复杂物种，全基因组的研究将会变得繁琐冗长。幸好，发展中的基因组学很快就有了解决方案。仅仅 4 个月之后，加州库比提诺一家新成立的小公司就开始为电子发烧友们出售 Apple II。科学家也迅速发现，这套相对划算的新计算系统是存储和分析基因数据的理想系统。

如今，分子生物学根本离不开计算机的帮助。当高度自动化的测序仪每天产生数百万兆字节的新数据时，研究人员仍然能够常规地搜寻巨大的在线数据库，寻找基因间的新联系。事实上，“生物信息学”这个全新的科学学科已悄然兴起，用于分类、研究不断增长的生物学新信息。

很多研究机构都建立了专门的计算中心，处理过多的数据。然而，近期生物信息学专家开始借用计算机行业的另一套策略，避免更多的花费，那就是云计算（或分布式计算）。基于云计算的系统不同于本地化的存储和分析数据，它将强度很大的工作程序化地按需分派到成百上千的远程服务器上。早期采用云计算基因组学的科研人员不得不自己编写软件，但现如今计算机专家和服务器公司开始设计更加人性化的界面，进一步推广这一技术。

计算无极限

对于云计算，最显见的争论就是新测序数据的绝对量。“我们机构不大，每天能产生一百万兆字节。”纽约冷泉港实验室定量生物学助理教授 Michael Schatz 说。这足以在仅仅两到三天内填满一台台式机的整个硬盘。

Schultz解释道，从全球来看， DNA 测序仪每年能产生大约150亿兆（PB）字节的数据（这一数据仍在迅速增长）；而 1PB 就是 1000 个 TB。要想把 150 亿兆字节的数据刻录到大容量 DVD 中，刻出来的光盘摞起来能达到2.5英里高，而这仅仅是原始数据。显微图片等表型信息的实验数据甚至会成倍增加存储的问题。

幸运的是，有些公司资金雄厚、计算经验丰富，已经能够解决这一规模的数据问题。例如，谷歌公司会为用户收集和处理几百亿兆字节的日程信息。“他们一天处理的数据超出了全世界一年产生的（序列）数据量。” Schatz 说。

为了达到这一要求，谷歌利用云计算技术，将工作分派到世界各地的成百上千台服务器“云”中。研究人员可以通过诸如亚马逊公司EC2系统之类的分布式计算系统，取得类似廉价、便捷的服务，任何人都可以租用类似的大型服务器“云”。

然而，在匆忙选择云计算之前，研究者应该先评估他们的需求和本地资源。有的科学家不需要与远方合作者共享数据的话，就可以采用自己机构的计算中心，服务比远程云系统更加快捷低廉。 Schatz 建议大家要跟着经验走：“如果你的数据有几亿兆之多，又要与合作者共享，那么还是云计算平台最合适。”

有的研究机构没有专门的计算中心，因此也想使用云计算。“传统上来讲，你会去建设一个大数据中心，买大量的设备。但是这不仅造价高昂，而且大半时间，机器都在空转。因此云计算的好处在于，你只是支付了使用时的服务费，而剩下的时间你就不怎么破费了。”英国 Eagle Genomics 公司首席商务官 Richard Holland 说。

另一种“云图”

除了有权使用大量的远程服务器外，云计算的一个典型服务就是提供基础软件。很多云计算产业现在依赖于免费、开源的工具，例如应用颇广的 Apache 服务器软件和 Apache 的 Hadoop 插件。前者主要负责每台服务器和网络间的基础通信，而后者则用于执行复杂的计算任务，并在成千上万台服务器间进行有效分配。

网络公司最初研发出这种架构，满足自身的需求—— Hadoop 处理着世界上所有 Facebook 的照片和 Yahoo! 的搜索。然而在 2009 年， Schatz 和他的同事开始在基因组数据中使用它。自此以后， Hadoop 成为了云计算中生物信息学的首选。“在生命科学中，一次需要分析几亿兆或几十亿兆数据已经成了事实标准。” Schatz 说。

Hadoop 的一大优点就在于操作的简便性，至少是对熟悉计算机编程的科学家来说。“只要懂点 Java 编程就足以在非常大的集群中运行大规模的分析任务，这是用 Hadoop 的一大优势。”德国萨尔布吕肯萨尔伦大学信息系统学教授 Jens Dittrich 说。 Hadoop 不用记录哪个处理器正在进行哪项任务，程序员可以像单机工作一样去写算法。而且， Hadoop 可以处理底层的复杂操作，将程序分派给上千台服务器。

总体来说，云计算特别是 Hadoop 确实存在一些缺陷。为了在云计算中分析数据，研究者首先必须将数据放进去。即使网速很快，几百万兆的数据上传也需要数个小时。由于 Hadoop 缺乏很多数据库中使用的高级索引系统，它对某些类型的分析也效率颇低。有的索引架构较好，程序就可以鉴定数据的特定片段，这对于特定的查询是很有必要的。而有的系统没有索引，就必须去搜寻整个数据集，往往花费的时间更长。

Dittrich 和他的同事最近开始着手处理这两个问题。这个团队新研发的 Hadoop 侵入式索引系统能在数据上传到云时就创建出多个数据集的索引，通常被浪费掉的计算时间可以用来建立一套优化后续分析的有效工具。这些索引可以加速处理过程，有的研究问题甚至可以加速上百倍。“坦白地说，这并不是最终的答案，是取决于分析任务的……但对于大部分任务来说，我们已经做得非常好了。” Dittrich 说。

即使新技术让 Hadoop 如虎添翼，这一领域的专家仍然强调它永远也不会成为通用的解决方案。 Dittrich 和 Schatz 都表明，以云计算为基础的系统擅长回答一些生物学问题，但其他领域则不然。比对测序读取、鉴定基因变异和通过RNA表达模式进行归类都是云计算解决方案的合格目标，因为它们都需要从大数据集中搜寻个体片段的信息。另一方面，代谢途径建模则要在小数据集上进行复杂的计算，因此本地计算系统反而会更加适合。

其他人的大数据

对于不习惯自己编写计算机程序的生物学家来说， Hadoop 就不怎么有用了。有些公司已经面向这些科学家，开始提供云计算数据分析用户友好界面。

“云有各种不同的类型。”Eagle 公司的 Holland 说。从最基础的服务器租赁协议（也可称为“基础设施即服务”），到全面架构的应用服务或者“软件即服务”（software as a service， SaaS ），一应俱全。 SaaS 中，服务公司提供云基础设施、数据存储和生物信息软件。很多情况下，研究者可以将他们的测序结果直接送至公司，然后在指向-点击式网络环境中进行普通类型的分析。现在，加州圣地亚哥的Illumina等测序公司开始提供自己的 SaaS 系统，大量新兴公司也开始探索这一新市场。

每个服务公司都有自己的方式。例如，EagleGenomics 公司将各个预建的程序连接起来，为每个用户量身定做软件。“人们通常找到我们说，‘我们需要建立一个SNP预测或变异定位的分析流程’，” Holland 说，接下来，公司会利用已经发表的算法并“将它们整合在一起，形成一个……能够回答这些问题的工作流程。”研究者然后就可以利用这一定制的流程在云服务器上分析他们的数据。更有经验的用户也可以自己探究这些计算机代码，或者进行修改。

如果有些研究人员想要找到更便捷的云入口，那么有些公司现在就提供通用软件，解决常规的问题。“生物学家在我们服务器中可以使用很多功能，只需他们在网络浏览器中登录并点击按钮。”加州山景城 SaaS 提供商， DNAnexus 公司的首席执行官和共同创始人Andreas Sundquist 说。

尽管 SaaS 公司经常研发出自己的专利代码和用户界面，科学家在购买云服务时仍应该咨询底层的算法。“研究人员实际上是一伙保守派，他们喜欢那些已经发表、测试同行评议过和人们广泛理解的算法，不倾向于在重要的数据上试验新的技术。” Holland 说。

幸运的是，大多数生物信息新公司都愿意去讨论他们的系统。“目前所有整合到Spiral的算法都是经过同行评议的，我们非常理解，人们想用开源。”华盛顿州西雅图Spiral Genetics公司首席执行官Adina Mangubat说。为了便于使用，Spiral将自己的用户界面和数据处理层放在发表的算法中。其他该领域的公司随即附和，大多数 SaaS 租用方允许研究者直接接触底层的软件代码。

云覆盖

云计算仍然是个相对新颖的事物，有些领域的研究者仍然对它持怀疑态度，尤其是药物学和生物医学的科学家。他们掌握着敏感的专利数据和病人信息。“人们肯定都会觉得，相比在云环境中，本地集群更容易控制。”Mangubat说。

这个顾虑其实是没什么道理的。研究表明，近期美国发生的医学安全事件中，四分之三是由于临床医生丢失了笔记本电脑或便携式存储设备。“如果他们使用的是云……偷一个笔记本电脑就不是大问题了，因为你根本不可能一开始就把病人的数据放在笔记本里。” Sundquist 说。

事实上，随着银行、政府和电子商务公司都已经把自己的数据导入云存储，服务器设备的安全体系已经变得非常完备。有些以医学研究市场为目标的公司也非常关注数据安全法律。“我们的一大基本原则就是确保我们拥有临床和诊断操作中所必需的企业级安全控制及各个特性。” Sundquist 说。

就算科学家租用的是裸云基础设施，而且自己写算法，他们也会希望安全性的保障。Mangubat指出，流行的亚马逊公司EC2云租赁服务就遵守医学数据的物理安全性，因此只有研究者自己的软件是唯一的潜在弱点。

模糊的存储

另一个对云计算的共同担忧是数据归档，这也是研究人员在签署服务器租约前应该问的。如果 SaaS 公司倒闭，或者研究人员决定换成不同的系统，那么租约上应该明确给出提取数据的路径。“我们提供的服务允许将所有的东西都刻在光盘上并且把一大摞硬盘寄给他们，你不是‘嫁给’云一辈子。”Mangubat说。

然而对于通用的存储来说，云可以提供意外事故和本地灾害的保护，因为云服务一般会在多个地点复制数据。“可能其中一个数据中心被流星击中，另一个中心又有火山爆发，但是你还是能够得到另一个数据备份。” Sundquist 解释说。

云存储也能帮助解决数字信息归档中的问题。例如，几十年前存储在标准计算机软盘上的数据往往不能读取，因为这种磁盘驱动器和操作系统已经淘汰了。在云计算存储中，工作人员不断将数据转移到新媒介中，而版本控制系统能够保留旧版本的软件。以后，研究者应该能够恢复这些数据及用于分析的工具。

然而不是所有人都满意这样的解决方案。“只要能够覆盖就不是档案。” Dittrich 说。为了防止珍贵的序列数据被计算机程序和人为错误给毁了，他建议在另外一种媒介上存储额外的备份。“做备份的一个好办法就是使用只能写入一次的媒介，不可删改的DVD就是很好的办法，你只能刻录一次，永远不能再覆盖。”他说。

然而随着几十亿兆的数据继续堆积，一些专家建言，基因组数据的最终存储系统可能就是 DNA 本身，完成计算机与生物之间的连接。这一观点认为，以后重新测序一个存储的生物样本可能比从数据归档中获取原始序列数据更便宜也更快。“当前， DNA 测序需要几天的时间，造价也很高昂，但展望未来……如果测序或多或少只是一瞬间的事，那就可能会成为数据存储媒介。” Schatz 说。

原始出处：

Alan Dove. Biology Watches the Cloud. Science, 14 June 2013; DOI: 10.1126/science.opms.p1300077

编辑：admin

标签: Science 生物学中的云计算数据