标签:
云对每个人来说都是又大、又白、又轻柔的梦境。当有人说他们的大数据战略是“把悉数投入云端”时,你无法断定他们能否是一个有远见的人,或仅仅是重复一个教授在一次职业会议上通知他们的事。
大数据和云典范之间实践的重复十分广泛,你能够声称你正在一个内部布置的Hadoop、NoSQL、或公司数据仓库环境下处置根据云的大数据。请记住云被广泛理解为包含“私有”布置以弥补或替代公共云、SaaS、和多租户保管环境。
可是若是你把云的实践界说约束于公共订货效劳内,你就能找到疑问的中心:辨认哪些大数据运用相对于内部布置更适合公共云/SaaS 布置(比方那些触及提早优化的硬件设备或虚拟效劳器集群的运用)。
换句话说:你什么时候能够经过引入一个外部效劳供货商为你办理它们,然后进步大数据的可扩展性、灵活性、功能、本钱效益、可靠性、以及可办理性?以下是一些清晰的大数据在公共云中的运用实例。
现已在云中保管的公司运用程序:若是和许多公司相同——尤其是中小型公司——你运用了一个外部效劳供货商供给的根据云的运用程序,许多你的源买卖数据现已被置于公共云之上。若是你在这个云渠道上有更深化的历史数据,那么它能够现已堆集至大数据级。若是外部效劳供货商或它的合作伙伴之一供给了一个增值的剖析效劳——如客户丢失剖析、推广优化、或客户数据的异地备份和归档——那么运用这些效劳会比将这些数据置于内部来得有意义。
需求相当大的预处置才能的大容量外部数据源:例如,若是你计划经过监测交际媒体数据的聚合输入来剖析客户的情感,内部的效劳器、存储、或带宽容量能够无法极好地为你完结这项使命。这是一个显着的关于运用程序的比方,在这里你会期望运用一个根据公共云的、大数据驱动的效劳所供给的交际媒体过滤效劳解决疑问。
超越你内部布置的大数据处置才能的战略型运用程序:若是你现已有一个专门为某个运用程序内部布置的大数据渠道(比方高容量非布局化数据源ETL专用的Hadoop集群),那么运用一个公共云来处置当时渠道所不适用的、或是按需效劳会更强健或合算的新的运用程序(例如多渠道推广、交际媒体剖析、地舆空间剖析、可查询归档、弹性数据沙盒技能)能够会更行得通。事实上,若是你需求赶快取得PB级规划的、流媒体的、多布局的大数据处置才能,那么一个公共云商品能够是仅有可行的挑选。
十分大但仅仅时间短存在的沙盒的弹性供给:若是你有一个短期周转的短期数据科学项目,而这个项目需求比惯常大一个数量级的探究型数据集市(又叫沙盒),那么云能够是你仅有可行或能够付出的挑选。你能够很快在项目时间运作根据云的存储和处置才能,然后当项目完毕时又能够很快的撤销之前装备的全部。我称之为“泡沫集市”布置模型,它是为云量身定制的。
若是你现已有过这其间任一的阅历,那么根据云的大数据的战略疑问就不是你该从何开端。跟着根据云的大数据效劳逐步老练以及性价比(包含功能、可扩展性、灵活性和可办理性)不断进步,这个疑问将会是你该在哪完毕。到本个十年的晚期,跟着越来越多的运用程序和数据迁移到公共云上,树立和运作你个人的大数据布置的主意好像好像如今你想描绘个人的效劳器通常不切实践。
|