能够简化数据科学的6种工具
副标题[/!--empirenews.page--]
新的工具捆绑了数据清理,拖放式编程以及云计算,可以帮助任何熟悉电子表格的人充分利用数据科学的力量。 数据科学可能从来都不是那么容易的,但它正变得越来越容易深入。像“机器学习”、“回归”和“降维”这样的术语虽然依然和以往一样难以理解,但是人们正普遍希望能够从这些技术中获得好处,这导致产生了一些很好的工具,它们可以方便的为数据创建生产线,为我们想要寻找的答案提供支持。 这个秘密就类似于制造业的革命。正如标准化的部件帮助启动了工业革命一样,各种工具供应商的数据科学家已经开发了一系列非常强大、拥有广泛适应性的分析例程。他们标准化了接口,使得使用这些可互换的数据科学工具来构建自定义管道变得更加简单了。 数据科学家过去常常需要绞尽脑汁,因为80%的工作都是通过用Python,Java或他们喜欢的语言来制作自定义例程并准备分析数据的,所以R或SASS中那些复杂的统计工具都可以完成它们的工作。而现在市场上充斥着各种复杂的工具,它们将数百个经过良好设计的例程捆绑到了一个包中,以便为你完成大量重复且令人不快的数据清理和标准化工作。 这些新工具也为熟悉电子表格的人提供了机会。它们不会让所有的准备工作都消失,但它们会让事情变得更加容易。无需对数据格式大惊小怪,因为这些工具足够聪明,可以做正确的事情。通常你只要打开文件就可以开始学习了。 这些工具还为云计算节省了大量成本。过去,数据科学家往往需要更强大的计算机来处理大数据集。而现在我们可以在云中租用更大、更快的机器,在提高处理速度的同时在每月报表完成时将硬件返回到池中,从而节省成本。 对于只需要训练算法来预测明年趋势的核心数据科学家和数据分析师来说,这些工具都是一个福音。所有用户都可以享受使用复杂工具来正确处理数据的乐趣。不过,标准化也为全新的研究团队深入研究数据科学提供了可能。现在,你不需要掌握R语言或Python编程就可以开始了。 当然,我们仍然需要深入思考统计学和机器学习。这些工具虽然还不能回答关于什么情况下使用神经网络或聚类算法能够获得更好结果的策略性问题,但是它们可以使获取所有数据变得简单,并快速尝试这两种方法。当每个人能够更容易的参与工业革命时,正如标准化消除了长期学徒和熟练工匠的需求一样,这些数据工具也释放出了越来越多的企业人员转向复杂的数据分析以寻求进一步指导的潜力。 以下是有助于使数据科学实现民主化的六种工具。 Alteryx Alteryx平台的核心是它的设计工具,一个可视化编程IDE,允许用户拖放图标,而不是输入文本程序。Alteryx平台的目标用户既包括数据科学家,也包括了普通的“公民用户”,很好的迎合了那些不想在清理数据和修改数据以进行分析的细节方面遇到麻烦的人。该平台试图通过使用其可视化的编程模型来简化准备工作以“颠覆数据准备中的80/20法则”。你只要将图标拖放到数据管道中的正确位置,它就可以应用许多标准化的任务,比如按客户编号来实现分组或连接两个文件。 Alteryx还提供了许多用于分析数据和绘图推断的预定义预测模型。这些看起来像是用于数据处理的图标,实际上都是相应的R或Python程序,Alteryx为你省去了处理它们的复杂性和基于文本编码的麻烦。在设计工具中,数据会自己沿着图标之间的直线流动,你不需要担心逗号、方括号或其他的编码问题。 现在,Alteryx平台正朝着一个更多的以服务器驱动的模式发展,在这个模型中,你构建的代码将驻留在一个可以扩展到更大数据集的服务器上。如果你的数据需要增强,Alteryx也已经从Dun & Bradstreet或DigitalGlob等公司获得了商业数据集授权,可以帮你自动填写表格。 当你在个人PC上完成模型的设计时,Alteryx也提供了将模型发布到中央服务器的基础设施,然后将图形化摘要分发给业务中的每一个人。Promote工具会负责将日常生产数据分发给企业中合适的人员,以便他们能够使用预测建模的结果。 这款设计工具的标价是每位用户每年5195美元,但是如果想要使用附加的功能,比如包含人口统计数据或空间数据的数据集,则可能会增加33,800美元。中央服务器的起价为58,500美元,此外,Promote还提供了用于协作和连接的额外功能。 Domino Domino也是围绕实验室开始的一个可视化集成开发环境(IDE),能够通过将图标和管道连接在一起来构建模型。不同之处在于Domino也对其他工具开放。所有主要的和不太重要的基于Web的IDE都受到了支持,因为系统设计为所有这些IDE都进行了开放。大多数人可能会使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。 Domino大部分的功能都致力于将数据转换为模型所需的所有基础设施。Domino的后端会仔细跟踪各种版本的数据以及在此过程中的所有修订和实验。所有这些变更都会被无情地保存并链接到结果当中,以确保你可以随时重新运行和复制结果。它非常强调存储查询的准确再现,以便其他人可以在稍后发现并重用该工作。 与单一平台相比,Domino更像是一个基于Web的云网络操作系统。该平台的开放性依赖于一种相对标准的机制,用于将数据存储在文件中并保持修订的一致性。幸运的是,磁盘存储比以往任何时候都要更加便宜。 Domino的主要卖点之一是它的云集成。你的实验将运行在与他人共享的强大机器池中。如果你碰巧希望将自己的代码部署到堆栈中,那么底层体系结构将完全围绕Docker来进行封装和构建。你可以为你的作业配置最佳大小,并从池中借用硬件,这对于数据科学工作来说是一个很好的解决方案,这些工作通常是断断续续的,并且在代码准备好时以块的形式进行分派。这是一个很好的解决方案,特别适用于那些在每周、每月或每季度数据准备就绪时才会进行批量处理大部分计算的情况。 Domino的定价是“根据Domino所运行的位置(我们的托管基础设施、你的私有云或内部环境)而定的年度订阅”。云选项将根据所消耗的资源对你进行收费。 RapidMiner (编辑:鹰潭站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |