使用ScraperWiki在云中进行数据科学

如果您精通头脑,精通编程和讲故事,并且精通设计,那么与进入数据科学相比,您做得更好。这是技术上的新大事;高度流行和高薪,数据科学家受到世界上一些大型公司的追捧。

ScraperWiki是一家长期与数据科学领域相关的公司。在过去的几年中,这家位于利物浦的初创公司为编码人员提供了一个平台,供他们编写工具以获取数据,清理数据并在云中对其进行分析。

随着最近的更新以及对数据的需求不断增长企业中的科学家,值得一看ScraperWiki。

全面披露:我去年夏天是ScraperWiki的一名实习生。

做什么ScraperWiki可以吗?

ScraperWiki将自己定位为获取,清理和分析数据的场所,并且可以实现上述所有功能。以其最简单的形式,它使您–用户–可以在其中编写从源中检索数据的代码,将其转换为易于分析的格式的工具以及可以保存以供以后可视化的工具–您可以在其中

它还带有许多预先构建的工具,这些工具可以自动执行重复任务,包括从PDF中获取数据,而这些都是很难解码的。这是Twitter搜索和抓取实用程序的补充。您不需要任何软件开发经验即可使用它们。

成本

如前所述,ScraperWiki包含免费增值定价模式,并提供具有多层的服务。那些刚开始使用数据科学或需求有限的人可以使用免费服务。这样就为您提供了三个数据集-存储数据和代码的地方。

那些打算编写多个刮板或希望进行大量数据分析的人可以为高级帐户分担一些现金。这些起价为每月9美元,并提供10个数据集。如果这还不够的话,您可以随时升级到其最高层,该层包含100个数据集,每月费用为29美元。

编码

程序员通常在如何操作方面非常特别他们编码。有些人喜欢脚本语言而不是编译语言。与集成开发环境(IDE)相比,有些人更喜欢文本编辑器的精简体验。 ScraperWiki意识到了这一点,并在编写代码方面为用户提供了很多选择。

如果您愿意,可以在浏览器中编写代码。正如您从任何专业级,基于Web的开发工具中所期望的那样,它具有任何程序员都认为必不可少的功能,例如语法突出显示。

提供。其中包括Python,它为许多流行的网站(如Living Social)提供支持;

。此外,您还可以使用SSH,Git和您喜欢使用的任何文本编辑器从命令行编写代码。是的,你看的没错。可以通过插件和编辑配置扩展的SSH。被Vim吓倒的人可以使用Nano,这是一个轻量级的命令行文本编辑器。

安装的库应该足以编写用于检索数据和处理数据的工具。如果您需要一些更晦涩的内容,则始终可以从命令行创建virtualenv。如您所见,为开发人员提供了极大的灵活性。

数据可视化

因此,您已经拥有了数据。您已将其标准化。您已经清理了。您已经分析过了。现在是时候进行可视化显示,并向世界展示您所学的内容。

ScraperWiki允许开发人员使用由熟悉的HTML,CSS和JavaScript三连冠构造的网页显示数据。此外,还提供了现成的Bootstrap组件。

有许多预制的可视化效果,包括将可视化数据绘制在地图上并在查找结果中查找趋势的可视化效果。要使用这些文件,您需要确保数据以文件名“ scraperwiki.sqlite"存储为SQLite文件。然后,您只需添加您感兴趣的可视化内容。简单,对吗?

结论

ScraperWiki为想要进行一些数据分析而又不占用开发环境的开发人员提供了很多他们的方式,同时具有灵活性,甚至可以满足最苛刻的用户。但是你觉得呢?在下面的评论中让我知道。
照片来源:Rocket Science(丹·布朗)

标签: 云计算 网络分析