什么是tidyverse?

tidyverse是一个连贯的数据包操作系统,用于数据操作,探索和可视化,具有共同的设计理念。这些主要是由Hadley Wickham自己开发的,但现在正由几个贡献者扩展。Tidyverse软件包旨在通过引导他们完成促进沟通的工作流程,使统计人员和数据科学家的工作效率更高,从而使统计人员和数据科学家更具生产力。从根本上说,tidyverse是关于使工作流成为可能的工具之间的联系。

整齐的情况也在进行中。 可以在tidyverse.org找到当前的开发状态。单击本网站上每个包的图标将为您提供每个包的详细文档。下图说明了规范数据科学工作流程,并显示了各个包的适用性。

image.png

如果您对R有一些经验,那么你应该能够直接进入在线文档并找到解决方法。如果你是R的新手,也可能是数据科学的新手,那么除了通过Hadley Wickham和Garrett Grolemund 撰写的R for Data Science这本书之外,你做得更好。

优点

整合的优势包括一致的功能,工作流程覆盖,数据科学教育的途径,数据科学工具开发的简约方法,以及提高生产力的可能性。

一致性

tidyverse希望在多个层面上保持一致性。“微观”级别一致性的示例包括具有变量名称滑动的约定snake_case,并且整数函数的签名遵循规则模式。(第一个形式参数始终是提供函数输入的数据框。)更高级别的一致性包括整洁数据的概念 - 每个行都是观察的数据框,每列包含单个变量的值 - 以及管道操作员的方式,%>%引导整洁的操作流程。在封面下,有更多层次的结构有助于追求一致性,包括包装组织,测试程序,编码风格等的统一标准。

范围

面显示的工作流程,包括与各个步骤相关联的tidyverse包,或更多通常使用以下标志性的tidyverse图表,在tidyverse的开发之前和推动。


image.png

它是规范数据分析工作流程的抽象,始终指导统计人员,但现在将数据科学作为一个地图,以组织,简化,自动化和优化所涉及的各种流程。tidyverse包与所有流程相关联这一事实表明它包含足够的基本构建块,以支持各种数据源和分析目标的整个端到端工作流。此外,相对最近增加的purrr一揽子计划扩展了tidyverse的范围,以支持创建新的数据科学工具。

资源

以下是您可能会发现有助于学习和掌握tidyverse的一些资源。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 前言:人生若只如初见 断断续续的,我和R语言已经结缘快有四年了。四年来,从懵懵懂懂到可以直面自己的不足,由当初的好...
    周运来就是我阅读 7,785评论 5 28
  • 很多人推荐《R语言实战》这本书来入门R,当然,这本书非常不错,我也是通过这本书开始接触的R。这种入门的学习路径属于...
    亮亮就是亮阅读 9,176评论 1 27
  • 翻译:黄小伟,资深数据从业者。目前就职杭州有赞数据分析团队,欢迎加入! 简历邮箱:huangxiaowei@you...
    黄小伟Yeah阅读 3,754评论 0 0
  • 趁着今天有时间,想着是不是该记录点东西了,没错是该记录一下了。今天的重头戏是tidyr package。Tidy ...
    chensole阅读 5,145评论 0 0
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 11,492评论 0 4

友情链接更多精彩内容