R语言教程

  • 北京大学R语言教程(李东风)第32章: R相关与回归

    32 R相关与回归 本章所用例子数据下载: 32.1 相关分析 考虑连续型随机变量之间的关系。相关系数定义为 ρ(X,Y)=E[(X−EX)(Y−EY)]Var(X)Var(Y)‾‾‾‾‾‾‾‾‾‾‾‾‾√ 又称Pearson相关系数。 −1≤ρ≤1。ρ接近于+1表示X和Y有正向的相关; ρ接近于−1表示X和Y有负向的相关。 相…

    2023年11月22日
    9600
  • 北京大学R语言教程(李东风)第31章: 使用infer包进行统计推断

    R的infer扩展包提供了与tidyverse系统习惯做法一致的进行假设检验的方法。 在进行理论推断时, 主要使用随机模拟方法进行计算, 也支持基于理论分布的方法。 这个包的当前版本(1.2.9001)还有一些错误, 不能用于较正式的研究问题。 以数据框(tibble)为输入, 用动词specify指定针对的变量, 用hypothesis指定假设检验(包括置…

    2023年11月21日
    13700
  • 北京大学R语言教程(李东风)第30章: R初等统计分析

    这一部分讲授如何用R进行统计分析, 包括基本概括统计和探索性数据分析, 置信区间和假设检验, 回归分析与各种回归方法, 广义线性模型, 非线性回归与平滑, 判别树和回归树, 等等。 主要参考书: 30.1 概率分布 R中与xxx分布有关的函数包括: dxxx(x)函数可以加选项log=TRUE, 用来计算\ln p(x), 这在计算对数似然函数时有…

    2023年11月19日
    10900
  • 北京大学R语言教程(李东风)第29章: 探索性数据分析

    探索性数据分析(Exploratory data analysis, EDA)是在进行推断性统计建模之前, 对数据的分布、变量之间的关系、观测之间的聚集等特性用汇总统计、作图等方法进行探索, 这是必不可少的步骤。 有时我们不知道数据告诉我们什么信息, 不知道要提什么问题, 这就必须用EDA来获得对数据的洞察, 提示我们随后要进行的研究。 即使一开始研究目标就…

    2023年11月18日
    16800
  • 北京大学R语言教程(李东风)第28章: ggplot的各种图形

    28.1 介绍 ggplot2包提供了许多种图形, 其作用可以大致地分为: 下面按照其作用分别进行介绍。 主要参考: 28.2 表现数量 28.2.1 条形图 设有若干个类, 每个类有一个数量属性值。 经常用条形图表现数量。 28.2.1.1 简单的条形图 例如, 有25个共同基金, 分为三个类别, 各类别的频数为: …

    2023年11月17日
    19800
  • 北京大学R语言教程(李东风)第27章: ggplot作图入门

    介绍 Hadley Wickem的ggplot2包是R的一个作图用的扩展包,它实现了“图形的语法”,将一个作图任务分解为若干个子任务,只要完成各个子任务就可以完成作图。在作常用的图形时,只需要两个步骤:首先将图形所展现的数据输入到ggplot()函数中,然后调用某个geom_xxx()函数,指定图形类型,如散点图、曲线图、盒形图等。 如果需要进一步控制图形细…

    2023年11月16日
    20900
  • 北京大学R语言教程(李东风)第26章: 基本R绘图

    R语言的前身是S语言,S语言的设计目的就是交互式数据分析、绘图。所以绘图是R的重要功能。 R有最初的基本绘图,这是从S语言继承过来的,还有一些功能更易用、更强大的绘图系统,如lattice、ggplot2。基本绘图使用简单,灵活性强,但是为了做出满意的图形需要比较多的调整。这里先讲解R语言的基本绘图功能。 R的基本绘图功能有两类图形函数:高级图形函数, 直接…

    2023年11月15日
    14100
  • 北京大学R语言教程(李东风)第25章: 函数式编程和数据框列表列

    函数式编程介绍 R支持类(class)和方法(method),实际提供了适用于多种自变量的通用函数(generic function,或称泛型函数),不同自变量类型调用该类特有的方法, 但函数名可以保持不变。这可以支持一定的面向对象编程方式。 R也支持函数式编程,但不是专门的函数式编程语言。R语言的设计主要用函数求值来进行运算;R的用户主要使用函数调用来访问…

    2023年11月13日
    15800
  • 北京大学R语言教程(李东风)第24章:数据汇总

    dplyr包的summarise()函数可以对数据框计算统计量。 以肺癌病人化疗数据cancer.csv为例,有34个肺癌病人的数据: d.cancer <- read_csv( “data/cancer.csv”, locale=locale(encoding=”GBK”)) ## Rows: 34 Columns: 6 ## ── Column s…

    2023年11月12日
    34800
  • 北京大学R语言教程(李东风)第23章: 数据整理

    tidyverse系统 tidyverse是一系列用于数据输入输出、数据整理和数据汇总的R扩展包集合,使用这些包遵循相近的编程风格,比直接使用基本R编程要更直观、容易理解。其中readr包用于读入数据,tidyr包用于进行长、宽表转换,dplyr包用于数据整理与汇总,purr包进行map-reduce类操作,等等。 假设数据以tibble格式保存。数据集如果…

    2023年11月11日
    7100
  • 北京大学R语言教程(李东风)第22章: Quarto格式文件

    22.1 介绍 Quarto是POSIT(原RStudio)团队开发的一个开源软件,可以将包含R、Python、Julia、Observable JS源程序的markdown文件产生运行结果后转换为各种输出格式,这些源文件可以是普通的包含程序代码的markdown文件(扩展名为.qmd),也可以是Jupyter笔记本文件(扩展名为.ipynb)。支持HTML…

    2023年11月11日
    32000
  • 北京大学R语言教程(李东风)第21章: Markdown格式

    介绍 Markdown是一种很简单的文本文件格式,通常保存为.md扩展名。Mardown中文内容应该使用UTF-8编码。Markdown文件里面有一些简单的格式标注方法,比如两个星号之间的文字会转化为斜体,缩进四个空格或一个制表符的内容会看成代码,用井号开头的行表示标题,井号越多标题级别越低。 Markdown适用于比较简单的文章、源程序说明等,不太适用于复…

    2023年11月10日
    11900
  • 北京大学R语言教程(李东风)第20章: 研究项目管理

    执行一个数据分析研究项目,必须遵循一定的管理规则,才能事半功倍。 可重复式科学研究 现代科学研究之所以能被大众接受,成为主流世界观,很大程度上要归功于“可重复结果的试验”。现在生物、物理、化学等领域的科研越来越复杂,重复试验越来越难,但是不能重复的试验就备受争议。 数据分析项目也是这样,你的研究结果,一定要能够被第三方研究者所重复,要尽可能地提供详尽的代码和…

    2023年11月9日
    7500
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部