R语言教程_第2页

百科

北京大学R语言教程(李东风)第32章： R相关与回归

32 R相关与回归本章所用例子数据下载： 32.1 相关分析考虑连续型随机变量之间的关系。相关系数定义为 ρ(X,Y)=E[(X−EX)(Y−EY)]Var(X)Var(Y)‾‾‾‾‾‾‾‾‾‾‾‾‾√ 又称Pearson相关系数。 −1≤ρ≤1。ρ接近于+1表示X和Y有正向的相关； ρ接近于−1表示X和Y有负向的相关。相…

风生水起

2023年11月22日

121000

百科

北京大学R语言教程(李东风)第31章：使用infer包进行统计推断

R的infer扩展包提供了与tidyverse系统习惯做法一致的进行假设检验的方法。在进行理论推断时，主要使用随机模拟方法进行计算，也支持基于理论分布的方法。这个包的当前版本（1.2.9001）还有一些错误，不能用于较正式的研究问题。以数据框（tibble）为输入，用动词specify指定针对的变量，用hypothesis指定假设检验（包括置…

风生水起

2023年11月21日

267000

百科

北京大学R语言教程(李东风)第30章： R初等统计分析

这一部分讲授如何用R进行统计分析，包括基本概括统计和探索性数据分析，置信区间和假设检验，回归分析与各种回归方法，广义线性模型，非线性回归与平滑，判别树和回归树，等等。主要参考书： 30.1 概率分布 R中与xxx分布有关的函数包括： dxxx(x)函数可以加选项log=TRUE，用来计算\ln p(x)，这在计算对数似然函数时有…

风生水起

2023年11月19日

158000

百科

北京大学R语言教程(李东风)第29章：探索性数据分析

探索性数据分析(Exploratory data analysis, EDA)是在进行推断性统计建模之前，对数据的分布、变量之间的关系、观测之间的聚集等特性用汇总统计、作图等方法进行探索，这是必不可少的步骤。有时我们不知道数据告诉我们什么信息，不知道要提什么问题，这就必须用EDA来获得对数据的洞察，提示我们随后要进行的研究。即使一开始研究目标就…

风生水起

2023年11月18日

213000

百科

北京大学R语言教程(李东风)第28章： ggplot的各种图形

28.1 介绍 ggplot2包提供了许多种图形，其作用可以大致地分为：下面按照其作用分别进行介绍。主要参考： 28.2 表现数量 28.2.1 条形图设有若干个类，每个类有一个数量属性值。经常用条形图表现数量。 28.2.1.1 简单的条形图例如，有25个共同基金，分为三个类别，各类别的频数为： …

风生水起

2023年11月17日

303000

百科

北京大学R语言教程(李东风)第27章： ggplot作图入门

介绍 Hadley Wickem的ggplot2包是R的一个作图用的扩展包，它实现了“图形的语法”，将一个作图任务分解为若干个子任务，只要完成各个子任务就可以完成作图。在作常用的图形时，只需要两个步骤：首先将图形所展现的数据输入到ggplot()函数中，然后调用某个geom_xxx()函数，指定图形类型，如散点图、曲线图、盒形图等。如果需要进一步控制图形细…

风生水起

2023年11月16日

571000

百科

北京大学R语言教程(李东风)第26章：基本R绘图

R语言的前身是S语言，S语言的设计目的就是交互式数据分析、绘图。所以绘图是R的重要功能。 R有最初的基本绘图，这是从S语言继承过来的，还有一些功能更易用、更强大的绘图系统，如lattice、ggplot2。基本绘图使用简单，灵活性强，但是为了做出满意的图形需要比较多的调整。这里先讲解R语言的基本绘图功能。 R的基本绘图功能有两类图形函数：高级图形函数，直接…

风生水起

2023年11月15日

259000

百科

北京大学R语言教程(李东风)第25章：函数式编程和数据框列表列

函数式编程介绍 R支持类(class)和方法(method)，实际提供了适用于多种自变量的通用函数(generic function，或称泛型函数)，不同自变量类型调用该类特有的方法，但函数名可以保持不变。这可以支持一定的面向对象编程方式。 R也支持函数式编程，但不是专门的函数式编程语言。R语言的设计主要用函数求值来进行运算；R的用户主要使用函数调用来访问…

风生水起

2023年11月13日

211000

百科

北京大学R语言教程(李东风)第24章：数据汇总

dplyr包的summarise()函数可以对数据框计算统计量。以肺癌病人化疗数据cancer.csv为例，有34个肺癌病人的数据： d.cancer <- read_csv( “data/cancer.csv”, locale=locale(encoding=”GBK”)) ## Rows: 34 Columns: 6 ## ── Column s…

风生水起

2023年11月12日

484000

百科

北京大学R语言教程(李东风)第23章：数据整理

tidyverse系统 tidyverse是一系列用于数据输入输出、数据整理和数据汇总的R扩展包集合，使用这些包遵循相近的编程风格，比直接使用基本R编程要更直观、容易理解。其中readr包用于读入数据，tidyr包用于进行长、宽表转换，dplyr包用于数据整理与汇总，purr包进行map-reduce类操作，等等。假设数据以tibble格式保存。数据集如果…

风生水起

2023年11月11日

92000

百科

北京大学R语言教程（李东风）第22章： Quarto格式文件

22.1 介绍 Quarto是POSIT(原RStudio)团队开发的一个开源软件，可以将包含R、Python、Julia、Observable JS源程序的markdown文件产生运行结果后转换为各种输出格式，这些源文件可以是普通的包含程序代码的markdown文件(扩展名为.qmd)，也可以是Jupyter笔记本文件(扩展名为.ipynb)。支持HTML…

风生水起

2023年11月11日

858000

百科

北京大学R语言教程(李东风)第21章： Markdown格式

介绍 Markdown是一种很简单的文本文件格式，通常保存为.md扩展名。Mardown中文内容应该使用UTF-8编码。Markdown文件里面有一些简单的格式标注方法，比如两个星号之间的文字会转化为斜体，缩进四个空格或一个制表符的内容会看成代码，用井号开头的行表示标题，井号越多标题级别越低。 Markdown适用于比较简单的文章、源程序说明等，不太适用于复…

风生水起

2023年11月10日

159000

百科

北京大学R语言教程(李东风)第20章：研究项目管理

执行一个数据分析研究项目，必须遵循一定的管理规则，才能事半功倍。可重复式科学研究现代科学研究之所以能被大众接受，成为主流世界观，很大程度上要归功于“可重复结果的试验”。现在生物、物理、化学等领域的科研越来越复杂，重复试验越来越难，但是不能重复的试验就备受争议。数据分析项目也是这样，你的研究结果，一定要能够被第三方研究者所重复，要尽可能地提供详尽的代码和…

风生水起

2023年11月9日

119000