量化

  • 北京大学R语言教程(李东风)第37章: 线性混合模型

    37.1 介绍 在基本回归分析模型中, 假定回归误差项独立同分布, 方差相等, 还经常假定误差项服从正态分布。 在实际应用回归分析建模时, 还经常遇到模型误差项方差不相等或者误差项之间不独立的情形。 比如, 如果每个观测来自于一个群体的平均值, 设群体中的个体方差相同, 则每个观测的误差方差正比于群体中个体的个数的倒数, 不等于常数。 又比如, 医…

    2023年11月27日
    10600
  • 北京大学R语言教程(李东风)第36章:R方差分析

    36.1 单因素方差分析 单因素方差分析可以看成基础统计中两样本t检验的一个推广, 要比较试验观测值的某个因变量(称为“指标”)按照一个分组变量(称为“因素”)分组后, 各组的因变量均值有无显著差异。 设因素A将所有观测分为m个组, 每组对因变量进行r次观测, 且各次观测相互独立, 模型为 yij=eijμi+eij,i=1,2,…,m,&nbsp…

    2023年11月25日
    8600
  • 北京大学R语言教程(李东风)第35章: R非参数回归

    35.1 模型 线性回归模型可以看成非线性回归模型的特例: Y=f(X)+ε 其中f(x)为未知的回归函数。 参数方法:假定f(x)具有某种形式,如 二次多项式回归可以令X1=x,X2=x2, 变成二元回归模型来解决。 指数模型可以令z=lnY, 模型化为z=a+bx。 有一些曲线模型可以通过变换化为线性回归。 在多元情形, 一般的非线性回归模型为…

    2023年11月25日
    21600
  • 北京大学R语言教程(李东风)第34章:R公式界面与设计阵

    34.1 R语言公式界面 R语言继承了来自S语言的公式界面, 用以描述统计模型中因变量和自变量的关系, 并有相应的将自变量群组转换为相应的线性模型设计阵的默认规则。 R语言的线性回归(lm)、方差分析(aov)、广义线性模型(glm)、线性混合模型(nlme::lme)等回归类建模函数都使用公式(formula)界面描述因变量与自变量之间的关系。 …

    2023年11月23日
    9300
  • 北京大学R语言教程(李东风)第33章: R多元回归

    建模步骤: 33.1 模型 模型 y=β0+β1×1+⋯+βpxp+ε 其中 对n组观测数据, 有 yi=β0+β1xi1+⋯+βpxip+εi,i=1,2,…,n 对其中的随机误差项εi, i=1,2,…,n,假定: 总之,ε1,ε2,…,εn 相互独立,服从N(0,σ2)分布。 数据格式如: ⎛⎝⎜⎜⎜⎜⎜⎜⎜x1…

    2023年11月22日
    17600
  • 北京大学R语言教程(李东风)第32章: R相关与回归

    32 R相关与回归 本章所用例子数据下载: 32.1 相关分析 考虑连续型随机变量之间的关系。相关系数定义为 ρ(X,Y)=E[(X−EX)(Y−EY)]Var(X)Var(Y)‾‾‾‾‾‾‾‾‾‾‾‾‾√ 又称Pearson相关系数。 −1≤ρ≤1。ρ接近于+1表示X和Y有正向的相关; ρ接近于−1表示X和Y有负向的相关。 相…

    2023年11月22日
    9600
  • 北京大学R语言教程(李东风)第31章: 使用infer包进行统计推断

    R的infer扩展包提供了与tidyverse系统习惯做法一致的进行假设检验的方法。 在进行理论推断时, 主要使用随机模拟方法进行计算, 也支持基于理论分布的方法。 这个包的当前版本(1.2.9001)还有一些错误, 不能用于较正式的研究问题。 以数据框(tibble)为输入, 用动词specify指定针对的变量, 用hypothesis指定假设检验(包括置…

    2023年11月21日
    13700
  • 北京大学R语言教程(李东风)第30章: R初等统计分析

    这一部分讲授如何用R进行统计分析, 包括基本概括统计和探索性数据分析, 置信区间和假设检验, 回归分析与各种回归方法, 广义线性模型, 非线性回归与平滑, 判别树和回归树, 等等。 主要参考书: 30.1 概率分布 R中与xxx分布有关的函数包括: dxxx(x)函数可以加选项log=TRUE, 用来计算\ln p(x), 这在计算对数似然函数时有…

    2023年11月19日
    10900
  • 北京大学R语言教程(李东风)第29章: 探索性数据分析

    探索性数据分析(Exploratory data analysis, EDA)是在进行推断性统计建模之前, 对数据的分布、变量之间的关系、观测之间的聚集等特性用汇总统计、作图等方法进行探索, 这是必不可少的步骤。 有时我们不知道数据告诉我们什么信息, 不知道要提什么问题, 这就必须用EDA来获得对数据的洞察, 提示我们随后要进行的研究。 即使一开始研究目标就…

    2023年11月18日
    16800
  • 北京大学R语言教程(李东风)第28章: ggplot的各种图形

    28.1 介绍 ggplot2包提供了许多种图形, 其作用可以大致地分为: 下面按照其作用分别进行介绍。 主要参考: 28.2 表现数量 28.2.1 条形图 设有若干个类, 每个类有一个数量属性值。 经常用条形图表现数量。 28.2.1.1 简单的条形图 例如, 有25个共同基金, 分为三个类别, 各类别的频数为: …

    2023年11月17日
    19800
  • 北京大学R语言教程(李东风)第27章: ggplot作图入门

    介绍 Hadley Wickem的ggplot2包是R的一个作图用的扩展包,它实现了“图形的语法”,将一个作图任务分解为若干个子任务,只要完成各个子任务就可以完成作图。在作常用的图形时,只需要两个步骤:首先将图形所展现的数据输入到ggplot()函数中,然后调用某个geom_xxx()函数,指定图形类型,如散点图、曲线图、盒形图等。 如果需要进一步控制图形细…

    2023年11月16日
    20900
  • 北京大学R语言教程(李东风)第26章: 基本R绘图

    R语言的前身是S语言,S语言的设计目的就是交互式数据分析、绘图。所以绘图是R的重要功能。 R有最初的基本绘图,这是从S语言继承过来的,还有一些功能更易用、更强大的绘图系统,如lattice、ggplot2。基本绘图使用简单,灵活性强,但是为了做出满意的图形需要比较多的调整。这里先讲解R语言的基本绘图功能。 R的基本绘图功能有两类图形函数:高级图形函数, 直接…

    2023年11月15日
    14100
  • 北京大学R语言教程(李东风)第25章: 函数式编程和数据框列表列

    函数式编程介绍 R支持类(class)和方法(method),实际提供了适用于多种自变量的通用函数(generic function,或称泛型函数),不同自变量类型调用该类特有的方法, 但函数名可以保持不变。这可以支持一定的面向对象编程方式。 R也支持函数式编程,但不是专门的函数式编程语言。R语言的设计主要用函数求值来进行运算;R的用户主要使用函数调用来访问…

    2023年11月13日
    15800
  • 北京大学R语言教程(李东风)第24章:数据汇总

    dplyr包的summarise()函数可以对数据框计算统计量。 以肺癌病人化疗数据cancer.csv为例,有34个肺癌病人的数据: d.cancer <- read_csv( “data/cancer.csv”, locale=locale(encoding=”GBK”)) ## Rows: 34 Columns: 6 ## ── Column s…

    2023年11月12日
    34800
  • 北京大学R语言教程(李东风)第23章: 数据整理

    tidyverse系统 tidyverse是一系列用于数据输入输出、数据整理和数据汇总的R扩展包集合,使用这些包遵循相近的编程风格,比直接使用基本R编程要更直观、容易理解。其中readr包用于读入数据,tidyr包用于进行长、宽表转换,dplyr包用于数据整理与汇总,purr包进行map-reduce类操作,等等。 假设数据以tibble格式保存。数据集如果…

    2023年11月11日
    7100
  • 北京大学R语言教程(李东风)第22章: Quarto格式文件

    22.1 介绍 Quarto是POSIT(原RStudio)团队开发的一个开源软件,可以将包含R、Python、Julia、Observable JS源程序的markdown文件产生运行结果后转换为各种输出格式,这些源文件可以是普通的包含程序代码的markdown文件(扩展名为.qmd),也可以是Jupyter笔记本文件(扩展名为.ipynb)。支持HTML…

    2023年11月11日
    32000
  • 北京大学R语言教程(李东风)第21章: Markdown格式

    介绍 Markdown是一种很简单的文本文件格式,通常保存为.md扩展名。Mardown中文内容应该使用UTF-8编码。Markdown文件里面有一些简单的格式标注方法,比如两个星号之间的文字会转化为斜体,缩进四个空格或一个制表符的内容会看成代码,用井号开头的行表示标题,井号越多标题级别越低。 Markdown适用于比较简单的文章、源程序说明等,不太适用于复…

    2023年11月10日
    11900
  • 北京大学R语言教程(李东风)第20章: 研究项目管理

    执行一个数据分析研究项目,必须遵循一定的管理规则,才能事半功倍。 可重复式科学研究 现代科学研究之所以能被大众接受,成为主流世界观,很大程度上要归功于“可重复结果的试验”。现在生物、物理、化学等领域的科研越来越复杂,重复试验越来越难,但是不能重复的试验就备受争议。 数据分析项目也是这样,你的研究结果,一定要能够被第三方研究者所重复,要尽可能地提供详尽的代码和…

    2023年11月9日
    7500
  • 北京大学R语言教程(李东风)第19章:函数进阶

    函数调用的各种形式 在R语言中,有两条简明的理解R程序的原则: 任何成分都是R的对象(变量、函数等等); 任何活动都是调用函数(求子集、四则运算、比较、函数调用等)。 函数调用有四种方式: 一、前缀形式。这也是一般的格式,如fsub(5, 2)。 二、中缀形式。二元运算符实际上都是函数,5 – 2的写法是中缀形式,等同于`-`(5, 2)。因为-不是合法的R…

    2023年11月6日
    8500
  • 北京大学R语言教程(李东风)第18章: R程序效率

    R是解释型语言,在执行单个运算时,效率与编译代码相近;在执行迭代循环时, 效率较低,与编译代码的速度可能相差几十倍。在循环中对变量进行修改尤其低效,因为R在修改某些数据类型的子集时会复制整个数据对象。R以向量、矩阵为基础运算单元,在进行向量、矩阵运算时效率很高,应尽量采用向量化编程。 另外,R语言的设计为了方便进行数据分析和统计建模,有意地使语言特别灵活,比…

    2023年11月6日
    8500
  • 北京大学R语言教程(李东风)第17 章:函数

    函数基础 介绍 在现代的编程语言中使用自定义函数,优点是代码复用、模块化设计。 如果一段程序需要在多处使用,就应该将其写成一个函数,然后在多处调用。需要修改程序执行功能时,仅需要修改函数而不需要修改各处调用。如果不使用函数而是将相同的代码在多处复制粘贴,修改时就需要修改多处,很容易漏掉一处。 在编程时,把编程任务分解成小的模块,每个模块用一个函数实现,便于理…

    2023年11月5日
    9900
  • 北京大学R语言教程(李东风)第16章: 程序控制结构

    表达式 R是一个表达式语言,其任何一个语句都可以看成是一个表达式。表达式之间以分号分隔或用换行分隔。表达式可以续行,只要前一行不是完整表达式(比如末尾是加减乘除等运算符,或有未配对的括号)则下一行为上一行的继续。若干个表达式可以放在一起组成一个复合表达式,作为一个表达式使用,复合表达式的值为最后一个表达式的值,组合用大括号表示, 如: 分支结构 分支结构包括…

    2023年11月4日
    12500
  • 北京大学R语言教程(李东风)第15章: R输入输出

    输入输出的简单方法 简单的输出 用print()函数显示某个变量或表达式的值,如 x <- 1.234 print(x) ## [1] 1.234 y <- c(1,3,5) print(y[2:3]) ## [1] 3 5 在命令行使用R时,直接以变量名或表达式作为命令可以起到用print()函数显示的相同效果。 用cat()函数把字符串、变量…

    2023年11月3日
    17400
  • 北京大学R语言教程(李东风)第14章: 工作空间和变量赋值

    工作空间 R把在命令行定义的变量都保存到工作空间中,在退出R时可以选择是否保存工作空间。这也是R与其他如C、Java这样的语言的区别之一。 用ls()命令可以查看工作空间中的内容。 随着多次在命令行使用R,工作空间的变量越来越多,使得重名的可能性越来越大,而且工作空间中变量太多也让我们不容易查看其内容。在命令行定义的变量称为“全局变量”,在编程实践中,全局变…

    2023年11月2日
    12500
  • 北京大学R语言教程(李东风)第13章: 数据框

    数据框 数据框定义 统计分析中最常见的原始数据形式是类似于数据库表或Excel数据表的形式。这样形式的数据在R中叫做数据框(data.frame)。数据框类似于一个矩阵,有n个横行、p个纵列,但各列允许有不同类型:数值型向量、因子、字符型向量、日期时间向量。同一列的数据类型相同。在R中数据框是一个特殊的列表,其每个列表元素都是一个长度相同的向量。事实上,数据…

    2023年11月1日
    20700
  • 北京大学R语言教程(李东风)第12章: R矩阵和数组

    矩阵用matrix函数定义,实际存储成一个向量,根据保存的行数和列数对应到矩阵的元素,存储次序为按列存储。定义如 A <- matrix(11:16, nrow=3, ncol=2); print(A) ## [,1] [,2] ## [1,] 11 14 ## [2,] 12 15 ## [3,] 13 16 B <- matrix(c(1,-…

    2023年10月31日
    13300
  • 北京大学R语言教程(李东风)第11章:列表类型

    R中列表(list)类型来保存不同类型的数据。一个主要目的是提供R分析结果输出包装:输出一个变量,这个变量包括回归系数、预测值、残差、检验结果等等一系列不能放到规则形状数据结构中的内容。实际上,数据框也是列表的一种,但是数据框要求各列等长,而列表不要求。 列表可以有多个元素,但是与向量不同的是,列表的不同元素的类型可以不同,比如,一个元素是数值型向量,一个元…

    2023年10月30日
    9200
  • 北京大学R语言教程(李东风)第10章: R因子类型

    因子 R中用因子代表数据中分类变量, 如性别、省份、职业。有序因子代表有序量度,如打分结果,疾病严重程度等。 用factor()函数把字符型向量转换成因子,如 x <- c(“男”, “女”, “男”, “男”, “女”) sex <- factor(x) sex ## [1] 男 女 男 男 女 ## Levels: 男 女 attribute…

    2023年10月29日
    18500
  • 北京大学R语言教程(李东风)第9章: R日期时间

    R日期和日期时间类型 R日期可以保存为Date类型,一般用整数保存,数值为从1970-1-1经过的天数。 R中用一种叫做POSIXct和POSIXlt的特殊数据类型保存日期和时间,可以仅包含日期部分,也可以同时有日期和时间。技术上,POSIXct把日期时间保存为从1970年1月1日零时到该日期时间的时间间隔秒数,所以数据框中需要保存日期时用POSIXct比较…

    2023年10月27日
    17900
  • 北京大学R语言教程(李东风)第8章: R数据类型的性质

    存储模式与基本类型 R的变量可以存储多种不同的数据类型,可以用typeof()函数来返回一个变量或表达式的类型。比如 typeof(1:3) ## [1] “integer” typeof(c(1,2,3)) ## [1] “double” typeof(c(1, 2.1, 3)) ## [1] “double” typeof(c(TRUE, NA, FAL…

    2023年10月27日
    9600
客服
客服
关注订阅号
关注订阅号
分享本页
返回顶部