1 minute read

01 Basic

下载数据集

R 内置了很多的数据。 再练习的时候,往往可以使用R 自己提供的数据,这些数据是一些真实的数据,可以当作学习/练习的样本。

代码的格式如下: (这里的代码是要打进console 之中)

# installing the dslabs package
install.packages("dslabs")

使用这个数据 (这里的代码要打进xxx.r 文件之中)

# loading the dslabs package into the R session
library(dslabs)

或者使用 GUI (用鼠标点点点)

[Tools] -> [install packages]
install.packages("dslabs")  # to install a single package
install.packages(c("tidyverse", "dslabs") # to install two packages at the same time
# 注意这里的c
installed.packages() # to see the list of all installed packages

画图-ggplot2

以下例子使用 tidyverse 的数据

创建一个图表

mpg: US Environment Protection Agency on 38 models of cars mpg 是 tidyverse 中的一个数据子集合。 单独在console 里打出 mpg 可以查看他的数据格式

ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy))
# 选择其中的列 displ 和 列 hwy 作为 x 轴 和 y 轴数据

ggplot(data = mpg) 创建了一个空的图标画布。 geom_point() 让R 知道以什么样的方式绘制图像。

aes() specify which variable to map the x and y-axes.

以下需要特别记忆:

ggplot(data = <DATA>) + <Geom_FUNCTION>(mapping = aes(MAPPINGS))

aes 中有很多参数,不单单是 x, y 还有size 和 color 等具体控制画图的参数。 比如,

  • 可以根据数据的大小,使用size 参数, 数据不同,点的面积也不同
  • 可以根据数据的大小,使用alpha 参数, 数据不同,使用不同的深浅颜色
  • 可以根据数据的大小,使用color 参数, 数据不同,使用不同的颜色
  • 可以根据数据的大小,使用shape 参数, 数据不同,使用不同的形状表示
ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, size = class))
# 这里是使用class 来进行区分

一定记住 aes 里修改的是 mappings 的设置。如果想修改点的颜色。则不能错误的把color 放进aes 函数中。

正确的写法是: (修改为蓝色)

ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy), color = "blue")

错误的写法

ggplot(data = mpg) + geom_point(mapping = aes(x = displ, y = hwy, color = "blue"))

聪明的小伙伴肯定知道了 错误写法中里的color 是设置了错误的凡例名称。如图所示: