R에서의 데이터 타입 기본형은 Vector이다. 자료형은 다음과 같다.
접근 문법
동일한 스칼라 데이터 타입의 다차원 데이터 구조이고 다음과 같이 생성한다.
다양한 데이터 타입으로 구성된 2차원 데이터 구조이고 다음과 같이 생성한다.
str()함수로 내부 구조를 알아본다.
데이터 타입을 판별하는 함수
- Vector
- List
- Matrix
- Array
- DataFrame
Vector
정의
다른 언어의 배열과 비슷하고, 한 가지의 스칼라 데이터타입의 데이터들을 저장할 수 있다.
(ex, 숫자만 저장하는 배열/문자열만 저장하는 배열/ a <- 1/ a <- "hello")
슬라이스(Slice)를 제공한다.
Slice란? 배열의 일부를 잘라내고 이를 다시 배열로 다루는 개념
생성
c()함수 안에 원하는 인자들을 나열
> x <- c(1, 2, 3)다음과 x <- c(1, 2, 3)부분에 괄호로 코드를 묶으면 실행된 결과값이 출력된다.
> x[1] 1 2 3
※ 괄호로 코드를 묶으면 괄호안의 문장을 수행하고 그 결과 값을 화면에 출력
> (x <- c(1, 2, 3))
[1] 1 2 3
데이터 접근
인덱스로 데이터에 접근할 수 있고 인덱스는 0이 아닌 1부터 시작한다.접근 문법
- x[n]: vector x의 n번째 요소
- x[-n]: vector x에서 n번째 요소를 제외한 나머지를 반환
> x <- c("a", "b", "c") > x[-1] [1] "b" "c"
- x[idx_vector]: idx_vector에 지정된 요소를 얻어옴. idx_vector는 색인을 표현하는 숫자 vector이다.
> x <- c("a", "b", "c") > x[c(1, 2)] [1] "a" "b"
- x[start:end]: start부터 end까지의 값을 반환, 반환 값은 start위치의 값과 end위치의 값을 모두 포함
> x <- c("a", "b", "c") > x[1:3] [1] "a" "b" "c"
연산
- %n%연산자
특정 값이 vector에 포함되어 있는 여부를 알려준다
> "a" %in% c("a", "b", "c") [1] TRUE > "f" %in% c("a", "b", "c") [1] FALSE
List
서로 다른 데이터타입을 저장 할 수 있는 (키, 값) 형태의 연관 배열이다
list(key1=value1, key2=value2, )함수로 생성한다.
> (x <- list(name="dobby", height=100))
$ name
[1] "dobby"
$ height
[1] 100
데이터 접근
색인 또는 키를 사용해 접근할 수 있다.
접근문법
- x$key : x에서 key에 해당하는 값
> x <- list(name="dobby", height=c(30, 50, 70)) > x$name [1] "dobby"
- x[n]: x에서 n번째 데이터의 sub list
> x[1]
$ name
[1] "dobby"
x[[n]]: x에서 n번째 저장된 값
Matrix
동일한 스칼라 데이터 타입의 2차원 데이터 구조이고, 생성방법은 다음과 같다.
matrix() : 행렬을 생성한다.
|
matrix( data, # vector 값 nrow, # 행의 수 ncol, # 열의 수 byrow=FALSE, # TRUE로 설정하면 행우선, FALSE일 경우 열 우선으로 데이터를 채운다. dimnames= # 행렬의 각 차원에 부여할 이름 ) |
> matrix(1:9, nrow=3, dimnames=list(c("r1", "r2", "r3"), c("c1", "c2", "c3"))) c1 c2 c3 r1 1 4 7 r2 2 5 8 r3 3 6 9
데이터 접근
색인이나 행과 열의 이름을 통해 접근
> x[1:2, ]
[,1] [,2] [,3]
[1,] 1 4 7
[2,] 2 5 8
> x["r1", ]
c1 c2 c3
1 4 7
행렬연산
dim(x) : x의 차원수를 반환
> x <- matrix(c(1:6), ncol=3) > dim(x) [1] 2 3 > dim(x) <- c(3, 2) > x [,1] [,2] [1,] 1 4 [2,] 2 5 [3,] 3 6
Array
array()
|
array( data= # 데이터를 저장한 벡터 dim=length(data), # 배열의 차원. 이 값을 지정하지 않으면 1차원 배열이 생성된다. dimnames= # 차원의 이름 ) |
> array(1:12, dim=c(3, 4))
[,1] [,2] [,3] [,4]
[1,] 1 4 7 10
[2,] 2 5 8 11
[3,] 3 6 9 12
데이터 접근
배열변수[행 인덱스, 열 인덱스, 차원인덱스]로 접근
Data Frame
data.frame : 데이터 프레임을 생성한다.
|
data.frame( key=value, stringsAsFactors=default.stringsAsFactors() )stringsAsFactors: 주어진 문자열을 팩터 또는 문자열로 저장할 것인지를 지정하는 인자. 기본값은 TRUE이고 문자열은 팩터로 저장된다. |
str()함수로 내부 구조를 알아본다.
데이터 접근
인덱스 또는 키로 접근가능하다.
- d$colname: 컬럼 이름이 colname인 데이터에 접근
- d[m, n, drop = TRUE]: m행 n컬럼에 저장된 데이터(m/n은 인덱스 혹은 컬럼 이름을 지정)
- d[,n]과 같이 특정 컬럼값만 가져올 시 해당 컬럼의 데이터 타입으로 변환되는데 drop=False를 지정하면 데이터 프레임을 반환
유틸리티 함수
데이터를 손쉽게 살펴보기 위한 함수들은 다음과 같다.
- head(x, n): x의 처음으로 부터 n번째 데이터를 반환
- tail(x, n): x의 뒷부분을 n만큼 반환
타입 판별
함수
|
의미
|
class(x)
|
데이터 타입을 반환
|
str(x)
|
객체 x의 내부 구조
|
is.factor(x)
|
주어진 객체 x가 팩터인가
|
is.numeric(x)
|
주어진 객체 x가 숫자를 저장한 벡터인가
|
is.character(x)
|
주어진 객체 x가 문자열을 저장한 벡터인가
|
is.matrix(x)
|
주어진 객체 x가 행렬인가
|
is.array(x)
|
주어진 객체 x가 배열인가
|
is.data.frame(x)
|
주어진 객체 x가 데이터 프레임인가
|
타입 변환
as.typename()함수를 사용하여 데이터 타입을 강제 벼환 할 수 있다.
함수
|
의미
|
as.factor(x)
|
주어진 객체 x를 팩터로 변환
|
as.numeric(x)
|
주어진 객체 x를 숫자를 저장한 벡터로 변환
|
as.character(x)
|
주어진 객체 x를 문자열을 저장한 벡터로 변환
|
as.matrix(x)
|
주어진 객체 x를 행렬로 변환
|
as.array(x)
|
주어진 객체 x를 배열로 변환
|
as.data.frame(x)
|
주어진 객체 x를 데이터 프레임으로 변환
|
评论
发表评论