跳至主要内容

R 데이터 타입

R에서의 데이터 타입 기본형은 Vector이다. 자료형은 다음과 같다.
  • Vector
  • List
  • Matrix
  • Array
  • DataFrame


Vector


정의

다른 언어의 배열과 비슷하고, 한 가지의 스칼라 데이터타입의 데이터들을 저장할 수 있다.
      (ex, 숫자만 저장하는 배열/문자열만 저장하는 배열/ a <- 1/ a <- "hello")
슬라이스(Slice)를 제공한다. 
      Slice란? 배열의 일부를 잘라내고 이를 다시 배열로 다루는 개념

생성

c()함수 안에 원하는 인자들을 나열
> x <- c(1, 2, 3)
> x[1] 1 2 3
 다음과 x <- c(1, 2, 3)부분에 괄호로 코드를 묶으면 실행된 결과값이 출력된다.
       ※ 괄호로 코드를 묶으면 괄호안의 문장을 수행하고 그 결과 값을 화면에 출력
> (x <- c(1, 2, 3))
[1] 1 2 3

데이터 접근

인덱스로 데이터에 접근할 수 있고 인덱스는 0이 아닌 1부터 시작한다.
접근 문법

  • x[n]: vector x의 n번째 요소
  • x[-n]: vector x에서 n번째 요소를 제외한 나머지를 반환

> x <- c("a", "b", "c")
> x[-1]
[1] "b" "c"

  • x[idx_vector]: idx_vector에 지정된 요소를 얻어옴. idx_vector는 색인을 표현하는 숫자 vector이다.

> x <- c("a", "b", "c")
> x[c(1, 2)]
[1] "a" "b"

  • x[start:end]: start부터 end까지의 값을 반환, 반환 값은 start위치의 값과 end위치의 값을 모두 포함

> x <- c("a", "b", "c")
> x[1:3]
[1] "a" "b" "c"

연산

  • %n%연산자
           특정 값이 vector에 포함되어 있는 여부를 알려준다
> "a" %in% c("a", "b", "c")
[1] TRUE
> "f" %in% c("a", "b", "c")
[1] FALSE

List

서로 다른 데이터타입을 저장 할 수 있는 (키, 값) 형태의 연관 배열이다
list(key1=value1, key2=value2, )함수로 생성한다.
> (x <- list(name="dobby", height=100))
$ name
[1] "dobby"

$ height
[1] 100

데이터 접근

색인 또는 키를 사용해 접근할 수 있다.
접근문법
  • x$key : x에서 key에 해당하는 값
> x <- list(name="dobby", height=c(30, 50, 70))
> x$name
[1] "dobby"
  • x[n]: x에서 n번째 데이터의 sub list
> x[1]
$ name
[1] "dobby"
x[[n]]: x에서 n번째 저장된 값

Matrix

동일한 스칼라 데이터 타입의 2차원 데이터 구조이고, 생성방법은 다음과 같다.

matrix() : 행렬을 생성한다.
matrix( 
   data,          # vector 값 
   nrow,          # 행의 수 
   ncol,          # 열의 수 
   byrow=FALSE,   # TRUE로 설정하면 행우선, FALSE일 경우 열 우선으로 데이터를 채운다. 
   dimnames=          # 행렬의 각 차원에 부여할 이름 
)

> matrix(1:9, nrow=3, dimnames=list(c("r1", "r2", "r3"), c("c1", "c2", "c3")))
   c1 c2 c3
r1  1  4  7
r2  2  5  8
r3  3  6  9

데이터 접근

색인이나 행과 열의 이름을 통해 접근
> x[1:2, ]
    [,1] [,2] [,3]
[1,]   1    4    7
[2,]   2    5    8
> x["r1", ]
c1 c2 c3
 1  4  7

행렬연산

dim(x) : x의 차원수를 반환
> x <- matrix(c(1:6), ncol=3)
> dim(x)
[1] 2 3

> dim(x) <- c(3, 2)
> x
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

Array

동일한 스칼라 데이터 타입의 다차원 데이터 구조이고 다음과 같이 생성한다.
array() 
array(
   data=                         # 데이터를 저장한 벡터
   dim=length(data),     # 배열의 차원. 이 값을 지정하지 않으면 1차원 배열이 생성된다.
   dimnames=               # 차원의 이름
)

> array(1:12, dim=c(3, 4))
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

데이터 접근

배열변수[행 인덱스, 열 인덱스, 차원인덱스]로 접근

Data Frame

다양한 데이터 타입으로 구성된 2차원 데이터 구조이고 다음과 같이 생성한다.
data.frame : 데이터 프레임을 생성한다.
data.frame(
   key=value,
   stringsAsFactors=default.stringsAsFactors()
)
stringsAsFactors: 주어진 문자열을 팩터 또는 문자열로 저장할 것인지를 지정하는 인자.
기본값은 TRUE이고 문자열은 팩터로 저장된다.

str()함수로 내부 구조를 알아본다.

데이터 접근

인덱스 또는 키로 접근가능하다.
  • d$colname: 컬럼 이름이 colname인 데이터에 접근
  • d[m, n, drop = TRUE]: m행 n컬럼에 저장된 데이터(m/n은 인덱스 혹은 컬럼 이름을 지정)
    • d[,n]과 같이 특정 컬럼값만 가져올 시 해당 컬럼의 데이터 타입으로 변환되는데 drop=False를 지정하면 데이터 프레임을 반환

유틸리티 함수

데이터를 손쉽게 살펴보기 위한 함수들은 다음과 같다.
  • head(x, n): x의 처음으로 부터 n번째 데이터를 반환
  • tail(x, n): x의 뒷부분을 n만큼 반환 

타입 판별

데이터 타입을 판별하는 함수
함수
의미
class(x)
데이터 타입을 반환
str(x)
객체 x의 내부 구조
is.factor(x)
주어진 객체 x가 팩터인가
is.numeric(x)
주어진 객체 x가 숫자를 저장한 벡터인가
is.character(x)
주어진 객체 x가 문자열을 저장한 벡터인가
is.matrix(x)
주어진 객체 x가 행렬인가
is.array(x)
주어진 객체 x가 배열인가
is.data.frame(x)
주어진 객체 x가 데이터 프레임인가

타입 변환

as.typename()함수를 사용하여 데이터 타입을 강제 벼환 할 수 있다.
함수
의미
as.factor(x)
주어진 객체 x를 팩터로 변환
as.numeric(x)
주어진 객체 x를 숫자를 저장한 벡터로 변환
as.character(x)
주어진 객체 x를 문자열을 저장한 벡터로 변환
as.matrix(x)
주어진 객체 x를 행렬로 변환
as.array(x)
주어진 객체 x를 배열로 변환
as.data.frame(x)
주어진 객체 x를 데이터 프레임으로 변환

评论

此博客中的热门博文

Pandas Plot

pandas.DataFrame.plot.bar import matplotlib.pyplot as plt import pandas as pd import numpy as np df = pd.DataFrame(np.random.rand(5, 4).round(1),                   index=['snail', 'pig', 'elephant','rabbit', 'giraffe'],                   columns=pd.Index(['speed', 'lifespan', 'active', 'cuite'],                   name='Genus')) ax = df.plot(kind='bar',figsize=(10,4), rot = 0) plt.show() ==> output in Pycharm

Spring Cache

Cache 추상화 이해하기 핵심부분에서 추상화는 Java method에 캐싱을 적용함으로써 캐시에 보관된 정보로 메서드의 실행 횟수를 줄여준다. 즉 대상 메서드가 실행될때마다 추상화가 해당 메서드가 같은 인자로 이미 실행되었는 확인하는 캐싱 동작을 적용한다. 해당 데이터가 존재한다면 메서드를 실행하지 않고 결과를 반환하고 존재하지 않는다면 메서드를 실행하고 그 결과를 캐싱한 뒤에 사용자에게 반환해서 다음번 호출시에 사용 할 수 있게 한다. Spring cache는 cache 추상화를 지원하는데 EhCache, Redis, Couchbase 등 캐시 저장소와 빠르게 연동하여 bean으로 설정 할 수 있도록 도와준다. 선언적인 어노테이션 기반의 캐싱 @Cacheable  메소드에 지정 가능하고 지정된 메서드의 캐시 설정에 따라 데이터가 한번 생성되면 데이터가 캐싱되며, 다음 호출 시에 캐시에 저장된 데이터가 리턴된다. @Cacheable 설정 옵션은 다음과 같다. value 캐싱 공간의 대표 명칭 key Spring Expression Language(SpEl)으로 key생성을 지정  지정하지 않으면 모든 파라미터를 조합한 해시코드 값을 키로 생성 condition 조건부 캐싱. SpEL로 지정하고 표현식이 true면 메서드를 캐시 사용가능한 SpEL evaluation context 이름 위치 설명 예시 methodName root object 호출되는 메서드의 이름 #root.methodName method root object 호출되는 메서드 #root.method.name target root object 호출되는 대상 객체 #root.target targetClass root object 호출되는 대상 클래스 #root.targetClass args root object 대상을 호출하는데 사용한 인자(배열) #root.args[0] caches root object 현재 실행된 메서드 캐시의 컬렉션 #root.caches[0].name a...