跳至主要内容

R 데이터 타입

R에서의 데이터 타입 기본형은 Vector이다. 자료형은 다음과 같다.
  • Vector
  • List
  • Matrix
  • Array
  • DataFrame


Vector


정의

다른 언어의 배열과 비슷하고, 한 가지의 스칼라 데이터타입의 데이터들을 저장할 수 있다.
      (ex, 숫자만 저장하는 배열/문자열만 저장하는 배열/ a <- 1/ a <- "hello")
슬라이스(Slice)를 제공한다. 
      Slice란? 배열의 일부를 잘라내고 이를 다시 배열로 다루는 개념

생성

c()함수 안에 원하는 인자들을 나열
> x <- c(1, 2, 3)
> x[1] 1 2 3
 다음과 x <- c(1, 2, 3)부분에 괄호로 코드를 묶으면 실행된 결과값이 출력된다.
       ※ 괄호로 코드를 묶으면 괄호안의 문장을 수행하고 그 결과 값을 화면에 출력
> (x <- c(1, 2, 3))
[1] 1 2 3

데이터 접근

인덱스로 데이터에 접근할 수 있고 인덱스는 0이 아닌 1부터 시작한다.
접근 문법

  • x[n]: vector x의 n번째 요소
  • x[-n]: vector x에서 n번째 요소를 제외한 나머지를 반환

> x <- c("a", "b", "c")
> x[-1]
[1] "b" "c"

  • x[idx_vector]: idx_vector에 지정된 요소를 얻어옴. idx_vector는 색인을 표현하는 숫자 vector이다.

> x <- c("a", "b", "c")
> x[c(1, 2)]
[1] "a" "b"

  • x[start:end]: start부터 end까지의 값을 반환, 반환 값은 start위치의 값과 end위치의 값을 모두 포함

> x <- c("a", "b", "c")
> x[1:3]
[1] "a" "b" "c"

연산

  • %n%연산자
           특정 값이 vector에 포함되어 있는 여부를 알려준다
> "a" %in% c("a", "b", "c")
[1] TRUE
> "f" %in% c("a", "b", "c")
[1] FALSE

List

서로 다른 데이터타입을 저장 할 수 있는 (키, 값) 형태의 연관 배열이다
list(key1=value1, key2=value2, )함수로 생성한다.
> (x <- list(name="dobby", height=100))
$ name
[1] "dobby"

$ height
[1] 100

데이터 접근

색인 또는 키를 사용해 접근할 수 있다.
접근문법
  • x$key : x에서 key에 해당하는 값
> x <- list(name="dobby", height=c(30, 50, 70))
> x$name
[1] "dobby"
  • x[n]: x에서 n번째 데이터의 sub list
> x[1]
$ name
[1] "dobby"
x[[n]]: x에서 n번째 저장된 값

Matrix

동일한 스칼라 데이터 타입의 2차원 데이터 구조이고, 생성방법은 다음과 같다.

matrix() : 행렬을 생성한다.
matrix( 
   data,          # vector 값 
   nrow,          # 행의 수 
   ncol,          # 열의 수 
   byrow=FALSE,   # TRUE로 설정하면 행우선, FALSE일 경우 열 우선으로 데이터를 채운다. 
   dimnames=          # 행렬의 각 차원에 부여할 이름 
)

> matrix(1:9, nrow=3, dimnames=list(c("r1", "r2", "r3"), c("c1", "c2", "c3")))
   c1 c2 c3
r1  1  4  7
r2  2  5  8
r3  3  6  9

데이터 접근

색인이나 행과 열의 이름을 통해 접근
> x[1:2, ]
    [,1] [,2] [,3]
[1,]   1    4    7
[2,]   2    5    8
> x["r1", ]
c1 c2 c3
 1  4  7

행렬연산

dim(x) : x의 차원수를 반환
> x <- matrix(c(1:6), ncol=3)
> dim(x)
[1] 2 3

> dim(x) <- c(3, 2)
> x
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

Array

동일한 스칼라 데이터 타입의 다차원 데이터 구조이고 다음과 같이 생성한다.
array() 
array(
   data=                         # 데이터를 저장한 벡터
   dim=length(data),     # 배열의 차원. 이 값을 지정하지 않으면 1차원 배열이 생성된다.
   dimnames=               # 차원의 이름
)

> array(1:12, dim=c(3, 4))
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

데이터 접근

배열변수[행 인덱스, 열 인덱스, 차원인덱스]로 접근

Data Frame

다양한 데이터 타입으로 구성된 2차원 데이터 구조이고 다음과 같이 생성한다.
data.frame : 데이터 프레임을 생성한다.
data.frame(
   key=value,
   stringsAsFactors=default.stringsAsFactors()
)
stringsAsFactors: 주어진 문자열을 팩터 또는 문자열로 저장할 것인지를 지정하는 인자.
기본값은 TRUE이고 문자열은 팩터로 저장된다.

str()함수로 내부 구조를 알아본다.

데이터 접근

인덱스 또는 키로 접근가능하다.
  • d$colname: 컬럼 이름이 colname인 데이터에 접근
  • d[m, n, drop = TRUE]: m행 n컬럼에 저장된 데이터(m/n은 인덱스 혹은 컬럼 이름을 지정)
    • d[,n]과 같이 특정 컬럼값만 가져올 시 해당 컬럼의 데이터 타입으로 변환되는데 drop=False를 지정하면 데이터 프레임을 반환

유틸리티 함수

데이터를 손쉽게 살펴보기 위한 함수들은 다음과 같다.
  • head(x, n): x의 처음으로 부터 n번째 데이터를 반환
  • tail(x, n): x의 뒷부분을 n만큼 반환 

타입 판별

데이터 타입을 판별하는 함수
함수
의미
class(x)
데이터 타입을 반환
str(x)
객체 x의 내부 구조
is.factor(x)
주어진 객체 x가 팩터인가
is.numeric(x)
주어진 객체 x가 숫자를 저장한 벡터인가
is.character(x)
주어진 객체 x가 문자열을 저장한 벡터인가
is.matrix(x)
주어진 객체 x가 행렬인가
is.array(x)
주어진 객체 x가 배열인가
is.data.frame(x)
주어진 객체 x가 데이터 프레임인가

타입 변환

as.typename()함수를 사용하여 데이터 타입을 강제 벼환 할 수 있다.
함수
의미
as.factor(x)
주어진 객체 x를 팩터로 변환
as.numeric(x)
주어진 객체 x를 숫자를 저장한 벡터로 변환
as.character(x)
주어진 객체 x를 문자열을 저장한 벡터로 변환
as.matrix(x)
주어진 객체 x를 행렬로 변환
as.array(x)
주어진 객체 x를 배열로 변환
as.data.frame(x)
주어진 객체 x를 데이터 프레임으로 변환

评论

此博客中的热门博文

TensorFlow

Anaconda를 이용하여 Tensorflow 설치 Conda환경을 생성 #conda create -n 가상환경 이름 conda create -n tf python=3.6 anaconda 설치된 가상환경 실행 activate tf tf 가상환경에서 tensorflow 설치 pip install tensorflow      TensorFlow 개요 TensorFlow는 dataflow graph로 수학 계산과 데이터의 흐름을 나타낸다. TensorFlow는 dataflow graph를 구성 한 후 session을 생성하여 graph의 일부를 실행한다 Computation Graph TensorFlow 프로그램은 구성 단계 와 실행 단계 로 구성 구성(construction) 단계: 그래프를 조립 실행(execution) 단계: Session을 통해 그래프 연산을 실행 TensorFlow 기본적인 사용법 Argmax 설정한 axis에 따른 가장 큰 값을 가지는 요소의 index를 반환 axis = 0일때 x[0]와 x[1]의 각 요소들을 비교하여 큰 수의 index를 반환하고, axis = 1일때 x[0][]의 요소들 내 큰 수의 index와 x[1][]의 요소들 내 가장 큰 수의 index를 반환 Reshape tf.reshape(tensor, shape, name = None) tensor의 구조를 원하는 shape으로 변환 shape의 한 원소가 -1이라면, 전체 크기가 일정하게 유지되도록 해당 차원의 길이가 자동으로 계산된다. squeeze 차원 중 크기가 1인 차원을 스칼라값으로 바꿔 해당 차원을 제거한다. TensorBoard TensorBard는 TensorFlow에 기록된 로그를 그래프로 시각화시켜 보여주는 도구이다. TensorBoard 실행 tf.summary.FileWriter('log_dir', graph ...

Pandas Plot

pandas.DataFrame.plot.bar import matplotlib.pyplot as plt import pandas as pd import numpy as np df = pd.DataFrame(np.random.rand(5, 4).round(1),                   index=['snail', 'pig', 'elephant','rabbit', 'giraffe'],                   columns=pd.Index(['speed', 'lifespan', 'active', 'cuite'],                   name='Genus')) ax = df.plot(kind='bar',figsize=(10,4), rot = 0) plt.show() ==> output in Pycharm