통계 분석 방법
평균 차이 검정
※ 분석 대상변수 : 명목변수 → 연속변수
- 집단간 평균차이를 검정하는 방법
- 측정도구들: T-test, ANOVA, ANCOVA, MANOVA
- 집단 수
- 2개 이하: T-test(평균의 차이를 검증)
- 1개: one sample T-test
- 2개: independent samples T-test
- 시간: Paird samples T-test(특정 시간을 기준으로 전과 후의 차이를 검증)
- 3개 이상: ANOVA(분산을 검증)
- 3개: one way ANOVA
- 요인(2): two way ANOVA
- 시간(3): repeated measured ANOVA
- 시간+요인: two way repeated measured ANOVA
- Examples
- 음료수의 용량이 300ml가 맞는지 알고 싶다 → T-test
- 성별(남, 여)에 따른 성적 차이를 알고 싶다 → independent samples T-test
- 결혼한 사람과 안한 사람의 연봉 차이를 알 고 싶다 → independent samples T-test
- 같은 집단에 대해서 다이어트 전과 후의 차이를 알고 싶다 → Paird samples T-test
- 혈액형에 따른 키의 차이를 분석 → one way ANOVA
- 4개 매장의 매출액 또는 만족도의 차이를 알고 싶다 → one way ANOVA
- 1000도 / 1500도로 치킨을 튀겼을때의 맛 차이 → T-test
- 1000도의 오븐으로 구운 것과 1000도의 기름으로 튀긴 통닭의 맛 차이 → two way ANOVA
- 어학 연수 참여전과 참여후의 어학 점수 차이 → Paird samples T-test
- 참여전, 3개월, 6개월, 1년 후의 어학 점수 차이 → repeated measured ANOVA
- 집단(실험군, 대조군)의 통증 차이 → T-test
- 시점(실험 전, 실험 후)의 통증 차이 → T-test
- 실험 전과 실험 후의 실험군과 대조군의 통증 차이 → two way repeated measured ANOVA
관계 검정
※ 분석 대상 변수가 같음
- 변수와 변수의 관계를 검정
- 측정도구: 상관 분석, 회귀 분석, 교차 분석, 로지스틱 회귀분석
- 대표적인 측정도구
- 상관 분석(Correlation Test): 연속 변수 → 연속 변수
- 두 변수가 서로 동등한 입장에서 관계를 분석
- 키카 크면 몸무게도 많이 나가는가?
- 교차 분석(Chi-Square Test): 질적 변수 → 질적 변수
- 회귀 분석(Regression Test): 연속 변수 → 연속 변수
- 인과 관계: 하나의 변수가 원인이 되어 다른 변수에게 영향을 미치는 관계
- Simple Regression Analysis(단순 회귀 분석)
- 독립변수와 종속변수 간의 1차 선형적 관계를 도출하여 독립 변수가 종속변수에 미치는 영향 혹은 예측정도를 분석
- Multiple Regression(다중 회귀 분석)
- Hierarchical Regression
- Logistic Regression(로지스틱 회귀분석)
- 연속 변수 → 논리값 (T/F, Y/N)
독립변수와 종속변수
독립변수(Independent variable) - 반응변수(Response variable)
- 연구자가 의도적으로 변화시키는 변수
- 다른 변수에 영향을 받지 않고 종속 변수에 영향 줄 수 있는 변수
- 독립변수에 영향을 받아서 변화하는 변수
- 독립 변수가 연속형 자료이면 → 공변량(Covariance)이라 하고
- 독립 변수가 범주형 자료이면 → 요인(Factor) 이라 한다.
자료의 종류
범주형 자료 - 질적 자료(Qualitative data)
- 몇개의 범주(category)를 나타내는 문자나 숫자로 표시된 자료
- 일반적으로 빈도수(Frequency)를 이용해서 분석
- 명목형 자료
- 순위형 자료
- 숫자로 표현 될 수 있고, 수량화 할 수 있으며 평균을 할 수 있는 데이터
- 이산형 자료
- 자료에 소숫점이 의미를 가지지 못함
- 무엇인가 세는(count) 자료
- 일일 방문객 수, 교통사건 건수
- 연속형 자료
- 소숫점이 의미를 가짐
척도의 종류
범주형 자료 - 질적 자료(qualitative data)
- 명목 척도(범주형)
- 범주를 구분하는 용도로 쓰이는 척도
- 전공, 성별, 혈액형, 직업(회사원, 공무원 등)
- 순위 척도
- 관찰대상이 지닌 속성에 따라 순위를 결정하는 척도
- 서열은 있지만 간격이 다르고 수량화할 수 없고 평균을 낼 수 없음
- 선호도 조사(ex. 매우 좋다/싫다)
수치형 자료 - 양적 자료(quantitative data) = 연속형 데이터
- 등간 척도
- 속성의 차이를 양적인 차이로 측정하기 위하여 척도를 간격을 균일하게 분할하여 측정하는 척도
- 절대 0점은 정의 할 수 없음
- 비율 척도
- 절대 영점이 있는 등간 척도
타당성과 신뢰도
- 타당성
- 정밀도
- 정확도
두 그룹에 대한 평균 비교
- T- test (Student T-test)
- Mann-Whitney U test (Wilcoxon rank-sum test, Mann-Whitney-Wilcoxon test(MWW)) : 비모수적
- Welch's T-test
- 결과 값이 연속변수인지 판단
연속변수라면 T-test를 사용할 수 있는 조건을 만족하여, 2번째 조건을 판단
연속변수가 아니면: MWW - 정규분포인지 아닌지 판단
정규분포가 맞다면 3번째 조건 판단
정규분포가 아니면: MWW - 등분산 여부
등분산이면: T-test
아니면: Welch's T-test
확률 분포
- 이산 확률 분포: 이항 분포, 초기하 분포, 포아송 분포
- 연속 확률 분포: 정규 분포, t-분포, f-분포, 균등분포, 카이제곱 분포, 감마분포
정규분포
축적된 데이터를 기준으로 미래를 예측 할 수 있는 분포
평균과 분산만으로 설명이 가능한 분포
이항분포
결과가 반드시 두가지 중 하나여야 하고, 사건이 족립적으로 발생한다.
세 그룹에 대한 평균 비교
- 연속 변수
- 아닌 경우 → Kruskal-wallis H test
- 정규 분포
- 아닌 경우 → Kruskal-wallis H test
- 등분산
- 아닌 경우 → Welch's ANOVA
- Tuckey
동일한 대상에 대해 검정
두 그룹의 비교- 종속변수가 정규 분포일 때 사용: paired t-test
- 정규분포가 아니면 Wilcoxon signed rank test 사용(Wilcoxon matched paires rank test, Wilcoxon t-test, Wilcoxon test)
- 연속 데이터이고, 정분분포를 이룸 : (one way) repeated measure ANOVA
- 연속 데이터이지만 정규분포가 아닐 때: Friedman test
원인과 시간을 복합적으로 비교하는 방법
评论
发表评论