TIL(Today I Learned) 20200827

통계 일변량 분석 기초의 이론과 실습을 진행했다. 오랜만에 하는거라 많이 잊어버려 다시 공부하고 있다.

통계 일변량 분석 기초

http://yongku.tistory.com/1012

통계 일변량 분석 기초

1. 평균 평균(Average)은 가장 기본적인 위치 추정 방법으로, 모든 값의 총합을 값의 개수로 나눈 값입니다. 모집단의 표본의 평균을 의미하는 라는 기호를 사용합니다. 2. 절사평균 절사평균(Trimmed

yongku.tistory.com

이변량 분석인 상관관계와 상관계수에 대한 이론과 실습에 대해 학습하였다. 통계를 다시 시작하려니 많이 막히고 생각이 안난다.

1. 상관관계

수많은 데이터 분석 프로젝트에서 탐색적 데이터 분석을 하면 예측값과 목푯값과의 상관관계 분석은 필수적입니다. 상관관계는 X가 큰 값을 가지면 Y도 큰 값을 갖고, X가 작은 값을 가지면 Y도 작은 값을 갖는 경우 변수 X와 Y는 양의 상관관계를 갖는다고 말할 수 있습니다. 반대로 X가 큰 값을 갖는데 Y 값이 작은 값을 갖고, X가 작은 값을 갖는데 Y가 큰 값을 갖는 경우를 변수 X와 Y는 음의 상관관계를 갖는다고 말할 수 있습니다.

2. 상관계수

상관계수(Correlation Coefficient)는 피어슨 상관계수라고도 하며, 수치적 변수들 간에 어떤 관계가 있는지를 나타내기 위해 사용되는 측정량을 말합니다. 상관계수의 범위는 -1부터 +1까지이며, -1은 완전한 음의 상관관계를 나타내고 +1은 완전한 양의 상관관계를 나타냅니다. 상관계수가 0이라는 것은 아무런 상관성이 없다는 것을 의미하지만, 데이터를 랜덤하게 재배치하면 우연히 상관계수가 양수나 음수가 될 수도 있습니다.

3. 상관행렬

상관행렬(Correlation Matrix)은 행과 열이 변수들을 의미하는 표를 말하며, 각 셀은 그 행과 열에 해당하는 변수들 간의 상관관계를 의미합니다.

4. 산점도

산점도(Scatterplot)는 x축과 y축이 서로 다른 두 개의 변수를 나타내는 도표를 말합니다. 즉, 두 변수 사이의 관계를 시각화하는 가장 기본적인 방법입니다. x, y축은 각각의 변수들을 의미하고 그래프의 각 점은 하나의 레코드를 의미합니다.

가설검정에 대해 배웠는데, 귀무가설과 대립가설은 쉬웠는데, p-value에 따른 채택하는 것을 잊어버렸다.

아래만 기억해두면 된다!

p-value > 유의수준 귀무가설 채택
p-value < 유의수준 대립가설 채택

그렇다고, 대립가설을 바로 기각하거나 하면 안된다.

확률이 더 높아서 채택한다는거지 실패하거나 오류가 있는게 아니다.

예를 들어, 유의 수준이 0.05 일 때 귀무가설의 확률이 95%가 나왔고, 대립가설이 5%가 나왔을 때 대립가설이 틀렸다는게 아니다.

1. 가설검정

가설검정(hypothesis test)은 전통적인 통계분석 방법입니다. 가설검정에 필요한 용어들은 아래와 같습니다.

■ 귀무가설(H0) : 우연 때문이라는 가설

■ 대립가설(H1) : 귀무가설과의 대조(증명하고자 하는 가설)

■ 일원검정 : 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정

■ 이원검정 : 양방향으로 우연히 일어날 확률을 계산하는 가설검정

2. 귀무가설과 대립가설의 예

귀무가설(H0) : 그룹 A와 그룹 B의 평균에는 차이가 없다.

대립가설(H1) : A는 B와 다르다

귀무가설(H0) : A <= B

대립가설(H1) : A > B

3. 검정방법

귀무가설과 대립가설의 검정방법은 양측검정과 단측검정, 좌측검정, 우측검정이 있습니다.

양측검정

귀무가설을 기각하는 영역이 왼쪽과 오른쪽 빨간 점에 있는 경우를 말합니다.

좌측검정

귀무가설을 기각하는 영역이 왼쪽 빨간 점에 있는 경우를 말합니다.

우측검정

귀무가설을 기각하는 영역이 오른쪽 빨간 점에 있는 경우를 말합니다.

가설검정.hwp

0.13MB

가설에 대한 검정 방법을 예제를 통해 실습을 진행하였고, R로 진행을 하면서 코드의 간결함을 좀 더 생각해서 코딩해야겠다.

#1번
ta <- data.frame(A = c(65, 87,73,79,81,69,80,77,68,74),
                 B = c(75, 69, 83, 81, 72, 79, 90, 88, 76,82),
                 C = c(59,78,67,62,83,76,55,75,49,68),
                 D = c(94,89,80,88,90,85,79,93,88,85))

#정규분포 검사
#A부터 D까지는 유의수준 0.05보다 크기 때문에 정규분포를 보이고 있다.
for(i in (1:4)) print(shapiro.test(ta[,i]))

#귀무가설 : 각 집단의 교육방법 효과 차이가 없다.
#대립가설 : 각 집단의 교육방법 효과 차이가 있다.

#검정방법 및 이유 : oneway test / 집단이 3개 이상이기 때문에 채택
#결과 해석 : p-value가 유의수준인 0.05보다 작아 귀무가설을 기각하고 효과가 있다고 볼 수 있다.
mydata = c(A,B,C,D)
group = c(rep(1,10), rep(2,10), rep(3,10), rep(4,10))
oneway.test(mydata~group, var =T)

#2번
x<-c(52,60,63,43,46,56,62,50)
y<-c(58,62,62,48,50,55,68,57)

#정규분포 검사
#x와 y는 유의수준 0.05보다 크기 때문에 정규분포를 보이고 있다.
shapiro.test(x)
shapiro.test(y)

#귀무가설 : 국어 성적을 올리기 위한 교육 전과 후의 차이는 있다.
#대립가설 : 국어 성적을 올리기 위한 교육 전과 후의 차이는 없다.

#검정방법 및 이유 : t-test / 같은 집단의 차이를 확인하기 때문에 채택
#결과 해석 : p-value가 유의수준인 0.05보다 크기 때문에 귀무가설을 채택하고 교육 전과 후의 차이가 있다고 볼 수 있다.
t.test(x,y)

#3번
pre<-c(13.2, 8.2, 10.9, 14.3, 10.7, 6.6, 9.5, 10.8, 8.8, 13.3)
post<-c(14.0, 8.8, 11.2, 14.2, 11.8, 6.4, 9.8, 11.3, 9.3, 13.6)

#정규분포 검사
#pre와 post는 유의수준 0.05보다 크기 때문에 정규분포를 보이고 있다.
shapiro.test(pre)
shapiro.test(post)

#귀무가설 : 성형 전과 후의 만족도 차이가 없다.
#대립가설 : 성형 전과 후의 만족도 차이가 있다.

#검정방법 및 이유 : t-test / 같은 집단 만족도의 차이를 확인하기 때문에 채택
#결과 해석 : p-value가 유의수준인 0.05보다 크기 때문에 귀무가설을 채택하고 성형 전과 후의 만족도 차이가 없다고 볼 수 있다.
t.test(pre, post)

#4번
a<-c(15, 10, 13, 7, 9, 8, 21, 9, 14, 8)
b<-c(15, 14, 12, 8, 14, 7, 16, 10, 15, 12)

#정규분포 검사
#신약과 위약의 p-value는 유의수준인 0.05보다 크기 때문에 정규분포를 보이고 있다.
shapiro.test(a)
shapiro.test(b)

#귀무가설 : 신약과 위약의 치료효과가 나타나는 시간의 평균 차이가 없다.
#대립가설 : 신약과 위약의 치료효과가 나타나는 시간의 평균 차이가 있다.

#검정방법 및 이유 : t-test
#결과 해석 : p-value가 유의수준인 0.05보다 크기 때문에 귀무가설을 채택하고 차이가 없다라고 할 수 있다.
t.test(a,b)

#5번
tta<-data.frame(d125<-c(23,27,24,25,29,30,26),
                d150<-c(35,32,38,36,32,33,34),
                d175<-c(36,41,38,39,40,38,39),
                d200<-c(32,30,37,34,35,34,32))

for(i in (1:4)) print(shapiro.test(tta[,i]))

#정규분포 검사
#d125 ~ d200까지 p-value가 유의수준인 0.05보다 크기 때문에 정규분포를 보이고 있다.

#귀무가설 : 열처리 온도에 따라 제품의 강도가 차이가 있다. 
#대립가설 : 열처리 온도에 따라 제품의 강도가 차이가 없다.

#검정방법 및 이유 : oneway test / 집단 3개 이상
#결과 해석 : p-value가 유의수준인 0.05보다 작기 때문에 귀무가설을 기각하고 차이가 있다라고 할 수 없다.
mydata = c(d125,d150,d175,d200)
group = c(rep(1,7), rep(2,7), rep(3,7), rep(4,7))
oneway.test(mydata~group, var =T)

#6번
kind<-c(15,10,13,7,9,8,21,9,14,8)
sati<-c(15,14,12,8,14,7,16,10,15,12)

shapiro.test(kind)
shapiro.test(sati)

#정규분포 검사
#kind와 sati의 p-value가 유의수준인 0.05보다 크기 때문에 정규분포를 보이고 있다.

#귀무가설 : 병원 직원들의 친절도가 병원 만족도에 영향을 미친다.
#대립가설 : 병원 직원들의 친절도가 병원 만족도에 영향을 미치지 않는다.

#검정방법 및 이유 : 선형회귀 / 변수의 영향을 확인하기 위해
#결과 해석 : p-value가 유의수준인 0.05보다 작기 때문에 귀무가설 기각하고 영향을 미친다고 할 수 없다.
summary(lm(kind ~ sati))

#7번
ttta<-data.frame(y<-c(100,90,98,79,81,69,80,77,68,54),
                 s1<-c(5,4,5,3,4,3,2,3,2,1),
                 s2<-c(5,3,4,3,4,3,2,3,2,1),
                 s3<-c(5,3,3,2,3,3,4,3,2,1))

for(i in (1:4)) print(shapiro.test(ttta[,i]))
#정규분포 검사
#각 변수들의 p-value가 유의수준인 0.05보다 크기 때문에 정규분포를 보이고 있다.

summary(lm(y~., data=ttta))

저작자표시

'자기개발 > TIL' 카테고리의 다른 글

TIL(Today I Learned) 20200904 (0)	2020.09.04
TIL(Today I Learned) 20200903 (0)	2020.09.03
TIL(Today I Learned) 20200902 (0)	2020.09.02
TIL(Today I Learned) 20200901 (0)	2020.09.01
TIL(Today I Learned) 20200831 (0)	2020.08.31
TIL(Today I Learned) 20200830 (0)	2020.08.30
TIL(Today I Learned) 20200829 (0)	2020.08.30
TIL(Today I Learned) 20200828 (0)	2020.08.28