반응형

츄르사려고 코딩하는 코집사입니다.

츄르사려고 코딩하는 코집사입니다.

 

빅데이터분석기사 필기 2과목 요약 - 빅데이터 탐색 ② 보러가기


1. ARIMA 모델

- 데이터에 나타나는 자기상관을 표현하는 것을 목적으로 사용하며 시계열에서 가장 많이 사용

- 비계절성 ARIMA 모델은 자기회귀와 이동평균모델을 결합한 것

 

2. 비모수검정

- 모집단의 분포가 알려져 있지 않는 경우 적용

- 관찰된 값이 실제 자료가 아닌 순위 등의 형태로 주어져 있을 때 적용

- 모집단 분포에 대한 가정이 필요 없어서 어떤 형태의 모집단이라 해도 비교 가능

- 평균보다는 중앙값이나 자료의 순위값을 이용하므로 이상값에 영향을 받지 않음

- 자료의 관찰된 형태가 순위로 주어져도 검정 가능

- 하지만, 모집단 분포가 어느 정도 가정이 된 경우 비모수검정 사용시 검정력 약해짐

- 실제 관측값이 아닌 순위를 사용하므로 정보량 감소

- 모수검정보다 계산과정이 더 복잡

 

3. 비모수검정의 종류

1) 부호검정

- 자료가 정확하지 않거나 순위로 주어진 경우 평균에 대한 검정을 실시할 수 없음

 

2) 윌콕슨 순위합검정

- 윌콕슨에 의해서 도입되고 맨-휘트니에 의해서 발전되어 맨-휘트니 검정이라고도 함

- 두 모집단에 대한 분포의 가정이 어렵거나 표본이 순위로밖에 표현될 수 없을 때, 두 모집단의 확률분포가 같은지에 대한 가설을 검정할 수 있음

 

3) 크루스칼왈리스 순위검정

- 몇 개의 모집단에 대한 펴균 검정을 하는 경우 모집단이 정규분포를 따른다는 가정을 할 수 없을 때 비모수적 검정을 하여야 하는데 이 경우에 사용하는 방법

 

4) 런검정

- 표본의 독립성 검정을 위해서 사용되는 검정 방법

- 연속적인 관찰치가 무작위적으로 나타난 것인지 앞으로 관찰치가 뒤의 관찰치에 어떤 영향을 미치는지를 검정하기 위해 사용

 

4. 산점도 분석

- 두 연속형 변수관계

- 두 변수 사이의 관계를 파악하기 위해 그림으로 표현한 것

 

5. 상관관계

- 수치를 이용한 두 연속형 변수의 분석

- 두 변수의 관계를 그림을 표현하고 나면 두 변수의 관계가 곡선관계인지, 직선관계인지를 파악할 수 있다.

- 상관계수 : 어느 정도 직선관계 성향을 나타내는지를 수치로 표현한 것

 

6. 다변량 통계분석

- 차원을 줄이고자 하는 분석과 많은 수의 케이스를 그 특성이 비슷한 몇 가지 집단으로 분류하여 전체 케이스가 가지고 있는 의미를 분류된 몇 개의 집단으로 설명하고자 할 때 사용

 

7. 변수의 차원을 줄이는 분석

- 다변량 회귀분석

- 다변량 분산분석

- 주성분분석

- 요인분석

- 정준상관분석

 

8. 요인분석

- 많은 변수가 상호연관성을 가지고 소수의 요인으로 분석되는 경우에 사용되고 해당되는 요인을 찾아서 변수를 줄이는 방법

- 상호 연관성이 있는 변수의 수를 하나의 요인으로 통계량을 알아 볼 수 있도록 하는 분석

- 여러 개의 변수들을 작은 수의 요인으로 줄이기 위해 사용

- 유효성 있는 변수를 선정하는 데 사용

- 적은수의 변수를 새롭게 만들기 위해 사용

- 각 변수가 정규분포를 따라야 함

- 표본의 수는 최소한 50 이상이어야 하며 100 이상이어야 정상적이고 분석하려는 변수의 4~5배 정도 되어야 함

 

9. 요인추출방법

- 주성분분석법, 최소제곱요인추출법, 최대우도요인추출법, 주축요인추출법, 알파요인추출법, 이미지요인추출법

- 주성분분석법 : 데이터의 총분산을 이용해서 구하는 방법

- 최소제곱요인추출법 : 사용되는 변수가 모집단이고 대상자가 표본이라 할 때 사용

 

10. 군집분석

- 객체들을 일정한 속성에 따라 몇 개의 군집으로 분류하고, 같은 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체들의 상이성을 알아내고자 하는 분석기법

 

11. 군집화방법

- 최단연결법 : 어느 한 객체와 가장 가까운 객체부터 군집에 포함시켜서 군집화하는 방법

- 최장연결법 : 군집 간의 거리를 각 군집에 속해있는 객체 간에 가장 먼 거리로 산정하여 비교하는 방법

- 중심연결법 : 각 군집의 중심들 사이의 거리를 사용하는 것으로 새로운 객체 포함 시에도 군집의 중심과의 거리가 가장 가까운 군집에 객체를 포함시키는 방법

 

12. 판별분석

- 결과가 다르게 나타난 개체들의 집단 간의 유사성과 차이점을 기준으로 아직 결과를 알 수 없는 개체에 대해서 결과를 예측하는 방법

- 판별분석에 사용되는 집단변수는 범주형 변수

- 판별변수는 연속형 변수

 

13. 다차원척도법(MDS, Multidimensional Scaling)

- 개체들의 특성을 측정하고 이 특성을 이용해서 개체들 사이의 유사성과 비유사성을 측정하여 다차원공간상에 점으로 표현하는 방법

- 다차원 공간상에서 유사성이 큰 대상들은 가깝게 유사성이 작은 대상들은 상대적으로 멀게 위치시킨 결과를 얻게 되는 것

 

 

반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기