4장: 통계분석
[객관식]
1. 통계적 추론이란 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정으로, 추정과 가설검정을 통하여 이루어진다. 표본을 이용하여 모집단의 특성치에 대한 추측값을 제공하고 오차한계를 제시하는 과정을 추정이라고 한다. 다음 중 추정에 대한 설명으로 부적절한 것은?
- 오답: 신뢰수준 95%의 의미는
추정값이 신뢰구간 내에 존재할 확률이 95%라는 것이다. - 해설: 추정값이 아니라 모수값임.
2. Wage 데이터에서 wage에 대한 t-test를 실시하였다. 다음 설명 중 부적절한 것은?

- 오답: 평균에 대한 95% 신뢰구간은 귀무가설에서 설정한 평균의 참값을
포함한다. - 해설: mu=100이므로 포함되지 않음.
3. 다음 중 상관계수에 대한 설명으로 가장 부적절한 것은?
- 오답: 피어슨 상관계수는 두 변수를 순위로 변환시킨 후 두 순위 사이의 스피어만 상관계수로 정의된다.
- 해설:
- 피어슨 상관계수: 연속형 상관계수, 정규성 가정. 따라서 순위로 변환시키는 것은 옳지 않음.
- 스피어만 상관계수: 비모수적 방법, 순서형 변수에 사용함.
4. 회귀분석에서 결정계수(R2)에 대한 설명으로 부적절한 것은?
- 오답: 총 변동 중에서
설명이 되지 않는 오차에 의한 변동이 차지하는 비율이다. - 해설: 결정계수는 회귀모형에 의한 변동이 차지하는 비율임.
5. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?
- 정답: Durbin-Watson: 회귀모형 오차항의 자기상관이 있는지에 대한 검정 방법임.
- 정규성을 확인하기 위한 적절한 방법: 히스토그램, Q-Q plot, Shapiro-Wilks test 등 존재.
6. 다음 중 최적회귀방정식을 선택하기 위한 방법에 대한 설명으로 가장 부적절한 것은?
- 오답: 전진선택법이나 후진제거법과
동일한 최적 모형을 선택하는 것이 단계적 방법이다. - 해설: 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이다. 동일한 최적의 모형을 가지는 것은 아님.
7. 다음 중 아래의 결과물에 대한 설명으로 가장 부적절한 것은?

- 오답: 모든 설명변수에 대한 회귀계수 값이
유의하다. - 해설: Books 설명변수에 대한 회귀계수 값은 유의하지 않음.
- 정답인 선지:
- 위의 회귀모형은 대학의 졸업률을 설명하는데 유의하다.
- 위의 회귀모형은 대학의 졸업률의 변동성을 약 34.16% 설명한다.
- 회귀모형의 가정을 만족하는지는 판단할 수 없다.
8. 다음 중 정상 시계열에 대한 설명 중 적절하지 않은 것은?
- 오답: 일반적으로 평균이 일정하지 않은 비정상 시계열은
변환을 통해, 분산이 일정하지 않은 비정상 시계열은차분을 통해 정상 시계열로 바꾼다. - 해설: 평균의 경우 차분을 통해, 분산의 경우 변환을 통해 정상 시계열로 바꿈.
9. 주성분분석은 p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 방법을 사용한다. 다음 중 주성분 개수를 선택하는 방법에 대한 설명으로 가장 부적절한 것은?
- 오답: 평균 고윳값 방법은 고유값들의 평균을 구한 후 평균값 이상이 되는 주성분을
제거하는 방법이다. - 해설: 이상값을 설정하는 방법이다.
10. 다음 중 시계열 예측에서 정상성(Stationary)을 만족한다는 것이 의미하는 것은?
- 정답: 분산이 시점에 의존하지 않는다.
11. 아래 주성분분석 결과에 대한 다음 설명 중 가장 부적절한 것은?

- 오답: 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 급격한 지점에서 주성분의 개수를 선택한다.
- 해설: 분산의 비율과 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택함. 총분산의 비율은 주성분분석 결과에서 확인할 수 있는 부분임.
12. 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은?
- 오답:
L2penalty를 사용한다. - 해설: L1 규제를 사용함.
13. 다음은 다차원척도법(MDS)에 대한 설명이다. 설명이 가장 부적절한 것은?
- 오답: 일반적인 다차원척도법(classical MDS)은 계량적 다차원척도법(metric MDS)이라고도 부르며 순서척도의 데이터로 이루어진 개체들의 거리를 계산한다.
- 해설: 계량적 다차원척도법은 비율적 계량 척도임. 비계량적척도법(Non-metric MDS)은 다차원척도법 중 하나로 순서척도를 사용함.
14. 시계열 요소분해법은 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동요소별로 분해하여 쉽게 분석하기 위한 것이다. 다음 중 분해 요소에 대한 설명이 부적절한 것은?
- 오답: 순환변동은 경제 전반이나 특정 산업의 부침을 나타내 주는 것을 말한다.
- 해설: 순환변동은 경제적이거나 자연적인 이유없이 알려지지 않은 주기를 가지고 변화하는 것을 자료로 나타내 주는 것을 말함.
[주관식]
15. 아래 회귀분석 모형의 추정에 대한 설명에서 ( ㄱ )은 무엇인가?
- 주어진 자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 가진다. 이와 같이 구해진 회귀계수 추정량을 ( ㄱ )라고 한다.
- 정답: 최소제곱
16. 아래의 표본추출방법은 무엇인가?
- 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법
- 정답: 계통추출법
17. 아래의 설명은 어떤 오류에 관한 설명인가?
- 귀무가설이 옳은데 귀무가설을 받아들이지 않고 기각하게 되는 오류
- 정답: 1종 오류
18. 아래는 단순 로지스틱 회귀 모형이다. "exp()의 의미는 x1, x2, ... xk가 주어질 때 x1이 한 단위 증가할 때마다 성공(y=1)의 ( 가 )이/가 몇 배 증가하는지를 나타내는 값이다." ( 가 )는 무엇인가?
- 정답: 승산 - odds
19. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?
- 정답: 정상성
20. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?
- 가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형임
- 나) 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
- 다) 모형에 사용하는 시계열 자료의 시접에 따라 1차, 2차, ... p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함
- 정답: 자기회귀모형 (AR 모형)
21. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가?
- 정답: 분해시계열
22. 아래의 결과를 사용하여 결정계수(R2)를 계산하시오.

R2 = 1 - (SSR/SST) = SSE/SST
SST = SSR + SSE
- 정답: 1 - [4015.2/(3162.7+4015.2)] = 0.441
5장: 정형 데이터 마이닝
[객관식]
1. 한 보험회사에서는 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 활용하려 예측하려고 한다. 다음 중 가장 적절한 분석 기법은 무엇인가?
- 정답: 랜덤포레스트
- 해설: 앙상블 기법 중 하나, 의사결정나무와 같은 방법론이지만 기존의 과대/과소적합 문제를 좀 더 해결한 방법임
- 다른 선지: 시계열 분석, k-means 군집 분석, 주성분 분석
2. 모형의 평가를 위해 관측치를 한번 이상 훈련용 자료로 사용하는 복원 추출법에 기반하는 붓스트랩 기법에서 일반적으로 훈련용 자료의 선정을 d번 반복할 때 하나의 관측지가 선정되지 않을 확률은 (1-1/d)이다. d가 충분히 크다고 가정할 때 훈련용 집합으로 선정되지 않아 검증용 자료로 사용되는 관측치의 비율은?
- 정답: 36.8%
- 해설: 1/e = 0.367879...
3. 이익도표(Lift)를 작성함에 있어 평가도구 중 %Captured Response를 표현한 계산식으로 올바른 것은?
- 정답: 해당집단에서 목표변수의 특정범주 빈도/전체 목표변수의 특정범주 빈도 x 100
- 해설: 해당집단을 분리해내는 비율임.
4. 아래는 피자와 햄버거의 거래 관계를 나타낸 표이다. 피자 구매와 햄버거 구매에 대해 설명한 것으로 가장 적절한 것은 무엇인가?

- 정답: 향상도가 1보다 크므로 햄버거와 피자 사이에 연관성은 높다고 할 수 있다.
- 다른 선지:
- 지지도가 0.6로 전체 구매 중 햄버거와 피자가 같이 구매되는 경향이 높다. (지지도는 0.4임)
- 정확도가 0.7로 햄버거와 피자의 구매 관련성은 높다. (정확도를 보지 않음)
- 연관규칙 중 "햄버거→피자"보다 "피자→햄버거"의 신뢰도가 더 높다. (반대임)
5. 신경망 모형은 동물의 뇌신경계를 모방하여 분류를 위해 만들어진 모형이다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억 특성을 닮았고 특정 사건으로부터 일반화하는 능력도 갖고 있다. 다음 중 신경망 모형에 대한 설명으로 부적절한 것은?
- 오답: 신경망 모형에서 뉴런의 주요 기능은 입력과 입력 강도의 가중합을 구한 다음 활성화 함수에 의해 출력을 내보내게 되는 것이다. 따라서 입력 변수의 속성에 따라 활성화 함수를
선택하는 방법이 달라지게 된다. - 해설: 뉴런은 활성화 함수를 이용해 출력 결정하며 가중치 합을 계산하여 임계값과 비교함. 입력변수의 속성에 따라 활성화 함수를 선택하지 않음.
6. 다음 중 로지스틱 회귀모형에서 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프의 형태로 적절한 것은?
- 정답: 역 S자 그래프
7. 로지스틱 회귀모형은 x와 y사이의 관계를 설명하는 모형으로서 종속변수가 범주형(y=0 또는 y=1)값을 갖는 경우에 사용하는 방법이다. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
- 오답: 종속변수 y대신 로짓이라 불리는 상수를 사용하여 로짓을 설명변수들의 선형함수로 모형화하기 때문에 이 모형을 로지스틱 회귀모형이라고 한다.
- 해설: y의 값 범위를 [0,1]로 조정하기 위해서 로짓 변환을 사용함.
8. 계층적 군집분석을 위해 거리 계산을 수행할 때 사용하는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?
- 오답: cosine
- 다른 선지: minkowski, binary, canberra
- 해설: 민코우스키, 유클리디안, 표준화, 캔바라, 맨하튼, 마할라노비스, 체비셰프 거리 등이 있음.
9. 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은?
- 정답: 와드연결법
- 해설: 군집 내 편차들의 제곱합을 고려하여 군집간의 손실 최소화함.
10. 계층적 군집방법은 두 개체 간의 거리에 기반하여 군집을 형성해 나가므로 거리에 대한 정의가 필요한데, 다음 중 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리로 적절한 것은?
- 정답: 마할라노비스 거리
11. k-means 군집분석에 대한 설명으로 틀린 것은?
- 오답: 95% 이상의 개체가 seed에 할당되면 seed의 조정을 멈춘다
- 해설: 모든 개체가 군집으로 할당될 때까지 위 과정을 반복함.
12. 비계층적 군집 방법의 기법인 k-means clustering의 경우 이상값에 민감하여 군집 경계의 설정이 어렵다는 단점이 존재한다. 이러한 단점을 극복하기 위해 등장한 비계층적 군집 방법으로 적절한 것은?
- 정답: PAM(Partitioning Around Medoids)
- 해설: k-median 군집의 함수임.
13. 아래는 22개 미국 전투기에 대한 4개의 변수 값을 사용한 군집분석의 결과이다. 이에 대한 설명 중 부적절한 것은?

- 오답: 각 군집의 중심에 대한 정보가 포함되어 있다.
- 해설: 군집의 중심에 대한 정보는 나타나지 않음
- 다른 선지:
- 비계층적 군집분석의 결과이다.
- 위의 방법을 사용할 때 군집 개수를 사전에 결정해야 한다.
- 각 군집은 7, 6, 9개의 전투기를 포함한다.
14. k-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야 한다. 다음 중 군집수를 정하는 데 활용할 수 있는 그래프로 가장 적절한 것은 무엇인가?
- 정답: 집단 내 제곱합 그래프
- 해설: k-평균 군집은 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되므로 집단 내 제곱합 그래프가 필요함.
- 다른 선지:
- ROC 그래프
- 덴드로그램
- 향상도 곡선
15. 다음 군집화 방법 중 DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법은?
- 정답: 밀도기반 군집
- 해설: 어느 점을 기준으로 반경 내에 최소 개수만큼의 데이터를 가질 수 있도록 함으로써 특정 밀도함수 혹은 밀도에 의해 군집을 형성해나가는 기법임. 다른 방법으로 OPTICS도 있음.
16. 다음 중 R에서 연관성 분석을 위해 apriori함수를 활용하여 연관 규칙을 생성하였다. 다음 중 생성된 연관 규칙을 보기 위해 사용되는 함수로 가장 적절한 것은?
- 정답: inspect()
[주관식]
17. 혼합분포군집은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 모수와 가중치의 최대가능도추정에 사용되는 알고리즘은 무엇인가?
- 정답: EM(Expectation-Matching) 알고리즘
18. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리의 경우 1의 값을 가지는 지표는?
- 정답: 실루엣
19. SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가?
- 정답: Best Matching Unit (BMU)
20. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위 등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는 무엇인가?
- 정답: 향상도 곡선
'STUDY > 기술 ∙ Tech' 카테고리의 다른 글
| [SQL] 프로그래머스 SELECT 문제 정답 (0) | 2023.11.04 |
|---|---|
| [ADsP] 모의고사 문제 & 정답 정리 (1) | 2023.10.22 |
| [ADsP] 3장 데이터 분석 (1-3) (1) | 2023.10.15 |
| [ADsP] 2장 데이터 분석 기획 (0) | 2023.09.22 |
| [ADsP] 1장 데이터 이해 (1) | 2023.09.18 |