[ADsP] 3장 데이터 분석 (4-5)

STUDY/기술 ∙ Tech

[ADsP] 3장 데이터 분석 (4-5)

linchpin's 2023. 10. 18. 12:41

4장: 통계분석

[객관식]

1. 통계적 추론이란 표본으로부터 모집단에 관한 정보를 얻고 도출하는 과정으로, 추정과 가설검정을 통하여 이루어진다. 표본을 이용하여 모집단의 특성치에 대한 추측값을 제공하고 오차한계를 제시하는 과정을 추정이라고 한다. 다음 중 추정에 대한 설명으로 부적절한 것은?

오답: 신뢰수준 95%의 의미는 ~~추정값~~이 신뢰구간 내에 존재할 확률이 95%라는 것이다.
해설: 추정값이 아니라 모수값임.

2. Wage 데이터에서 wage에 대한 t-test를 실시하였다. 다음 설명 중 부적절한 것은?

오답: 평균에 대한 95% 신뢰구간은 귀무가설에서 설정한 평균의 참값을 ~~포함한다.~~
해설: mu=100이므로 포함되지 않음.

3. 다음 중 상관계수에 대한 설명으로 가장 부적절한 것은?

오답: 피어슨 상관계수는 두 변수를 순위로 변환시킨 후 두 순위 사이의 스피어만 상관계수로 정의된다.
해설:
- 피어슨 상관계수: 연속형 상관계수, 정규성 가정. 따라서 순위로 변환시키는 것은 옳지 않음.
- 스피어만 상관계수: 비모수적 방법, 순서형 변수에 사용함.

4. 회귀분석에서 결정계수(R2)에 대한 설명으로 부적절한 것은?

오답: 총 변동 중에서 ~~설명이 되지 않는 오차~~에 의한 변동이 차지하는 비율이다.
해설: 결정계수는 회귀모형에 의한 변동이 차지하는 비율임.

5. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?

정답: Durbin-Watson: 회귀모형 오차항의 자기상관이 있는지에 대한 검정 방법임.
정규성을 확인하기 위한 적절한 방법: 히스토그램, Q-Q plot, Shapiro-Wilks test 등 존재.

6. 다음 중 최적회귀방정식을 선택하기 위한 방법에 대한 설명으로 가장 부적절한 것은?

오답: 전진선택법이나 후진제거법과 ~~동일한 최적 모형을 선택하는 것~~이 단계적 방법이다.
해설: 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이다. 동일한 최적의 모형을 가지는 것은 아님.

7. 다음 중 아래의 결과물에 대한 설명으로 가장 부적절한 것은?

오답: 모든 설명변수에 대한 회귀계수 값이 ~~유의하다.~~
해설: Books 설명변수에 대한 회귀계수 값은 유의하지 않음.
정답인 선지:
- 위의 회귀모형은 대학의 졸업률을 설명하는데 유의하다.
- 위의 회귀모형은 대학의 졸업률의 변동성을 약 34.16% 설명한다.
- 회귀모형의 가정을 만족하는지는 판단할 수 없다.

8. 다음 중 정상 시계열에 대한 설명 중 적절하지 않은 것은?

오답: 일반적으로 평균이 일정하지 않은 비정상 시계열은 변환을 통해, 분산이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꾼다.
해설: 평균의 경우 차분을 통해, 분산의 경우 변환을 통해 정상 시계열로 바꿈.

9. 주성분분석은 p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 방법을 사용한다. 다음 중 주성분 개수를 선택하는 방법에 대한 설명으로 가장 부적절한 것은?

오답: 평균 고윳값 방법은 고유값들의 평균을 구한 후 평균값 이상이 되는 주성분을 ~~제거하는 방법~~이다.
해설: 이상값을 설정하는 방법이다.

10. 다음 중 시계열 예측에서 정상성(Stationary)을 만족한다는 것이 의미하는 것은?

정답: 분산이 시점에 의존하지 않는다.

11. 아래 주성분분석 결과에 대한 다음 설명 중 가장 부적절한 것은?

오답: 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 급격한 지점에서 주성분의 개수를 선택한다.
해설: 분산의 비율과 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택함. 총분산의 비율은 주성분분석 결과에서 확인할 수 있는 부분임.

12. 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은?

오답: L2 penalty를 사용한다.
해설: L1 규제를 사용함.

13. 다음은 다차원척도법(MDS)에 대한 설명이다. 설명이 가장 부적절한 것은?

오답: 일반적인 다차원척도법(classical MDS)은 계량적 다차원척도법(metric MDS)이라고도 부르며 순서척도의 데이터로 이루어진 개체들의 거리를 계산한다.
해설: 계량적 다차원척도법은 비율적 계량 척도임. 비계량적척도법(Non-metric MDS)은 다차원척도법 중 하나로 순서척도를 사용함.

14. 시계열 요소분해법은 시계열 자료가 몇 가지 변동들의 결합으로 이루어져 있다고 보고 변동요소별로 분해하여 쉽게 분석하기 위한 것이다. 다음 중 분해 요소에 대한 설명이 부적절한 것은?

오답: 순환변동은 경제 전반이나 특정 산업의 부침을 나타내 주는 것을 말한다.
해설: 순환변동은 경제적이거나 자연적인 이유없이 알려지지 않은 주기를 가지고 변화하는 것을 자료로 나타내 주는 것을 말함.

[주관식]

15. 아래 회귀분석 모형의 추정에 대한 설명에서 ( ㄱ )은 무엇인가?

주어진 자료를 가장 잘 설명하는 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 가진다. 이와 같이 구해진 회귀계수 추정량을 ( ㄱ )라고 한다.
정답: 최소제곱

16. 아래의 표본추출방법은 무엇인가?

번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법
정답: 계통추출법

17. 아래의 설명은 어떤 오류에 관한 설명인가?

귀무가설이 옳은데 귀무가설을 받아들이지 않고 기각하게 되는 오류
정답: 1종 오류

18. 아래는 단순 로지스틱 회귀 모형이다. "exp()의 의미는 x1, x2, ... xk가 주어질 때 x1이 한 단위 증가할 때마다 성공(y=1)의 ( 가 )이/가 몇 배 증가하는지를 나타내는 값이다." ( 가 )는 무엇인가?

정답: 승산 - odds

19. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?

정답: 정상성

20. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?

가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형임
나) 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형
다) 모형에 사용하는 시계열 자료의 시접에 따라 1차, 2차, ... p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함

정답: 자기회귀모형 (AR 모형)

21. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가?

정답: 분해시계열

22. 아래의 결과를 사용하여 결정계수(R2)를 계산하시오.

R2 = 1 - (SSR/SST) = SSE/SST

SST = SSR + SSE

정답: 1 - [4015.2/(3162.7+4015.2)] = 0.441

5장: 정형 데이터 마이닝

[객관식]

1. 한 보험회사에서는 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 활용하려 예측하려고 한다. 다음 중 가장 적절한 분석 기법은 무엇인가?

정답: 랜덤포레스트
해설: 앙상블 기법 중 하나, 의사결정나무와 같은 방법론이지만 기존의 과대/과소적합 문제를 좀 더 해결한 방법임
다른 선지: 시계열 분석, k-means 군집 분석, 주성분 분석

2. 모형의 평가를 위해 관측치를 한번 이상 훈련용 자료로 사용하는 복원 추출법에 기반하는 붓스트랩 기법에서 일반적으로 훈련용 자료의 선정을 d번 반복할 때 하나의 관측지가 선정되지 않을 확률은 (1-1/d)이다. d가 충분히 크다고 가정할 때 훈련용 집합으로 선정되지 않아 검증용 자료로 사용되는 관측치의 비율은?

정답: 36.8%
해설: 1/e = 0.367879...

3. 이익도표(Lift)를 작성함에 있어 평가도구 중 %Captured Response를 표현한 계산식으로 올바른 것은?

정답: 해당집단에서 목표변수의 특정범주 빈도/전체 목표변수의 특정범주 빈도 x 100
해설: 해당집단을 분리해내는 비율임.

4. 아래는 피자와 햄버거의 거래 관계를 나타낸 표이다. 피자 구매와 햄버거 구매에 대해 설명한 것으로 가장 적절한 것은 무엇인가?

정답: 향상도가 1보다 크므로 햄버거와 피자 사이에 연관성은 높다고 할 수 있다.
다른 선지:
- 지지도가 0.6로 전체 구매 중 햄버거와 피자가 같이 구매되는 경향이 높다. (지지도는 0.4임)
- 정확도가 0.7로 햄버거와 피자의 구매 관련성은 높다. (정확도를 보지 않음)
- 연관규칙 중 "햄버거→피자"보다 "피자→햄버거"의 신뢰도가 더 높다. (반대임)

5. 신경망 모형은 동물의 뇌신경계를 모방하여 분류를 위해 만들어진 모형이다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억 특성을 닮았고 특정 사건으로부터 일반화하는 능력도 갖고 있다. 다음 중 신경망 모형에 대한 설명으로 부적절한 것은?

오답: 신경망 모형에서 뉴런의 주요 기능은 입력과 입력 강도의 가중합을 구한 다음 활성화 함수에 의해 출력을 내보내게 되는 것이다. 따라서 입력 변수의 속성에 따라 활성화 함수를 ~~선택하는 방법이 달라지게 된다~~.
해설: 뉴런은 활성화 함수를 이용해 출력 결정하며 가중치 합을 계산하여 임계값과 비교함. 입력변수의 속성에 따라 활성화 함수를 선택하지 않음.

6. 다음 중 로지스틱 회귀모형에서 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때 표현되는 그래프의 형태로 적절한 것은?

정답: 역 S자 그래프

7. 로지스틱 회귀모형은 x와 y사이의 관계를 설명하는 모형으로서 종속변수가 범주형(y=0 또는 y=1)값을 갖는 경우에 사용하는 방법이다. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?

오답: 종속변수 y대신 로짓이라 불리는 상수를 사용하여 로짓을 설명변수들의 선형함수로 모형화하기 때문에 이 모형을 로지스틱 회귀모형이라고 한다.
해설: y의 값 범위를 [0,1]로 조정하기 위해서 로짓 변환을 사용함.

8. 계층적 군집분석을 위해 거리 계산을 수행할 때 사용하는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?

오답: cosine
다른 선지: minkowski, binary, canberra
해설: 민코우스키, 유클리디안, 표준화, 캔바라, 맨하튼, 마할라노비스, 체비셰프 거리 등이 있음.

9. 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합의 합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법은?

정답: 와드연결법
해설: 군집 내 편차들의 제곱합을 고려하여 군집간의 손실 최소화함.

10. 계층적 군집방법은 두 개체 간의 거리에 기반하여 군집을 형성해 나가므로 거리에 대한 정의가 필요한데, 다음 중 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리로 적절한 것은?

정답: 마할라노비스 거리

11. k-means 군집분석에 대한 설명으로 틀린 것은?

오답: 95% 이상의 개체가 seed에 할당되면 seed의 조정을 멈춘다
해설: 모든 개체가 군집으로 할당될 때까지 위 과정을 반복함.

12. 비계층적 군집 방법의 기법인 k-means clustering의 경우 이상값에 민감하여 군집 경계의 설정이 어렵다는 단점이 존재한다. 이러한 단점을 극복하기 위해 등장한 비계층적 군집 방법으로 적절한 것은?

정답: PAM(Partitioning Around Medoids)
해설: k-median 군집의 함수임.

13. 아래는 22개 미국 전투기에 대한 4개의 변수 값을 사용한 군집분석의 결과이다. 이에 대한 설명 중 부적절한 것은?

오답: 각 군집의 중심에 대한 정보가 포함되어 있다.
해설: 군집의 중심에 대한 정보는 나타나지 않음
다른 선지:
- 비계층적 군집분석의 결과이다.
- 위의 방법을 사용할 때 군집 개수를 사전에 결정해야 한다.
- 각 군집은 7, 6, 9개의 전투기를 포함한다.

14. k-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야 한다. 다음 중 군집수를 정하는 데 활용할 수 있는 그래프로 가장 적절한 것은 무엇인가?

정답: 집단 내 제곱합 그래프
해설: k-평균 군집은 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되므로 집단 내 제곱합 그래프가 필요함.
다른 선지:
- ROC 그래프
- 덴드로그램
- 향상도 곡선

15. 다음 군집화 방법 중 DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법은?

정답: 밀도기반 군집
해설: 어느 점을 기준으로 반경 내에 최소 개수만큼의 데이터를 가질 수 있도록 함으로써 특정 밀도함수 혹은 밀도에 의해 군집을 형성해나가는 기법임. 다른 방법으로 OPTICS도 있음.

16. 다음 중 R에서 연관성 분석을 위해 apriori함수를 활용하여 연관 규칙을 생성하였다. 다음 중 생성된 연관 규칙을 보기 위해 사용되는 함수로 가장 적절한 것은?

정답: inspect()

[주관식]

17. 혼합분포군집은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 모수와 가중치의 최대가능도추정에 사용되는 알고리즘은 무엇인가?

정답: EM(Expectation-Matching) 알고리즘

18. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리의 경우 1의 값을 가지는 지표는?

정답: 실루엣

19. SOM에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가?

정답: Best Matching Unit (BMU)

20. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위 등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는 무엇인가?

정답: 향상도 곡선

'STUDY > 기술 ∙ Tech' 카테고리의 다른 글

[SQL] 프로그래머스 SELECT 문제 정답 (0)	2023.11.04
[ADsP] 모의고사 문제 & 정답 정리 (1)	2023.10.22
[ADsP] 3장 데이터 분석 (1-3) (1)	2023.10.15
[ADsP] 2장 데이터 분석 기획 (0)	2023.09.22
[ADsP] 1장 데이터 이해 (1)	2023.09.18

현재글[ADsP] 3장 데이터 분석 (4-5)

DevFest Cloud 2023, 데이터분석, Above the Cloud, SQL 고득점, 데브챗, Your Buddy in Code, ADsP, DevChat, GDG Cloud, 데브챗 후기, 감정이란 무엇인가, DevFest Cloud, 감정, DevRel, 감정 수필, SQL 고득점 Kit, 감정이란, GDSC 연세, generative ai, GDSC 이화,

Today :
Yesterday :

linchpin's