1장: 데이터 분석 개요
1. 데이터 마이닝 모델링에 대한 설명으로 잘못된 것
- 오답: 모델링 방법은 여러 가지가 있으므로 모델링 시
반드시 다양한 옵션을 줘서 모델링을 수행하여 최고의 성과를 도출해야 함 - 해설: 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계를 진행할 수 있도록 의사결정 해야 함.
2. 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준이 아닌 것
- 오답: throughput
- 해설: 데이터 마이닝에서는 정확도, 정밀도, direct rate, lift 등의 값으로 판단하고 시뮬레이션에서는 throughput, average waiting time, average queue length, time in system 등의 지표가 활용됨.
2장: R 프로그래밍 기초
1. 다음 중 아래의 코드를 수행한 결과에 대한 설명으로 옳은 것은?
c(2, 4, 6, 8) + c(1, 3, 5, 7, 9)
- 정답: 경고 메시지와 함께 결과가 출력된다.
- 해설:
- [1] 3 7 11 15 11 → 마지막으로 출력된 값 11은 c1의 첫 번째 벡터와 c2의 마지막 벡터를 더해서 구함
- 경고메시지(들): c(2, 4, 6, 8) + c(1, 3, 5, 7, 9)에서: 두 객체의 길이가 서로 배수관계에 있지 않습니다
2. 다음 중 아래 R 코드의 결과로 적절한 것은?
s ← c("Monday", "Tuesday", "Wednesday")
substr(s, 1, 2)
- 정답: [1] "Mo" "Tu" "We"
- 해설: substr(x, start, end)
3. 아래 그림과 같이 두 개의 데이터 프레임 dfm1, dfm2를 T_name이라는 변수로 결합하고자 할 때, 사용되는 함수는 어느 것인가?
- 정답: merge(dfm1, dfm2, by="T_name") → 동일 key 기준 결합
- cbind(dfm1, dfm2, by="T_name") → 행 결합
- rbind(dfm1, dfm2, by="T_name") → 열 결합
- subset(dfm1, dfm2, by="T_name") → filter
4. 다음 중 2019/08/23을 "2019-08-23"으로 나타내는 코드로 올바른 것은?
- 정답: as.Date('08/23/2019', '% m/%d/%Y')
- 해설: 연도는 대문자로 표기함
5. 아래 R코드로 생성되는 행렬 A에서 일부 원소를 추출하기 위한 코드 중 나머지 보기와 결과가 다른 것은?
A ← cbind(c(1,2,3), c(4,5,6), c(7,8,9))
colnames(A) ← c("A", "B", "C")
rownames(A) ← c("r1", "r2", "r3")
- 결과가 다르게 나오는 것: A[ -c(2, 3), ] → 1, 2, 3
- 결과가 같게 나오는 것: A[, "A"] / A[, 1] / A[, -(2:3)] → 1, 4, 7
6. R에서 다음의 명령을 수행했을 때 출력되는 결과는?
x ← c(1, 2, 3, NA)
mean(x)
- 정답: NA
- 해설: 평균을 구할 때 결측값이 있으면 NA가 출력됨
7. R에서 다음의 명령을 수행했을 때 출력되는 결과는?
x ← 1:100
sum(x>50)
- 정답: 50
- 1차적으로 x>50에 대한 값이 True False로 출력되므로, sum()을 씌운 값은 True값을 count 한 것이 됨
- 만약 50 미만의 값들을 모두 더한 값을 구하고 싶다면 sum(x[x>50])으로 구할 수 있음
8. 데이터 프레임명은 test라고 할 때, 경영학과 학생들의 데이터만 조회하고자 한다. R로 프로그래밍하시오.
- 정답: subset(test, 학과 == "경영학과")
- 해설: sql의 select와 같은 기능을 수행
3장: 데이터 마트
1. 아래의 왼쪽 자료를 오른쪽의 형태로 변환하기 위한 명령어로 적절한 것은?
- 정답: aqm <- melt(airquality, id=c("Month", "Day"), na.rm=True)
- 해설: 차트를 자세히 보면 NA값이 존재하는 데이터는 제외된 것을 확인할 수 있음
2. 개념: 결측값을 확인하고 결측값을 대치하는데 활용되는 R 함수
- complete.cases(): 결측값이 없으면 True, 있으면 False 반환
- is.na(): 결측값이 NA인지 여부 판단하여 반환
- knnImputation(): NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치, k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치
- rfImpute(): 랜덤 포레스트 모형의 경우 결측값이 있으면 에러를 발생하기 때문에 패키지 내에서 NA 결측값을 대치하도록 하는 함수
3. 결측값은 관측되어 얻어지는 실험 자료에서 종종 나타나는 형식이다. 결측값을 분석할 수 있는 통계분석 방법론으로 대치법이 있다. 다음 중 결측값을 처리하는 방법 중 부적절한 것은?
- 오답: 다중대치법은 단순대치법을 한 번만 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법이다.
추정량의 과소추정이나 계산의 난해성 문제가 보완된 방법이다. - 해설: 추정량의 표준오차의 과소추정을 보완
'STUDY > 기술 ∙ Tech' 카테고리의 다른 글
| [SQL] 프로그래머스 SELECT 문제 정답 (0) | 2023.11.04 |
|---|---|
| [ADsP] 모의고사 문제 & 정답 정리 (1) | 2023.10.22 |
| [ADsP] 3장 데이터 분석 (4-5) (1) | 2023.10.18 |
| [ADsP] 2장 데이터 분석 기획 (0) | 2023.09.22 |
| [ADsP] 1장 데이터 이해 (1) | 2023.09.18 |