[ADsP] 3장 데이터 분석 (1-3)

STUDY/기술 ∙ Tech

[ADsP] 3장 데이터 분석 (1-3)

linchpin's 2023. 10. 15. 15:28

1장: 데이터 분석 개요

1. 데이터 마이닝 모델링에 대한 설명으로 잘못된 것

오답: 모델링 방법은 여러 가지가 있으므로 모델링 시 ~~반드시 다양한 옵션을 줘서 모델링을 수행~~하여 최고의 성과를 도출해야 함
해설: 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계를 진행할 수 있도록 의사결정 해야 함.

2. 모델링 성능을 평가함에 있어, 데이터마이닝에서 활용하는 평가 기준이 아닌 것

오답: throughput
해설: 데이터 마이닝에서는 정확도, 정밀도, direct rate, lift 등의 값으로 판단하고 시뮬레이션에서는 throughput, average waiting time, average queue length, time in system 등의 지표가 활용됨.

2장: R 프로그래밍 기초

1. 다음 중 아래의 코드를 수행한 결과에 대한 설명으로 옳은 것은?

c(2, 4, 6, 8) + c(1, 3, 5, 7, 9)

정답: 경고 메시지와 함께 결과가 출력된다.
해설:
- [1] 3 7 11 15 11 → 마지막으로 출력된 값 11은 c1의 첫 번째 벡터와 c2의 마지막 벡터를 더해서 구함
- 경고메시지(들): c(2, 4, 6, 8) + c(1, 3, 5, 7, 9)에서: 두 객체의 길이가 서로 배수관계에 있지 않습니다

2. 다음 중 아래 R 코드의 결과로 적절한 것은?

s ← c("Monday", "Tuesday", "Wednesday")

substr(s, 1, 2)

정답: [1] "Mo" "Tu" "We"
해설: substr(x, start, end)

3. 아래 그림과 같이 두 개의 데이터 프레임 dfm1, dfm2를 T_name이라는 변수로 결합하고자 할 때, 사용되는 함수는 어느 것인가?

정답: merge(dfm1, dfm2, by="T_name") → 동일 key 기준 결합
cbind(dfm1, dfm2, by="T_name") → 행 결합
rbind(dfm1, dfm2, by="T_name") → 열 결합
subset(dfm1, dfm2, by="T_name") → filter

4. 다음 중 2019/08/23을 "2019-08-23"으로 나타내는 코드로 올바른 것은?

정답: as.Date('08/23/2019', '% m/%d/%Y')
해설: 연도는 대문자로 표기함

5. 아래 R코드로 생성되는 행렬 A에서 일부 원소를 추출하기 위한 코드 중 나머지 보기와 결과가 다른 것은?

A ← cbind(c(1,2,3), c(4,5,6), c(7,8,9))

colnames(A) ← c("A", "B", "C")

rownames(A) ← c("r1", "r2", "r3")

결과가 다르게 나오는 것: A[ -c(2, 3), ] → 1, 2, 3
결과가 같게 나오는 것: A[, "A"] / A[, 1] / A[, -(2:3)] → 1, 4, 7

6. R에서 다음의 명령을 수행했을 때 출력되는 결과는?

x ← c(1, 2, 3, NA)

mean(x)

정답: NA
해설: 평균을 구할 때 결측값이 있으면 NA가 출력됨

7. R에서 다음의 명령을 수행했을 때 출력되는 결과는?

x ← 1:100

sum(x>50)

정답: 50
1차적으로 x>50에 대한 값이 True False로 출력되므로, sum()을 씌운 값은 True값을 count 한 것이 됨
만약 50 미만의 값들을 모두 더한 값을 구하고 싶다면 sum(x[x>50])으로 구할 수 있음

8. 데이터 프레임명은 test라고 할 때, 경영학과 학생들의 데이터만 조회하고자 한다. R로 프로그래밍하시오.

정답: subset(test, 학과 == "경영학과")
해설: sql의 select와 같은 기능을 수행

3장: 데이터 마트

1. 아래의 왼쪽 자료를 오른쪽의 형태로 변환하기 위한 명령어로 적절한 것은?

정답: aqm <- melt(airquality, id=c("Month", "Day"), na.rm=True)
해설: 차트를 자세히 보면 NA값이 존재하는 데이터는 제외된 것을 확인할 수 있음

2. 개념: 결측값을 확인하고 결측값을 대치하는데 활용되는 R 함수

complete.cases(): 결측값이 없으면 True, 있으면 False 반환
is.na(): 결측값이 NA인지 여부 판단하여 반환
knnImputation(): NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치, k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치
rfImpute(): 랜덤 포레스트 모형의 경우 결측값이 있으면 에러를 발생하기 때문에 패키지 내에서 NA 결측값을 대치하도록 하는 함수

3. 결측값은 관측되어 얻어지는 실험 자료에서 종종 나타나는 형식이다. 결측값을 분석할 수 있는 통계분석 방법론으로 대치법이 있다. 다음 중 결측값을 처리하는 방법 중 부적절한 것은?

오답: 다중대치법은 단순대치법을 한 번만 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법이다. ~~추정량~~의 과소추정이나 계산의 난해성 문제가 보완된 방법이다.
해설: 추정량의 표준오차의 과소추정을 보완

'STUDY > 기술 ∙ Tech' 카테고리의 다른 글

[SQL] 프로그래머스 SELECT 문제 정답 (0)	2023.11.04
[ADsP] 모의고사 문제 & 정답 정리 (1)	2023.10.22
[ADsP] 3장 데이터 분석 (4-5) (1)	2023.10.18
[ADsP] 2장 데이터 분석 기획 (0)	2023.09.22
[ADsP] 1장 데이터 이해 (1)	2023.09.18

현재글[ADsP] 3장 데이터 분석 (1-3)

Above the Cloud, 감정이란, DevFest Cloud 2023, 감정, SQL 고득점, GDSC 이화, GDSC 연세, DevFest Cloud, Your Buddy in Code, ADsP, GDG Cloud, DevRel, 감정 수필, 데브챗, 감정이란 무엇인가, 데이터분석, DevChat, SQL 고득점 Kit, generative ai, 데브챗 후기,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

linchpin's