빅데이터 분석기사 9

[빅데이터 분석기사] 정확도, 정밀도, 재현율, F1 Score 구하기

빅데이터 분석기사 예상문제로 꼭 등장하는 정확도, 재현율, 정밀도, F1 Score를 구하는 방법을 알아보도록 하겠습니다. 우선 정확도, 재현율, 정밀도, F1 Score를 구하기 위해서는 각각이 어떤 의미를 가지는 지 알아야겠죠? 머신 러닝 학습 후 테스트를 진행했다고 가정해 보겠습니다. 테스트의 결과로 다음과 같은 표를 얻을 수 있습니다. 실제 정답 True False 분류 결과 True True Positive (TP) False Positive (FP) False False Negative (FN) True Negative (TN) True Positive(TP): 모델이 True라고 예측했고, 실제로도 True인 경우 True Negative(TN): 모델이 False라고 예측했고, 실제로도 F..

[빅데이터 분석기사] 지지도, 신뢰도, 향상도 구하기

빅데이터 분석기사 예상문제로 꼭 등장하는 지지도, 신뢰도, 향상도 구하기 풀이 방법을 알아보겠습니다. 용어의 의미 우선 각 용어의 의미부터 알아보겠습니다. 지지도(Support): A → B의 경우, 전체전체 거래 품목 중 A와 B를 동시에 포함하는 거래의 비율 신뢰도(Confidence): A → B의 경우, A의 거래 중 B가 포함된 거래의 비율 향상도(Lift): A → B의 경우, B가 구매되는 경우 A와의 관계가 얼마나 고려되어 구매되는지에 대한 비율 구하는 방법 문제를 푸는 것이 목적이니 복잡한 풀이법은 다 무시하고, 가장 쉬운 풀이법을 사용하겠습니다. 지지도: A와 B를 동시에 포함하는 거래 수 / 전체 거래 수 신뢰도: 지지도 / (A를 포함하는 거래 수 / 전체 거래 수) 향상도: 신뢰도..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (7)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 다차원 통계 데이터를 사람의 얼굴 이미지를 이용하여 시각적으로 표현하는 방법은? 더보기 체르노프 페이스 2. 지도 학습 방법 중 하나로, 서로 다른 분류에 속한 데이터 간의 간격을 최대로 하는 초평면을 찾아 데이터를 분류하는 모델은? 더보기 SVM 3. 표본 추출 방법 중 모집단을 여러 소군집으로 나누고, 일정 수의 소군집을 무작위로 표본 추출한 다음, 추출된 소집단 내의 구성원들을 모두 조사하는 방법은? 더보기 군집 추출법 @참고 - 층화 추출법: 모집단에서 각 계층을 고루 대표할 수 있도록 유사한 원소끼리 층을 나누어 각 층에서 무작위로 추출하는 방법. 4. 비정상 시계열을 정상 시계열로 바꾸기 위해 연..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (6)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 결측값을 얻어진 자료의 평균값으로 대치하여 불완전한 자료를 완전한 자료로 만들어 분석을 진행하는 방법은? 더보기 평균 대치법 @참고 - 완전 대치법: 결측값이 포함된 행은 완전히 무시하고 분석을 진행 - 단순 확률 대치법: 평균값을 토대로 추정된 자료에 적절한 확률값을 부여하여 결측값을 대치 - 다중 대치법: 결측값을 다양한 방법으로 대치하여 만들어 낸 여러 개의 자료를 이용하여 분석 2. 자바 소프트웨어 프레임워크로, 여러 대의 서버에 데이터를 저장하고 저장된 각 서버에서 동시에 데이터를 처리함으로써 대량의 자료의 분산 저장과 분석을 가능하게 하는 분산 컴퓨팅 솔루션을 뜻하는 용어는? 더보기 하둡(Hado..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (5)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상을 의미하는 용어는? 더보기 프레이밍 효과 2. ROC 커브의 밑면적을 계산한 값으로, 해당 모델이 얼마나 좋은 성능을 보이는지 판단할 수 있도록 해주는 이 값의 이름은? 더보기 AUC @참고 - ROC 커브: 혼동 행렬(Confusion Matrix)에서 FPR과 TPR을 각각 x축, y축으로 두고 작성한 그래프 3. 여러 모델을 학습시켜 결합하는 방식으로, 모델 하나만으로는 원하는 성능을 낼 수 없을 때 효과적인 방법은? 더보기 앙상블 4. 데이터 분석 시 변수를 선택할 때, 최초 하나의 변수로부터 변..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (4)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. SAS사 주도로 만들어진 데이터 분석 방법론 중 하나로, 기술과 통계를 중심으로 제작되었으며, 5단계의 프로세스로 이루어진 방법론의 이름은? 더보기 SEMMA @참고 - KDD: 데이터를 중심으로 insight 발굴을 위한 절차와 단계를 정의 - CRISP-DM: 비즈니스 이해를 바탕으로 데이터 분석 목적의 6단계로 진행 2. 초기의 데이터셋을 랜덤 하게 훈련 데이터셋과 테스트 데이터셋으로 나누어, 훈련 데이터셋을 이용해 분석 모형을 구축하고 테스트 데이터셋을 이용하여 분석 모형의 성능을 평가하는 기법은? 더보기 홀드 아웃 교차검증 @참고 - K-Fold 교차검증: 교차 검증 방법 중 하나로, 데이터를 k개..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (3)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 초기 형태의 인공 신경망으로 입력층과 출력층으로 구성되어 있으며, 비선형 분류는 불가능한 형태의 신경망을 일컫는 말은? 더보기 퍼셉트론 @참고 - MLP(Multi-Layer Perceptron, 다중 퍼셉트론): 퍼셉트론으로 이루어진 층(Layer) 여러 개를 순차적으로 붙여놓은 형태. 입력층, 출력층, 은닉층으로 이루어짐. - 은닉층(Hidden Layer): MLP에서 입력층과 출력층을 제외한 모든 층. 은닉층에서 이루어지는 계산은 사용자가 확인할 수 없음. 2. 데이터가 불균형한 분포를 가지는 경우, 데이터셋에서 높은 비율을 차지하던 클래스의 데이터를 축소함으로써 데이터 불균형을 해소하는 방법은? 더..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (2)

각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 동일한 조사에서 비슷한 성향을 가진 다른 응답 대상자로부터 얻은 자료를 이용해 결측치를 대체하는 방법은? 더보기 핫 덱(Hot Deck) @참고 - 콜드 덱(Cold Deck): 결측치를 현재 진행 중인 연구가 아닌 외부 출처 또는 이전의 비슷한 연구에서 가져와서 대체 2. 방대한 양의 데이터를 그림, 숫자, 차트 등을 사용하여 쉽게 이해할 수 있도록 만드는 시각화 방법은? 더보기 인포그래픽 3. 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 하는 비교적 작은 규모의 데이터 웨어하우스를 뜻하는 용어는? 더보기 데이터 마트 4. 인터넷을 통해 파일을 전송하는 방법으로, TCP/IP를 기반으로 ..

[빅데이터 분석기사] 빅분기 실기 단답형 연습문제 (1)

빅데이터 분석기사 실기를 공부하며 임의로 단답형 연습문제를 만들어보았습니다. 조금이나마 도움이 되시길 바라면서, 시작해보겠습니다. 각 문제의 정답은 바로 문제 별로 하단에 존재하는 [더보기]를 누르시면 확인할 수 있습니다. 1. 조직적, 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램은? 더보기 웹 크롤러 2. 데이터베이스에 여러 사용자가 접근하여 데이터를 저장 및 관리 등의 기능을 수행하며 공유할 수 있는 환경을 제공하는 응용 소프트웨어 프로그램은? 더보기 DBMS 3. 자바스크립트 언어로부터 파생되었으며, 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 표준 포맷은? 더보기 JSON 4. 데이터 분포에서 그 비대칭성을 나타내는 척도는? 더보기 왜도..