제 4회 빅데이터분석기사 실기 후기, 가답안
제4회 빅데이터 분석기사 실기 후기
2022년의 첫 빅데이터 분석기사 실기로 시험 치고 나서 카페 가답안과 제 답안 확인하고 정리해서 올립니다! 그리고 문제 복원은 한국 데이터 진흥원의 빅데이터 분석기사 시험들이 문제은행식으로 되어 있어 저작권 문제가 있어서 제 답안과 풀이로만 작성했습니다.
0. 실기 시험 당일 응시 팁
1. 9:30까지 입실해야 하지만 10시 되기 10분 전에 입실한 사람도 있었다.
2. 컴퓨터 내 메모장은 시험이 시작하고 사용이 가능하다. 시험 전에 열심히 적어두시는 분들 계셨는데 고사장 감독관의 지시로 시험 시작하면 메모장 사용 가능하니 시작 전까지 복습하는 게 더 이득.
3. 시험 중 문의를 채팅을 통해 할 수 있는데 거의 실시간으로 응답을 받을 수 있다. 응답이 매우 빨라서 좋았다.
4. 시험 아이디는 자신의 수험번호, 비밀번호는 자신의 주민번호 앞 6자리이다.
5. 단답형 계산 문제에 계산기를 사용하려 하신 분들은 제지당했다. 작업형에서 계산해서 출력해서 풀면 문제없다.
1. 시험 후기
- 총평: 비전공자가 기출로만 공부했다면 힘들었을 것이다. 단답형은 무난했으나 작업형은 상대적으로 어려웠을 것 같다.
- 난이도: 단답형 하(중요 개념의 정의만 나옴) 작업형 1 중(다양한 데이터형 핸들링 방법), 작업형 2 중(기출만 한 경우 난이도 어려움)
구름 환경에서 연습했었는데 막상 시험 보면서 손에 익지 않은 키보드와 마우스로 하려 하니 속도가 느려졌었는데 데스크톱 환경에서 연습 많이 해두는 게 좋을 거 같다.
그리고 시험환경 문제가 있었다. 저번 회차에서는 100명이 0점 처리되어 재심사되었는데 이번 회차에서는 구름 플랫폼으로 시험 볼 때 '제출에 실패하였습니다'라는 메시지가 나오면서 제출이 되지 않아 시험시간 1시간 연장되었다. 그런데 시험 시간이 남았는데도 도중에 시험이 종료돼서 다시 시험 시작을 누르는 것을 반복해야 했다. 이 문제는 한 고사장의 문제가 아닌 듯하다.
또, 고사장마다 환경 세팅이 너무 다르다고 한다. 어떤 곳은 크롬부터 깔려있지 않아서 수험자가 설치했다.
1.1 단답형
- 이번 단답형은 이전 회차에 비해서 지엽적으로 나오지 않아 무난했다. 3회 차에서는 개념에 이어서 좀 더 이해가 필요했는데 이번에는 중요 기본 개념의 정의 관련으로만 나왔다. 그리고 해당하는 모든 범위에서 골고루 나온다.
- 매회 단답형에 계산문제 1문제 나오는 거 같다. 이전까지 은닉층에 입력받으면 출력이 어떻게 나오는지 계산하는 문제 나왔는데 이번에는 f-1 score 계산문제가 나왔다.
#JSON, 최소 제곱법, 박스 콕스, 차원 축소, SOM, 정규성, SVM, 드롭아웃, 스쿱, 0.686
단답형은 제가 정리한 것에서 다 나와서 나중에 블로그에 올리도록 하겠습니다.
1.2 작업형 1
- 기출 기반으로만 공부했다면 힘들었을 것이다. 이번에는 다양한 데이터 형을 전 처리하는 것이 나왔다.
- 특이했던 점은 특정 문제에서 임포트 한 데이터를 직접적으로 수정 못하게 에러가 나와서 순간 당황해서 copy로 해결.
- 기본적 통계 함수와 다양한 데이터 유형 핸들링, 인덱싱이 중점
Q 1.1 IQR 사분 범위 값 정수로 구하기.
#36
버림과 내림은 다른데 커뮤니티에서 보면 혼동해서 사용되고 있었다. 이번 문제에서는 결과가 달라지지는 않았으나 차이 있음을 유의하자
e.g. -1.5 => 버림: -1 내림: -2
Q1.2 유튜브 동영상: 파생변수 만들고 활용해서 다른 조건과 함께 인덱싱
#90
범위 잘 확인하기 ( 초과, 미만, 이하, 이상 )
Q1.3 넷플릭스: 날짜형 데이터 핸들링 활용해서 다른 조건과 함께 인덱싱
#6
날짜형 데이터 대신에 string모두 확인하는 경우도 있었는데 공백 포함이 달라서 결괏값이 다르게 나왔다. datetime으로 변환해서 풀면 문제없었다.
1.3 작업형 2
이전까지는 이진 분류 문제만 출제되었어서 설마 이번에는 다중 분류 문제인가 했는데 나왔다. 아마 기출로만 공부했었다면 Macro F-1 score 기준으로 채점기준 사용한다는 것에 대해서도 당황스러울 것이다. 검정하지 않고 제출만 해도 문제는 되지 않지만 성능을 모르고 제출하는 셈이 된다. 모든 문제에서는 각 문제에 맞는 성능평가가 사용되어야 해서 여러 지표를 알아두면 좋다.
데이터 전처리, feature 선택, 모델 선택 및 그리드 서치로 하이퍼 파라미터 튜닝, validation 데이터셋으로 모델 평가했을 때 0.51 달성 (대부분 수험자가 0.5 안팎으로 나옴). 문제 형태, 데이터, 평가 지표마다 다르기 때문에 점수 기준은 이전과 상이할 것으로 보인다.
여러 가지로 feature를 범주화도 해보고 차원 축소도 해봤는데 크게 영향을 미치지 못했다..ㅜㅜ
2. 시험 유의사항
단답형
- 대소문자 구분하지 않으나 한글과 영어 둘 다 적었다면 둘 중 하나라도 틀리면 오답 처리한다.
e.g. Drobout(드롭아웃) > 오답(한글답은 맞지만 스펠링이 틀려 오답)
작업형 1
- 부분점수 없으니 꼼꼼히 확인하고 제출해주셔야 합니다.
- 정수형 제출이면 int() 함수 사용해서 정수 처리해주어야 한다. 예. 36.0 float(실수)이고 36은 int(정수)이다.
- 답을 바로 print() 넣어서 하지 말고 변수에 할당해서 출력해야 한다. 예. print(36) 오답
작업형 2
csv 제출할 때는 꼭 칼럼명, 데이터 타입, 데이터 형태 등과 같은 제출 사항을 지켜야 해서 꼭 확인해야 한다. 이것 때문에 0점 받는다는 글 많이 봤다.
가답안으로는 단답, 작업형 1 만점으로 합격권인데 작업형 2의 채점기준을 알 수가 없어서 나와봐야 알 것 같다. 조만간 제가 참고했던 여러 자료 공유하면서 합격 후기로 찾아뵈면 좋겠습니다~
포스팅이 도움이 되셨다면 좋아요와 댓글 부탁드립니다 :)
빅데이터 분석기사 체험하기 작업형 ( Python 코드 )
빅데이터분석기사 실기 만점자 합격 후기(고득점 공부방법, 꿀팁,독학)
[서평] 데이터캠퍼스 빅데이터 분석기사 실기 교재 후기
서평] 이기적 빅데이터분석기사 실기 (필답형,R,Python 포함) 교재 후기