[CV Project] 마스크 착용 상태 분류 - EDA🌓
Date:
EDA(Exploratory Data Analysis)
- 탐색적 데이터 분석으로 데이터를 이해하기 위한 노력을 의미함
- Task의 목적을 이루기 위해 필요하거나 궁금한 부분을 채워가는 부분
Dataset description
- 20~70대의 아시아인 남녀로 구성
- 전체 사람 수 : 4,500
- 한 사람당 사진 수 : 7장(마스크 착용 5, 이상하게 착용 1, 미착용 1)
- image size : 384,512
- data 구분 : train set(60%, 2700), public test set(20%, 900), private test set(20%, 900)
Target
- 총 18개 class로 구분
- Mask 착용(정상, 비정상, 미착용), 성별(남, 여), 나이(~30,30~60,60~)
Data 위치 및 구성 확인
- train.csv : id, gender, race, age, path에 대한 정보 -> model 학습용 data
- info.csv : id, ans -> Public test용 data,
- images folder : 학습용 Data, test용 Data image가 들어가 있음
- train data image의 file 명에 Mask 상태에 대한 정보가 들어있음
+-- train/
| +-- images/
| +-- 000001_female_Asian_45/
| +-- mask1.jpg
| +-- incorrect_mask.jpg
| +-- normal.jpg
| +-- 000002_female_Asian_52/
| +-- …
| +-- train.csv
+-- eval/
+-- images/
+-- 814bff668ae5b9c595ceabcbb6e1ea84634afbd6.jpg
+-- 819f47db0617b3ea9725ef1f6f58e56561e7cb4b.jpg
+-- …
+-- info.csv
DataFrame 만들기
- 주어진 Train data
- 수정 후 Train data
Data Analysis
- 성별, 나이, Mask 착용 상태에 따른 분포
- Class 별 분포
💡 내용 분석
- 나이와 Mask 착용 상태에 대한 Data 분포의 불균형이 큼
- 1번에 의해서 Target class에 대한 분포의 불균형이 큼
📌 Data augmentation이나 dataset을 추가하여 불균형에 대한 문제 해결이 필요할 것 같음
📌reference
- boostcourse AI tech
💡 수정 필요한 내용은 댓글이나 메일로 알려주시면 감사하겠습니다!💡
댓글