일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- 텍스트분석
- DBSCAN
- 크롤링
- 데이터분석전문가
- pandas
- iloc
- PCA
- 독립표본
- 파이썬
- ADP
- 군집화
- 워드클라우드
- datascience
- dataframe
- 대응표본
- LDA
- 데이터분석
- 주성분분석
- 데이터분석준전문가
- ADsP
- t-test
- 데이터불균형
- Python
- opencv
- 오버샘플링
- 언더샘플링
- 빅데이터
- Lambda
- numpy
- 빅데이터분석기사
Archives
목록데이터불균형 (1)
Data Science LAB
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bQw7CE/btrw6grsS12/mkPwSAUERNlZ0kIIkAu8d0/img.png)
레이블의 분포가 불균형한 데이터셋을 학습시킬 때 예측 성능에 문제가 발생할 수 있는데, 이는 이상치 레이블이 정상 레이블의 데이터 건수에 비해 너무 적기 때문에 발생하는 현상이다. 즉, 이상 레이블의 데이터는 매우 적기 때문에 다양한 유형을 학습하지 못하는 반면 정상 레이블의 데이터 건수는 매우 많아 일방적으로 정상 레이블에 치우친 학습을 수행해 제대로된 이상 데이터 검출이 어려워진다. 이러한 문제점을 해결하기 위한 방법으로 오버샘플링/언더샘플링의 방법이 있다. OverSampling 이상치 레이블과 같이 적은 데이터 셋을 증식하여 학습에 필요한 데이터를 확보하는 방법이다. 동일한 데이터를 단순히 증식시키면 과적합이 되기 때문에, 원본 데이터의 피처 값들을 조금씩 변경하여 증식한다. 대표적인 오버샘플링 ..
🛠 Machine Learning/데이터 전처리
2022. 3. 14. 19:07