'파이썬' 태그의 글 목록

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

관리 메뉴

목록파이썬 (2)

Data Science LAB

[Python] OverSampling/UnderSampling

레이블의 분포가 불균형한 데이터셋을 학습시킬 때 예측 성능에 문제가 발생할 수 있는데, 이는 이상치 레이블이 정상 레이블의 데이터 건수에 비해 너무 적기 때문에 발생하는 현상이다. 즉, 이상 레이블의 데이터는 매우 적기 때문에 다양한 유형을 학습하지 못하는 반면 정상 레이블의 데이터 건수는 매우 많아 일방적으로 정상 레이블에 치우친 학습을 수행해 제대로된 이상 데이터 검출이 어려워진다. 이러한 문제점을 해결하기 위한 방법으로 오버샘플링/언더샘플링의 방법이 있다. OverSampling 이상치 레이블과 같이 적은 데이터 셋을 증식하여 학습에 필요한 데이터를 확보하는 방법이다. 동일한 데이터를 단순히 증식시키면 과적합이 되기 때문에, 원본 데이터의 피처 값들을 조금씩 변경하여 증식한다. 대표적인 오버샘플링 ..

🛠 Machine Learning/데이터 전처리 2022. 3. 14. 19:07

[Python]Tabular Data 웹에서 크롤링

Tabular Data 란? - 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터 - 즉, 행과 열로 표현이 가능한 데이터 즉, 데이터 분석에서 자주 사용하는 표 형식의 데이터이다. Tabular Data 웹에서 scrapping 오늘 불러올 데이터는 펜실베니아 데이터이다. https://en.wikipedia.org/wiki/Politics_of_Pennsylvania 1. 필요한 라이브러리 불러오기 import pandas as pd import numpy as np 2. 데이터 로딩 table_PA = pd.read_html('http://en.wikipedia.org/wiki/Politics_of_Pennsylvania') len(table_PA) 불러온 데이터셋을 확인해 보..

🐍 Python/Crawling 2022. 2. 13. 00:00

Prev 1 Next

목록파이썬 (2)

Data Science LAB

티스토리툴바