일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Python
- 대응표본
- 크롤링
- Lambda
- iloc
- 워드클라우드
- 데이터분석
- LDA
- 데이터불균형
- 독립표본
- 빅데이터분석기사
- PCA
- 빅데이터
- 텍스트분석
- opencv
- 군집화
- pandas
- ADP
- ADsP
- 오버샘플링
- DBSCAN
- 주성분분석
- t-test
- numpy
- datascience
- dataframe
- 파이썬
- 언더샘플링
- 데이터분석전문가
- 데이터분석준전문가
목록분류 전체보기 (300)
Data Science LAB

Pandas 에서는 다양한 방법으로 결측치(NA)를 처리할 수 있다. 결측치란, 컬럼에 값이 없는 NULL 상태의 데이터를 말하며, 데이터셋을 머신러닝 모델에 적용할 때 결측치가 존재하면 문제가 발생하기 때문에 다른 값으로 대체하거나 삭제해야한다. 데이터의 결측 여부 확인 import pandas as pd import numpy as np data = pd.read_csv("titanic_train.csv") data.head() 먼저, 유명한 분류 데이터셋 중 하나인 타이타닉 데이터셋을 불러온다. data.isna() isna()를 사용하면 데이터가 결측인지 아닌지에 대해 True/False로 반환해준다. True -> 결측 False -> 결측 X data.isna().sum() isna에 sum(..

Pandas에서 apply lambda를 적용하면 손쉽게 데이터를 가공할 수 있다. def get_square(a): return a**2 print('3의 제곱 : ',get_square(3)) 보통 함수를 생성할 때, def [함수명(인자)]: return 반환값 으로 생성하지만, lambda를 사용하면 손쉽게 함수를 생성하고 적용할 수 있다. lambda_square = lambda x: x**2 print("3의 제곱 : ",lambda_square(3)) lambda를 이용하면 한줄의 코드로도 함수를 생성할 수 있다. : 로 반활될 입력 인자의 계산식을 분리한다. :의 왼쪽에 있는 x는 입력인자이며, 오른쪽은 입력인자의 계산식이다. a = [1,2,3] squares = map(lambda x ..

Pandas를 이용해서 데이터를 선택할 때, iloc과 loc을 자주 사용하게 되는데, 가끔 헷갈려서 두 연산자에 대해 포스팅 해보려고 한다! 위치 기반 인덱싱 위치 기반 인덱싱은 0을 출발점으로 하는 가로, 세로축 좌표 기반의 행과 열위치를 기반으로 데이터를 지정한다. 따라서 행, 열 값으로 정수가 입력되며, iloc[] 연산자는 위치 기반 인덱싱에 해당한다. iloc[]은 행과 열 값으로 integer 또는 integer형의 슬라이싱, 팬시 리스트 값을 입력해줘야 한다. 먼저, 연습용으로 데이터프레임을 하나 생성해줍니다. import pandas as pd data = {'Name' : ['Red','Blue','Yellow','Green'], 'Year' : [2020,2021,2022,2023],..

그 동안 머신러닝을 공부하면서 추천 시스템에 대한 공부는 하지 않았었는데 이번 기회에 공부해보려고 한다..!처음 접하는 거라 신기하기도 하고, 유튜브나 넷플릭스 등등 여러 추천 알고리즘들에 대해 궁금한게 많았는데 차근차근 공부해보려고 한다...! 추천 시스템 이란? 추천 시스템(推薦system)은 정보 필터링 (IF) 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보 (영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것이다. 추천 시스템에는 협업 필터링 기법을 주로 사용한다. 소셜 북마크 사이트에서 링크를 사람들에게 추천하고 무비렌즈 데이터 세트에서 영화를 추천하는 방법등이 이에 속한다. 정보 필터링 만들기 - 위키백과, 우리 모두의 백과사전 편집기가 지금 로드됩니다. 몇 초 후에도 이..

NMF 개요 NMF는 Truncated SVD와 같이 낮은 랭크를 통한 행렬 근사 방식의 변형이다. NMF는 원본 행렬 내의 모든 원소 값이 모두 0 이상이라는게 보장되면 좀 더 간단하게 두 개의 양수 행렬로 분해될 수 있는 기법을 지칭한다. 4×6 원본 행렬 V는 4×2 행렬 W와 2×6행렬 H로 근사해 분해될 수 있다. 행렬 분해(Matrix Factorization)는 일반적으로 SVD와 같은 행렬 분해 기법을 통칭한다. 이처럼 행렬 분해를 하게 되면 W와 H행렬을 길고 가는 행렬W와 작고 넓은 행렬 H로 분해된다. 분해된 행렬은 잠재 요소를 특성으로 가지게 되는데, 분해 행렬 W는 원본 행에 대해 이 잠재 요소의 값이 얼마나 되는지에 대응하며, 분해 행렬 H는 이 잠재 요소가 원본 열로 어떻게 구..

SVD 개요 SVD는 PCA와 비슷하게 행렬 분해 기법을 이용하지만, PCA는 정방행렬만을 고유 벡터로 분해하는 반면, SVD는 행과 열이 다른 모든 행렬에 적용할 수 있다. 일반적으로, SVD는 m×n 크기의 행렬 A를 다음과 같이 분해하는 것을 의미한다. SVD는 특이값 분해라고도 불리며, 행렬 U와 V에 속하는 벡터는 특이벡터이다. 모든 특이벡터는 서로하는 성질을 가진다. U : m×m 크기의 행렬, 역행렬이 대칭 행렬 ∑ : m×n 크기의 행렬, 비대각 성분이 0 V : n×n크기의 행렬, 역행렬이 대칭 V,U는 직교행렬 랜덤행렬 생성 import numpy as np from numpy.linalg import svd np.random.seed(121) a = np.random.randn(4,4..