일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 데이터분석전문가
- 군집화
- 워드클라우드
- 언더샘플링
- LDA
- Python
- 빅데이터
- ADP
- pandas
- 파이썬
- Lambda
- 텍스트분석
- 독립표본
- DBSCAN
- numpy
- dataframe
- t-test
- 빅데이터분석기사
- 데이터분석준전문가
- datascience
- ADsP
- 오버샘플링
- opencv
- PCA
- 크롤링
- 대응표본
- 주성분분석
- 데이터분석
- 데이터불균형
- iloc
목록전체 글 (300)
Data Science LAB
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 동물 보호소에 들어온 동물 이름 중 두 번 이상 쓰인 이름과 해당 이름이 쓰인 횟수를 조회하는 SQL문을 작성해주세요. 이때 결과는 이름이 없는 동물은 집계에서 제외하며, 결과는 이름 순으로 조회해주세요. 예시 문제 풀이 SELECT NAME, COUNT(*) FROM ANIMAL_INS WHERE NAME IS NOT NU..
사이킷런 내부의 예제 데이터인 20 뉴스그룹 데이터 셋을 활용해 텍스트 분류 실습을 해보려고 한다. 텍스트 분류는 학습 데이터를 통해 모델을 학습 시킨 후 이 학습 모델을 이용해 다른 문서의 분류를 예측해 보려고 한다. Count기반의 로지스틱 회귀모델과, TF-IDF기반의 로지스틱 회귀모델을 각각 생성한 후 비교해보고 하이퍼파라미터 조정까지 해보려고 한다( •̀ ω •́ )✧ 1. 텍스트 정규화 fetch_20newsgroups()는 인터넷에서 로컬 컴퓨터로 먼저 데이터를 받은 후, 메모리로 데이터를 로딩한다. from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset = 'all', random_state ..
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 동물 보호소에 들어온 동물 중 이름이 Lucy, Ella, Pickle, Rogan, Sabrina, Mitty인 동물의 아이디와 이름, 성별 및 중성화 여부를 조회하는 SQL 문을 작성해주세요. 예시 문제 풀이 SELECT ANIMAL_ID, NAME, SEX_UPON_INTAKE FROM ANIMAL_INS WHERE N..
Bag of Words 모델은 문서가 가진 모든 단어(Words)를 문맥이나 순서에 상관없이 단어의 빈도 값에 따라 피처 값을 추출하는 모델이다. 문서 내의 모든 단어를 한번에 봉투(Bag)안에 넣은 뒤 흔들어 섞는 다는 의미로 Bag of Words 모델이라고 한다. BOW모델은 쉽고 빠르게 모델을 구축할 수 있고, 단순하게 단어의 빈도 수에 기반하지만, 문서의 특징을 잘 나타낼 수 있어 활용도가 높다. 한계점 - 문맥 의미 반영 부족 : BOW는 단어의 순서를 고려하지 않기 때문에, 단어의 문맥적인 의미가 무시된다. 이를 보완하기 위해 n_gram등 여러 기법을 활용할 수 있지만, 제한적이다. - 희소 행렬 문제 : BOW로 피처 벡터화를 수행하면, 희소 행렬 형태의 데이터 셋이 만들어지기 쉽다. 많..

하나의 파일 다운로드 먼저, 다운받고자 하는 파일의 저장소에 들어가서 "Raw" 선택! 이런식으로 파일의 Raw 상태가 뜨는데, Ctrl + S 를 누르면 바로 저장을 할 수 있다. 여러 파일 zip으로 다운 "Download ZIP"을 클릭해주면 Zip 형식으로 한번에 다운받을 수 있다.
파이썬으로 데이터 분석 공부를 하다 보니, 자주 나는 오류에 대해서 정리를 해보려고 한다! (거의 다 비슷비슷한 에러인듯,,ㅎ) 1. StyntaxError : 잘못된 문법 때문에 발생 print('ab) 에러 메세지 - SyntaxError : EOL while scanning string literal 이런식으로 따옴표나 괄호 등 기본적인 문법에 맞지 않으면 오류가 발생한다. 2. NameError : 참조변수가 없을 때 발생 a = 1 print(b) 에러 메세지 - NameError : name '' is not defined 변수 b는 선언하지 않아서 NameError가 발생한다. 3. ZeroDivisionError : 0으로 나눌 때 발생 print(100/0) 에러 메세지 - ZeroDiv..