일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 주성분분석
- 텍스트분석
- DBSCAN
- 빅데이터분석기사
- 크롤링
- pandas
- ADsP
- 군집화
- 언더샘플링
- LDA
- 빅데이터
- t-test
- 데이터불균형
- dataframe
- PCA
- datascience
- 대응표본
- 워드클라우드
- 오버샘플링
- numpy
- iloc
- 파이썬
- opencv
- ADP
- 독립표본
- 데이터분석준전문가
- 데이터분석
- Python
- 데이터분석전문가
- Lambda
목록분류 전체보기 (300)
Data Science LAB
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 보호소에 돌아가신 할머니가 기르던 개를 찾는 사람이 찾아왔습니다. 이 사람이 말하길 할머니가 기르던 개는 이름에 'el'이 들어간다고 합니다. 동물 보호소에 들어온 동물 이름 중, 이름에 "EL"이 들어가는 개의 아이디와 이름을 조회하는 SQL문을 작성해주세요. 이때 결과는 이름 순으로 조회해주세요. 단, 이름의 대소문자는 ..
텍스트 자체를 바로 피처로 만들 수 없기 때문에, 텍스트를 가공해주는 작업이 필요하다. 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 어플리케이션의 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다. 클렌징(Cleansing) 클렌징은 텍스트에서 분석에 방해되는 문자나 기호 등을 먼저 제거하는 작업이다. (XTML, XML태그 등) 텍스트 토큰화(Tokenization) - 문장 토큰화 : 문서에서 문장을 분류 - 단어 토큰화 : 문장에서 단어를 토큰으로 분리 위의 두가지 종류로 나뉜다. 문장 토큰화 먼저, 문장 토큰화는 문장의 마침표(.)나 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리한다. NLTK에서는 일..

안녕하세요! 오늘은 지난 포스팅에 이어서 Pandas라이브러리를 이용해 list, dictionary, array형식의 데이터를 데이터프레임형식으로 변환해보도록 하겠습니다. (ง •_•)ง 먼저, 간단하게 리스트와 array를 생성해 봅니다. import pandas as pd import numpy as np col_name1 = ['col1'] list1 = [1,2,3] array1 = np.array(list1) print('array1 shape: ',array1.shape) array는 1차원으로 구성되어 있는 데이터이며 3개의 로우가 있는 리스트가 생성된 것을 확인할 수 있습니다. 리스트 -> 데이터프레임 pd.DataFrame(리스트이름,컬럼명) 을 이용해 데이터프레임 형식으로 바꿔 줍니다..
문제 ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE 는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다. 동물 보호소에 동물이 몇 마리 들어왔는지 조회하는 SQL 문을 작성해주세요. 예시 문제풀이 SELECT COUNT(ANIMAL_ID) AS 'count' FROM ANIMAL_INS 동물의 수를 구하는 문제이므로 COUNT()함수를 사용했다. ANIMAL_ID 또는 *을 사용하면 동물의 수를 구할 수 있다!

NLP VS 텍스트 분석 - NLP(National Language Processing) : 머신이 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술 발전(번역, 질의응답 시스템 등) - 텍스트 분석 : 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점, 머신러닝, 언어 이행, 통계등을 활용해 모델 수립 및 정보 추출 텍스트 분석 종류 1. 텍스트 분류(Text Classification) : 문서가 어떤 종류나 카테고리에 속하는지 예측하는 기법 (특정 기사나 뉴스가 어떤 카테고리에 속하는 지, 스팸메일 검출등) 2. 감성 분석(Sentiment Analysis) : 텍스트에서 나타나는 감정/판단/믿음/의견 등의 주관적인 요소를 분석하는 기법 (제품이나 영화에 대한 리뷰, 여론 조사 ..

안녕하세요(. ❛ ᴗ ❛.)! 오늘은 데이터분석의 가장 기초 라이브러리인 Pandas에 대해 공부해 보려고 합니당! 판다스는 지난번에 공부했던 넘파이에 비해 데이터 핸들링이 훨씬 유연하고 쉽다는 장점이 있는 라이브러리 입니다. 데이터 분석에서 가장 자주 쓰이는 라이브러리이기도 합니다...ㅎ 판다스에서 가장 중요한 것은 DataFrame입니다. 데이터 프레임은 행과 열로 구성되어 있는 2차원의 데이터 구조라고 생각하면 됩니다. Series -> 컬럼이 하나인 구조체 DataFrame -> 컬럼이 여러개인 구조체 라고 생각하시면 될거 같습니당! 오늘은 데이터프레임 형식으로 데이터를 불러오고, 판다스를 이용해 아주 기초적인 분석을 해보도록 하겠습니다(●'◡'●) 먼저, 캐글에서 데이터 분석에 사용할 데이터를 ..