일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- opencv
- pandas
- 오버샘플링
- 크롤링
- 데이터불균형
- 빅데이터분석기사
- t-test
- 빅데이터
- 데이터분석전문가
- 주성분분석
- DBSCAN
- iloc
- 언더샘플링
- dataframe
- 대응표본
- numpy
- datascience
- 파이썬
- 데이터분석
- Lambda
- PCA
- LDA
- Python
- 텍스트분석
- 데이터분석준전문가
- ADsP
- 군집화
- 워드클라우드
- 독립표본
- ADP
목록전체 글 (300)
Data Science LAB

문제 설명 제한 사항 즉, sign 이 True 면 양수 -> 그냥 더함 False이면 음수 -> 빼기 내 풀이 def solution(absolutes, signs): answer = 0 for i,j in zip(absolutes,signs): if j == True: answer += i else: answer -= i return answer zip으로 absolutes와 signs를 묶은 다음, sign이 True이면 덧셈, 아니면 False인 for문을 생성 다른 사람 풀이 def solution(absolutes, signs): return sum(absolutes if sign else -absolutes for absolutes, sign in zip(absolutes, signs))

사용 데이터 : 공구 블로그 댓글.txt, 사전.txt 1. '공구 블로그 댓글.txt' 파일을 읽어 들여 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd import numpy as np f = open('../data/공구 블로그 댓글.txt', 'r') data = f.read() data import re text = re.sub('[^A-Za-z가-힣\\s]',' ',data) text 2. '사전.txt'를 사전에 추가하고 문서에서 형용사를 추출하라 f = open('../data/사전.txt', 'r') dictionary = f.read() dictionary from konlpy.tag import * hannanum = Hannanum() ..

사용 데이터 : BlackFriday.csv 변수 데이터 형태 설명 User_ID 문자형 구매자 ID Product_ID 범주형 제품 ID Gender 범주형 성별 Age 범주형 나이(구간화) Occupation 범주형 구매자 직업 City_Category 범주형 거주 지역 Stay_In_Current_City_Years 범주형 현재 도시에 체류하는 년수 Marital_Status 범주형 결혼 여부 Product_Category_1 범주형 상품 구매 카테고리 Product_Category_2 범주형 1번 제품 카테고리에 속하는 제품의 카테고리 Product_Category_3 범주형 2번 제품 카테고리에 속하는 제품의 카테고리 Purchase 수치형 구매금액(달러) 1. BlackFriday 데이터에서 ..

사용 데이터 : Carseat.csv Carseats 데이터는 자동차 좌석에 대한 판매정보이며, 변수의 설명은 아래와 같다. 변수 데이터 형태 설명 Sales 수치형 각 지역의 천 달러 단위 매출 ComPrice 수치형 각 위치에서 경쟁업체가 부과하는 가격 Income 수치형 지역 소득 수준 Advertising 수치형 각 지역의 광고 예산 Population 수치형 지역의 인구(단위 : 1000) Price 수치형 자동차 좌석의 가격 ShelveLoc 범주형 보관 장소의 품질 Age 수치형 인구의 연령대 Education 수치형 지역의 교육 수준 Urban 범주형 도시인지 혹은 아닌지의 여부 US 범주형 미국인지 혹은 아닌 지의 여부 1. Urban 변수에 따른 Sales의 차이가 있는지를 통계적으로 ..

사용 데이터 : 연설문.txt 1. 연설문.txt 데이터를 읽어온 뒤, 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd f = open('../data/연설문.txt') data = f.read() data import re data = re.sub(r"[a-zA-Z0-9]","",data) data 특수문자 제거 2. 전처리된 데이터에서 명사를 추출하고 명사의 출현 빈도를 10위까지 추출하여 막대그래프로 시각화하시오. from konlpy.tag import Okt from collections import Counter okt = Okt() nouns = okt.nouns(data) nouns = [x for x in nouns if len(x) >= 2..

사용 데이터 : titanic.csv 변수 데이터 형태 설명 pclass 수치형 1,2,3 등석 정보를 각각 1,2,3으로 저장 survived 범주형 생존 여부 (0 : 사망, 1 : 생존) name 문자형 이름 sex 수치형 성별 age 수치형 나이 sibsp 수치형 함께 탑승한 형제 또는 배우자의 수 parch 수치형 함꼐 탑승한 형제 또는 자녀의 수 ticket 문자형 티켓번호 fare 수치형 티켓요금 cabin 문자형 선실번호 embarked 범주형 탑승한곳(C:cherbourg, Q:Queenstown, S:Southampthon) 1. cabin, embarked 변수의 값 중 ""로 처리된 값을 NA로 바꾸고 아래의 데이터 테이블을 보고 문자형, 범주형 변수들을 각각 charactor, f..