작업/데이터분석(8)
-
21.12.12 포켓몬 데이터 분석 & 혼자 데이터분석할 때 데이터셋 얻기
탐색적 데이터 분석(EDA Exploratory Data Analysis) 연습 : 데이터의 특징을 찾고 패턴을 분석 -> 데이터 이해 : 데이터 분석 단계에 해당하며, 데이터 분포 확인, 변수간 관계 파악을 통해 전체 데이터의 특징을 발견하고 이해할 수 있다. 데이터 분석 : 의미있는 값을 얻어내는 과정 문제 정의 -> 가설 설정 -> 데이터 준비(데이터 수집,선정,정제) -> 데이터 분석 -> 결과 정리 주제 : 포켓몬 데이터 뭉치에서 전설의 포켓몬을 골라낼 수 있을까? (전설의 포켓몬의 특징을 분석해야 한다) 포켓 몬스터: 몬스터볼에 넣어서 주머니에 휴대하고 다닐 수 있는 몬스터 각 몬스터마다 공격력, 방어력 등의 속성을 가진다 속성에 따라 일반 포켓몬과 전설 포켓몬으로 분류된다. 전설 포켓몬: 보..
2021.12.13 -
21.12.13 모의테스트
# 아래 코드는 문제 해결을 위해 기본적으로 제공되는 코드입니다. 수정하지 마세요! import numpy as np np.random.seed(0) # 지시사항 1번을 참고하여 코드를 작성하세요. A = np.random.randint(1,20,10) B = np.random.randint(1,20,10) def solve(): # 지시사항 2번을 참고하여 코드를 작성하세요. # result = set(a&b) a = set(A) b = set(B) result = set(a&b) # 아래 코드는 문제 해결을 위해 기본적으로 제공되는 코드입니다. 수정하지 마세요! return A, B, result # 값을 확인하기 위한 코드입니다. result = solve() print(f'{result[0]}\n..
2021.12.13 -
21.12.06 파이썬 데이터처리 모의테스트
# 먼저 회피스킬 쓴 유저 # 지시사항을 참고하여 코드를 작성하세요. def checkLog(log_1p, log_2p): count1=9999 count2=9999 for i in range(len(log_1p)): print(log_1p[i][0]) if log_1p[i][0]=='#': count1=i for i in range(len(log_2p)): print(log_2p[i][0]) if log_2p[i][0]=='#': count2=i print(count1, count2) if count1=20: return sorted_tuples[:20] return sorted_tuples # 값을 확인하기 위한 코드입니다. 값을 변경해가며 테스트해 보세요! print(filter_by_text('a..
2021.12.06 -
21.12.06 파이썬 정리2
12 04 1. Numpy 사용해보기 실습 1 배열 만들기 numpy, random.randint import numpy as np #0부터 5사이 랜덤한 값이 담긴 3x5 array를 만들어 봅시다! array = np.random.randint(0,5,(3,5)) print(array) 실습 2 ndim, shape, size, dtype import numpy as np print("1차원 array") array = np.arange(10) print(array) # Q1. array의 자료형을 출력해보세요. print(type(array)) # Q2. array의 차원을 출력해보세요. print(array.ndim) # Q3. array의 모양을 출력해보세요. print(array.shape) ..
2021.12.06 -
21.12.06 파이썬 정리 1
12 01) 1. 트럼프 대통령 트윗으로 시작하는 데이터 처리 실습1 인덱싱 # 트럼프 대통령의 1월 1~3일 트윗을 각각 리스트의 원소로 저장합니다. trump_tweets = [ 'Will be leaving Florida for Washington (D.C.) today at 4:00 P.M. Much work to be done, but it will be a great New Year!', 'Companies are giving big bonuses to their workers because of the Tax Cut Bill. Really great!', 'MAKE AMERICA GREAT AGAIN!' ] def date_tweet(tweet): # index에 0~2을 차례대로 저장하여 ..
2021.12.06 -
21.12.04 numpy, pandas
numpy python에서 대규모 다차원 배열을 다룰 수 있게 도와주는 라이브러리 python list에 비해 빠른 연산 지원한다. #list list(range(10)) #numpy array import numpy as np np.array([1,2,3,4,5]) #2차원 np.array([[1,2], [3,4]]) list는 [1,'apple']이 가능하지만 np.array는 단일타입으로 구성된다. np.zeros(10) np.ones((3,5),dtype=float) np.arange(0,20,2) np.linspace(0,8,5) # array([0,2,4,6,8]) np.random.random((2,2)) #2x2의 랜덤배열 np.random.normal(0,1,(2,2)) #2x2의 평균이..
2021.12.05