데이터 분석

데이터 분석을 통한 세상 엿보기

Python 5

파이썬 모델링 라이브러리, Patsy

파이썬 모델링 라이브러리,Patsy pandas와 모델 코드의 인터페이스 Patsy를 이용해서 모델 생성하기 ● Patsy 용법으로 데이터 변환하기 ● 범주형 데이터와 Patsy 모델 개발의 일반적인 흐름은 데이터를 불러오고 정제하는 과정은 pandas를 이용하고 그 후 모델 개발을 위해 모델링 라이브러리로 넘어가게 된다. 모델을 개발하는 과정에서 중요한 단계는 특징을 선택하고 추출하는 피처 엔지니어링인데 원시 데이터셋으로부터 모델링에서 유용할 수 있는 정보를 추출하는 변환이나 분석 과정을 일컫는다. pandas와 다른 분석 라이브러리는 주로 Numpy 배열을 사용해서 연계할 수 있다. DataFrame을 Numpy 배열로 변환하려면 .values 속성을 이용한다. data = pd.DataFrame({..

Python 2022.08.16

고급 GroupBy 사용

고급 GroupBy 사용 ● 그룹 변환과 GroupBy 객체 풀어내기 ● 시계열 그룹 리샘플링 그룹 변환과 GroupBy 객체 풀어내기 transform 이라는 내장 메서드를 이용하면 apply 메서드와 유사하게 동작하면서도 사용할 수 있는 함수의 종류에 대해 좀 더 많은 제한을 포함할 수 있다. . 그룹 형태로 브로드캐스트할 수 있는 스칼라값을 생성해야 한다. . 입력 그룹과 같은 형태의 객체를 반환해야 한다. . 입력을 변경하지 않아야 한다. df = pd.DataFrame({'key':['a','b','c'] * 4, 'value':np.arange(12.)}) df key에 따른 그룹의 평균을 구해보자. g = df.groupby('key').value g.mean() key a 4.5 b 5.5..

Python 2022.08.10

pandas Categorical 데이터

pandas Categorical 데이터 Categorical 데이터 ● pandas의 Categorical ● Categorical 연산 ● categorical을 이용한 성능 개선 Categorical 메서드 ● 모델링을 위한 더미값 생성하기 Categorical 데이터 pandas의 Categorical형을 활용하여 pandas 메모리 사용량을 줄이고 성능을 개선할 수 있는 방법을 소개한다. 하나의 칼럼 내에 특정 값이 반복되어 존재하는 경우는 흔하다. 배열 내에서 유일한 값을 추출하거나 특정 값이 얼마나 많이 존재하는지 확인할 수 있는 unique와 value_counts같은 메서드가 있다. values = pd.Series(['apple','orange','apple','apple'] * 2) ..

Python 2022.08.09

데이터 집계와 그룹 연산(2)

데이터 집계와 그룹 연산(2) 변위치 분석과 버킷 분석 pandas의 cut과 qcut 메서드를 사용해서 선택한 크기만큼 혹은 표본 변위치에 따라 데이터를 나눌 수 있었다. 이 함수들을 groupby와 조합하면 데이터 묶음에 변위치 분석이나 버킷 분석을 매우 쉽게 수행할 수 있다. 임의의 데이터 묶음을 cut을 이용해서 등간격 구간으로 나누어보자 frame = pd.DataFrame({'data1':np.random.randn(1000), 'data2':np.random.randn(1000)}) frame.head() quartiles = pd.cut(frame.data1, 4) quartiles[:10] 0 (-1.714, -0.0799] 1 (-0.0799, 1.554] 2 (-1.714, -0.07..

Python 2022.07.26

데이터 집계와 그룹 연산(1)

데이터 집계와 그룹 연산(1) 데이터셋을 분류하고 각 그룹에 집계나 변형 같은 함수를 적용하는 건 데이터 분석 과정에서 무척 중요한 일이다. 데이터를 불러오고 취합해서 하나의 데이터 집합을 준비하고 나면 그룹 통계를 구하거나 가능하다면 피벗데이블을 구해서 보고서를 만들거나 시각화하게 된다 파이썬과 pandas의 강력한 표현력을 잘 이용하면 아주 복잡한 그룹 연산도 pandas 객체나 NumPy 배열을 받는 함수의 조합으로 해결할 수 있다. . 하나 이상의 키(함수, 배열, DataFrame의 컬럼 이름)을 이용해서 pandas 객체를 여러 조각으로 나누는 방법 . 합계, 평균, 표준편차, 사용자 정의 함수 같은 그룹 요약 통계를 계산하는 방법 . 정규화, 선형회귀, 등급 또는 부분집합 선택 같은 집단 내..

Python 2022.07.22