데이터 분석

데이터 분석을 통한 세상 엿보기

분류 전체보기 35

통계자료 사이트

통계자료 사이트 통계청 http://kostat.go.kr/portal/korea/index.action 통계청 자주찾는 서비스펼쳐보기+ kostat.go.kr KOSIS 국가통계포털 국가승인통계 제공 https://kosis.kr/index/index.do KOSIS 국가통계포털 내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기 kosis.kr KOSIS 공유서비스 KOSIS 통계정보를 웹 또는 모바일앱 개발에 활용할 수 있도록 인터페이스(API)를 제공하는 서비스 https://kosis.kr/openapi/index/index.jsp KOSIS 활용사례 https://kosis.kr/openapi/community/community_03List.jsp 통계분류포털 https://kssc.k..

통계 2022.07.30

시계열time series (2)

시계열time series (2) 시계열기초 ● 색인, 선택, 부분 선택 ● 중복된 색인을 갖는 시계열 ● 날짜 범위, 빈도, 이동 날짜 범위, 빈도, 이동 ● 날짜 범위 생성하기 ● 빈도와 날짜 오프셋 ● 데이터 시프트 pandas 에서 찾아볼 수 있는 가장 기본적인 시계열 객체의 종류는 파이썬 문자열이나 datetime객체로 표현되는 타임스탬프로 색인된 Seriese다. from datetime import datetime dates =[datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7), datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)] ts = pd.Series(..

시계열 2022.07.29

시계열time series (1)

시계열time series (1) 시계열 데이터는 금융, 경제, 생태학, 신경과학, 물리학 등 여러 다양한 분야에서 사용되는 매우 중요한 구조화된 데이터다. 시간상의 여러 지점을 관측하거나 측정할 수 있는 모든 것이 시계열이다. 대부분의 시계열은 고정 빈도 fixed frequency로 표현되는데 데이터가 존재하는 지점이 15초마다, 5분마다, 한 달에 한 번 같은 특정 규칙에 따라 고정 간격을 가지게 된다. 시계열은 또한 고정된 단위나 시간 혹은 단위들 간의 간격으로 존재하지 않고 불규칙적인 모습으로 표현될 수도 있다. 어떻게 시계열 데이터를 표시하고 참조할지는 애플리케에 의존적이며 다음중 한 유형일 수 있다. ● 시간 내에서 특정 순간의 타임스탬프 ● 2007년 1월이나 2010년 전체 같은 고정된 ..

시계열 2022.07.28

pandas로 그리는 그래프 종류들

pandas로 그리는 그래프 종류들 pandas로 그릴수 있는 그래프 종류에 대해서 알아보겠습니다. 히스토그램, 산점도, 원 그래프(파이차트), 상자그림이 데이터분석시 많이 사용하는 대표 그래프들입니다. 히스토그램 히스토그램은 사용자가 원하는 범주에 따라 해당 범주의 빈도를 막대로 표현함으로써 빈도의 수준과 상대적 크기의 차이를 시각적으로 판단하기에 매우 용이합니다. 히스토그램은 수치형 척도로 측정된 변수의 분포를 파악하고자 하는 모든 경영 이슈에서 활용될수 있습니다. plt.hist(df.서비스_만족도, bins=7, alpha=0.4, rwidth=1, color='red', label='서비스만족도' ) plt.legend() plt.grid() plt.xlabel('서비스 만족도') plt.yla..

데이터 집계와 그룹 연산(2)

데이터 집계와 그룹 연산(2) 변위치 분석과 버킷 분석 pandas의 cut과 qcut 메서드를 사용해서 선택한 크기만큼 혹은 표본 변위치에 따라 데이터를 나눌 수 있었다. 이 함수들을 groupby와 조합하면 데이터 묶음에 변위치 분석이나 버킷 분석을 매우 쉽게 수행할 수 있다. 임의의 데이터 묶음을 cut을 이용해서 등간격 구간으로 나누어보자 frame = pd.DataFrame({'data1':np.random.randn(1000), 'data2':np.random.randn(1000)}) frame.head() quartiles = pd.cut(frame.data1, 4) quartiles[:10] 0 (-1.714, -0.0799] 1 (-0.0799, 1.554] 2 (-1.714, -0.07..

Python 2022.07.26

국가통계포털, KOSIS

국가통계포털, KOSIS https://kosis.kr/search/search.do KOSIS 국가통계포털 내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기 kosis.kr 국가통계포털(KOSIS, Korean Statistical Information Service)은 국내·국제·북한의 주요 통계를 한 곳에 모아 이용자가 원하는 통계를 한 번에 찾을 수 있도록 통계청이 제공하는 One-Stop 통계 서비스입니다. 현재 300여 개 기관이 작성하는 경제·사회·환경에 관한 1,000여 종의 국가승인통계를 수록하고 있으며, 국제금융·경제에 관한 IMF, Worldbank, OECD 등의 최신 통계도 제공하고 있습니다. 쉽고 편리한 검색기능, 일반인들도 쉽게 이해할 수 있는 다양한 콘텐츠 및 통계설..

통계 2022.07.26

마이데이터

마이데이터 데이터의 사회. 경제적 가치가 커짐에 따라, 데이터 주체인 개인의 권리 강화와 데이터 경제 활성화를 위해 금융분야를 중심으로 '마이데이터' 가 도입되었다. 국내에서도 정보주체인 자기정보 결정권을 강화하면서 데이터 경제 활성화를 위해 2020년에 데이터 3법 개정 및 금융분야 마이데이터가 도입되었다. 마이데이터(본인신용정보관리업)는 정보주체의 개인신용정보 전송요구권 행사에 따라 일정한 방식으로 본인의 정보를 통합하여 제공하는 사업을 의미한다. 마이데이터의 핵심 개념은 정보주체(개인)의 자기정보 결정권으로, 개인 데이터의 활용.관리에 대한 통제권을 개인이 가진다. 데이터 경제 관점에서는 기존의 기업(기관) 중심의 데이터 활용 생태계가 개인중심으로 전환되고, 새로운 서비스 모델이 등장할 수 있는 여..

정보 2022.07.23

데이터 집계와 그룹 연산(1)

데이터 집계와 그룹 연산(1) 데이터셋을 분류하고 각 그룹에 집계나 변형 같은 함수를 적용하는 건 데이터 분석 과정에서 무척 중요한 일이다. 데이터를 불러오고 취합해서 하나의 데이터 집합을 준비하고 나면 그룹 통계를 구하거나 가능하다면 피벗데이블을 구해서 보고서를 만들거나 시각화하게 된다 파이썬과 pandas의 강력한 표현력을 잘 이용하면 아주 복잡한 그룹 연산도 pandas 객체나 NumPy 배열을 받는 함수의 조합으로 해결할 수 있다. . 하나 이상의 키(함수, 배열, DataFrame의 컬럼 이름)을 이용해서 pandas 객체를 여러 조각으로 나누는 방법 . 합계, 평균, 표준편차, 사용자 정의 함수 같은 그룹 요약 통계를 계산하는 방법 . 정규화, 선형회귀, 등급 또는 부분집합 선택 같은 집단 내..

Python 2022.07.22

데이터 문해력(Part7,8)

데이터 문해력 카시와기 요시키 지음, 강모희 옮김 7 '데이터로 문제를 해결할 수 있다'는 착각 시야 확대력 : 데이터로부터 시야를 넓히는 힘 데이터 안에는 답이 없다고 생각하라 단순히 데이터를 보는 방식이나 분석 방법론, 통계 지식만 갖고서는 객관적인 문제 해결에 전혀 도움이 되지 않는다는 것을 이해하셨으리라 생각합니다. 이와 동시에 꼭 필요한 것은 눈앞에 있는 데이터에 의존하지 않고 스스로 목적과 문제를 정의해 필요한 데이터나 분석 범위를 얼마나 넓은 시야로 디자인할 수 있는가이다. '이것이 당신이 알고 싶어 하는 것인가요'라면서 데이터가 자동으로 제시해주는 것이 아닙니다. 여기서 말하는 '디자인'이란, '목적과 문제를 정의하는 것', '이를 위해 필요한 데이터와 지표를 설정하는 것', 그리고 ' 그..

데이터 문해력(Part5,6)

데이터 문해력(Part5,6) 카시와기 요시키 지음, 강모희 옮김 5 기법에 집착하지 마라 전체 구성력 : 스토리(논리)를 만드는 힘 데이터를 활용하려면 본질적으로 논리적인 사고가 반드시 기반이 되어야 한다는 것을 이해했으리라 생각합니다. 여기서 말하는 논리적 사고란, 개별 데이터와 분석에 대한 것이 아니라, 전체적인 스토리를 탄탄히 구성하고 결론의 설득력을 높이기 위한 사고력과 구성력을 말합니다. 이를 제대로 갖추지 않으면 아무리 고품질의 데이터를 대량으로 수집하고 완벽한 방법론으로 분석했다 해도, 상대방을 설득하기는 어려울 것입니다. 설득이 어려운 이유는 전체적으로 흐름과 논리성에 맞지 않기 때문입니다. 문제 해결 프로세스 재확인 목적과 문제를 정의할 때 주의해야 할 세 가지 요소 문제 → 원인 → ..