데이터 분석

데이터 분석을 통한 세상 엿보기

분류 전체보기 35

데이터 비즈니스 모델 분석 데이터

https://zzsza.github.io/diary/2020/08/02/how-to-study-business/ 비즈니스 공부법 - 데이터 분석가, 데이터 사이언티스트도 비즈니스를 알아야 합니다 비즈니스를 어떻게 공부해야 하는지에 대한 개인 경험을 담은 글입니다 이 글이 진리라고 생각하진 않고, 제가 어떻게 공부하고 고민했는지에 대한 내용이 주로 담겨있습니다 피드백은 언제나 zzsza.github.io https://paullydia.tistory.com/54 3.빅데이터 비즈니스 모델 1. 빅데이터 비즈니스 모델의 이해 비지니스 모델 : 기업으로 하여금 수익을 유지하게 하는 일련의 활동 즉, '수익모델(revenue model)'로 정의 돈이나 기타 재산을 벌어들일 수 있도록 하는 경영 방 paull..

Data Analytics 2022.11.30

GPS - Global Positioning System (범지구위치결정시스템)

https://namu.wiki/w/GPS GPS - 나무위키 이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권 namu.wiki https://www.ki.re.kr/post/2016/07/05/gps%EC%9D%98-%EC%9B%90%EB%A6%AC%EC%99%80-%EC%83%9D%ED%99%9C-%EC%86%8D-%ED%99%9C%EC%9A%A9%EB%B2%95 GPS의 원리와 생활 속 활용법 오늘은 GPS에 대한 이야기를 해볼까 합니다. ◆ GPS : Global positioning system(전지구적위치결정시스템) 세계 어느 곳에서..

정보 2022.11.30

한국과학기술정보연구원(KISTI), 국가과학기술지식정보서비스(NTIS), 한국정보진흥원

한국과학기술정보연구원(KISTI) https://www.kisti.re.kr/home 한국과학기술정보연구원 한국과학기술정보연구원은 과학기술 R&D 인프라의 체계적인 구축을 통한 국가 경쟁력 확보를 위해 출범한 과학기술정보통신부 산하 국가과학기술연구회 소관의 연구기관이다. www.kisti.re.kr 국가과학기술지식정보서비스(NTIS) https://www.ntis.go.kr/ThMain.do 국가과학기술지식정보서비스 국가연구개발사업 관련 과제공고, 과제/성과(논문특허), 연구시설/장비 정보 등을 통합적으로 제공 www.ntis.go.kr NTIS활용가이드 https://www.syu.ac.kr/rnd/wp-content/uploads/sites/40/2020/01/2019-NTIS%ED%99%9C%EC%..

정보 2022.11.29

GIS(Geographic Information System)

GIS 정의 GIS(Geographic Information System) 란 인간생활에 필요한 지리정보를 컴퓨터 데이터로 변환하여 효율적으로 활용하기 위한 정보시스템이다. 정보시스템이란 의사결정에 필요한 정보를 생성하기 위한 제반 과정으로서 정보를 수집, 관측, 측정하고 컴퓨터에 입력하여 저장, 관리하며 저장된 정보를 분석하여 의사결정에 반영할 수 있는 시스템이다. GIS는 지리적 위치를 갖고 있는 대상에 대한 위치자료와 (spatial data)와 속성자료(attribute data)를 통합·관리하여 지도, 도표 및 그림들과 같은 여러 형태의 정보를 제공한다. 즉 GIS란 넓은 의미에서 인간의 의사결정능력 지원에 필요한 지리정보의 관측과 수집에서부터 보존과 분석, 출력에 이르기까지의 일련의 조작을 위..

정보 2022.11.29

파이썬 모델링 라이브러리, Patsy

파이썬 모델링 라이브러리,Patsy pandas와 모델 코드의 인터페이스 Patsy를 이용해서 모델 생성하기 ● Patsy 용법으로 데이터 변환하기 ● 범주형 데이터와 Patsy 모델 개발의 일반적인 흐름은 데이터를 불러오고 정제하는 과정은 pandas를 이용하고 그 후 모델 개발을 위해 모델링 라이브러리로 넘어가게 된다. 모델을 개발하는 과정에서 중요한 단계는 특징을 선택하고 추출하는 피처 엔지니어링인데 원시 데이터셋으로부터 모델링에서 유용할 수 있는 정보를 추출하는 변환이나 분석 과정을 일컫는다. pandas와 다른 분석 라이브러리는 주로 Numpy 배열을 사용해서 연계할 수 있다. DataFrame을 Numpy 배열로 변환하려면 .values 속성을 이용한다. data = pd.DataFrame({..

Python 2022.08.16

고급 GroupBy 사용

고급 GroupBy 사용 ● 그룹 변환과 GroupBy 객체 풀어내기 ● 시계열 그룹 리샘플링 그룹 변환과 GroupBy 객체 풀어내기 transform 이라는 내장 메서드를 이용하면 apply 메서드와 유사하게 동작하면서도 사용할 수 있는 함수의 종류에 대해 좀 더 많은 제한을 포함할 수 있다. . 그룹 형태로 브로드캐스트할 수 있는 스칼라값을 생성해야 한다. . 입력 그룹과 같은 형태의 객체를 반환해야 한다. . 입력을 변경하지 않아야 한다. df = pd.DataFrame({'key':['a','b','c'] * 4, 'value':np.arange(12.)}) df key에 따른 그룹의 평균을 구해보자. g = df.groupby('key').value g.mean() key a 4.5 b 5.5..

Python 2022.08.10

pandas Categorical 데이터

pandas Categorical 데이터 Categorical 데이터 ● pandas의 Categorical ● Categorical 연산 ● categorical을 이용한 성능 개선 Categorical 메서드 ● 모델링을 위한 더미값 생성하기 Categorical 데이터 pandas의 Categorical형을 활용하여 pandas 메모리 사용량을 줄이고 성능을 개선할 수 있는 방법을 소개한다. 하나의 칼럼 내에 특정 값이 반복되어 존재하는 경우는 흔하다. 배열 내에서 유일한 값을 추출하거나 특정 값이 얼마나 많이 존재하는지 확인할 수 있는 unique와 value_counts같은 메서드가 있다. values = pd.Series(['apple','orange','apple','apple'] * 2) ..

Python 2022.08.09

시계열time series (4)

시계열time series (4) 이동창 함수 ● 지수 가중 함수 ● 이진 이동창 함수 ● 사용자 정의 이동창 함수 시계열 연산에서 사용되는 배열 변형에서 중요한 요소는 움직이는 창 또는 지수 가중과 함께 수행되는 통계와 여타 함수들이다. 이런 함수를 이용해서 누락된 데이터로 인해 매끄럽지 않은 시계열 데이터를 매끄럽게 다듬을 수 있다. 지수 가중 이동평균처럼 고정 크기의 창을 가지지 않는 함수도 포함해서 이동창 함수 moving window function 라고 부른다. 다른 통계함수와 마찬가지로 이동참 함수도 누락된 데이터를 자동으로 배제한다. 우선 시계열 데이터를 불러와서 영업일 빈도로 리샘플링하자. close_px_all = pd.read_csv('examples/stock_px_2.csv', p..

시계열 2022.08.05

시계열time series (3)

시계열time series (3) 시간대 다루기 ● 시간대 지역화와 변환 ● 시간대를 고려해서 Timestamp 객체 다루기 ● 다른 시간대 간의 연산 기간과 기간 연산 ● Period의 빈도 변환 ● 타임스탬프와 기간 서로 변환하기 ● 배열로 PeriodIndex 생성하기 리샘플링과 빈도 변환 ● 다운샘플링 ● 업샘플링과 보간 ● 기간 리샘플링 시간대 다루기 시계열을 다루는 많은 사용자는 현재 국제표준이며 그리니치 표준시를 계승하는 국제표준시 coordinated universal time, UTC 를 선택한다. 시간대는 UTC로부터 떨어지 오프셋으로 표현되는데 예를 들면 뉴욕은 일광절약시간 daylight saving time, DST 일때 UTC보다 4시간 늦으며 아닐 때는 5시간 늦다. 파이썬에서..

시계열 2022.08.04