[DSAC M1] Pandas(판다스) - DataFrame, Series 기본 개념
IT/Python 2021. 8. 17. 22:41

실습은 주피터로 하였고, kpc의 DSAC Module1 DATA Programming을 참고했습니다. [Pandas] - Panel data analysis(구조화된 데이터 분석)의 줄임말 - 데이터를 수집하고 정리하는 데 최적화된 도구 - 판다스 라이브러리는 DataFrame, Series이라는 데이터 형식 제공 [DataFrame] - 파이썬에서 데이터를 편리하게 다루기 위해 테이블 구조로 데이터를 처리하는 경우가 많음. 이를 위해 판다스의 데이터프레임을 이용함. - 데이터프레임은 2차원 테이블 구조로 데이터를 다룸 (엑셀 스프레드시트처럼!) - 데이터프레임에서 표를 table(테이블), 행은 row/record, 열은 field/column, 가장 위에있는 행은 field name이라고 함. Pa..

[DSAC M1] NumPy(넘파이)
IT/Python 2021. 8. 17. 20:13

실습은 주피터로 하였고, kpc의 DSAC Module1 DATA Programming을 참고했습니다. [NumPy] - Numerical Python의 줄임말, 벡터나 매트릭스 같은 다차원 배열을 계산할때 사용. - 여러 항목으로 구성된 데이터가 모두 숫자인 경우 계산 속도를 개선하기 위해 NumPy 모듈을 사용한다. - NumPy가 제공하는 다차원 배열을 사용하면 파이썬의 리스트보다 계산시 편리하고 속도도 빠르다. [배열 VS 리스트] - 배열의 각 원소는 모두 같은 타입인 숫자(정수/소수 등)이어야 하지만, 리스트는 원소의 타입이 달라도 된다. - NumPy 라이브러리는 다차원 배열을 제공한다. - type()함수를 이용하면 리스트의 타입은 리스트이지만 배열의 타입은 ndarray로 뜨는걸 확인할 ..

[DSAC M1] randn, rand, randint 차이 / matplotlib
IT/Python 2021. 8. 16. 20:30

실습은 주피터로 하였고, kpc의 DSAC Module1 DATA Programming을 참고했습니다. [matplotlib] 파이썬의 시각화 라이브러리이다. 예시로 랜덤 숫자 50개를 생성하고 선으로 연결한다. 우선 numpy와 matplotlib.pyplot을 불러와준다. 그리고 각각 np와 plt로 부르겠다고 약속! %matplotlib inline는 주피터 노트북 화면에 직접 나타나게 그리라는 뜻이다. np.random.randn(n) : numpy에서 랜덤값을 생성하는 함수이다. numpy를 np로 부르기로 약속했으니 np로 접근하였다. [randn vs rand vs randint] randn 함수는 평균이 0이고 표준편차가 1인 정규분포를 생성해준다. np.random.rand(n) : ra..

[데이터 사이언스] DSAC M1 공부 시작
기타 2021. 8. 4. 23:04

학교에서 DSAC M1 과정을 수강했다. DSAC는 데이터 사이언스 능력 자격인데 7개로 분류되어있다 (약간 컴활 1급, 2급 이런 느낌인듯??) 나는 이제 막 데싸에 관심을 가졌다... 멋쟁이 사자처럼에서 우연히 프로젝트로 데이터 프로그래밍을 하다가 관심을 갖게 되었는데 이때, pandas나 numpy를 사용해본 적이 있다. 아주 수박 겉핥기 수준이지만..^^ 이제 제대로 공부하는 거다. 다음 주에는 DSAC M2 과정이 열리던데 할 일이 많으므로 이건 패쓰~ 담에 기회가 된다면 공부해보고 싶다. DSAC가 역사가 깊은 자격시험이 아니라 정보가 정말 정말 없다. 문제은행 이런 곳에 찾아볼 수도 없더라.. 그래서 학교에서 준 프로그래밍 책과 구글링으로 데싸를 공부하고 있다.. 앞으로 배운 거 블로그에 적..