pandas 5

Matplotlib - 파이썬을 활용한 데이터 분석 기초 #8

안녕하세요. 이번에는 파이썬을 활용한 데이터 시각화 라이브러리인 Matplotlib에 관해 알아보도록 하겠습니다. Matplotlib는 Mathematical Plot Library의 약자로 파이썬에서 그래프를 그릴 수 있게 하는 라이브러리입니다. 꺾은선 그래프나 막대 그래프 등 모두를 지원하기 때문에 잘 가공한 데이터를 시각화하여 보기좋게 표현하는데 유용하게 사용할 수 있을것이라 생각합니다. 이번 예제들은 그래프가 들어가기때문에 캡쳐를 해온 이미지들이 많은데 이미지가 흐릿한 점 양해부탁드립니다. 아래의 예제는 Matplotlib을 활용해 그린 1차원 직선입니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 2, 3, 4, 5] plt.plo..

IT/Python 2022.10.08

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #7

안녕하세요. 이번시간부턴 Pandas 와 관련된 다양한 함수에 대해 알아보도록 하겠습니다. 먼저 Pandas 에서 조건으로 검색을 하는것에 대해 알아보겠습니다. 파이썬의 특징 답게 간단한 조건을 검색하는것은 굉장히 직관적이고 단순합니다. 또한, query()라는 함수를 통해서도 동일한 결과를 얻을 수 있습니다. 아래의 예제를 통해 확인해보겠습니다. import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(5,2), columns=["A", "B"]) # A B # 0 0.416760 0.417993 # 1 0.417333 0.010951 # 2 0.490884 0.335433 # 3 0.942838 0.114225 # 4 0.9098..

IT/Python 2022.10.03

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #6

안녕하세요. 벌써 파이썬과 관련해 6번째 글을 쓰게 됐네요. 이번 시간 역시 Pandas와 관련해 알아보도록 하겠습니다. Pandas에서도 누락된 데이터를 체크할 수 있습니다. isnull의 경우 비어있으면 True, notnull의 경우 비어있지 않으면 True를 return해줍니다. 또한 데이터를 비우거나 채울수도 있는데요. 아래의 예제를 통해 알아보도록 하겠습니다. dataframe.isnull() dataframe.notnull() # 비어있는 행을 없애기 dataframe.dropna() # 전화번호가 없는 행이 있으면 '전화번호 없음'으로 채우기 # 비어있는 값을 삭제하지 않고 0 혹은 평균값과 같은 값으로 대체할때 주로 사용 dataframe['전화번호'] = dataframe['전화번호']..

IT/Python 2022.09.27

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #5

안녕하세요. Pandas 세번째 글 작성해보도록 하겠습니다. 이번에는 Pandas에서 Indexing과 Slicing에 관해 알아보도록 하겠습니다. Series 데이터와 DataFrame에 있는 값을 찾고 변경할 필요가 있을때 유용하게 활용할 수 있을 것 같은데요. 먼저, loc 을 설명드리겠습니다. loc은 명시적인 인덱스를 참조하는 인덱싱/슬라이싱으로 loc의 파라미터로 들어간 데이터를 참조해 정보를 가져옵니다. # Data population gdp per capita # china 14092500001415009959.363958 # japan 5167000001271840627.457147 # korea 169320000518032687.258687 # usa 2041280000326766247..

IT/Python 2022.09.26

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #4

안녕하세요. 오늘은 판다스(Pandas)에 대해 알아보겠습니다. 먼저 Numpy 기반의 라이브러리인 Pandas 에 대해 위키백과에 나와있는 내용을 확인해보겠습니다. pandas 는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리입니다. 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조와 연산을 제공합니다. 이것은 무료 소프트웨어이며 New BSD 라이센스입니다. pandas란 이름은 한 개인에 대해 여러 기간동안 관찰을 한다는 데이터 세트에 대한 계량 경제학 용어인 "패널 데이터"라는 용어에서 파생되었습니다. 또한 "Python 데이터 분석"이라는 문구 자체에서 따온 것입니다. Wes McKinney 는2007년부터 2010년까지 연구원으로 있을 때 ..

IT/Python 2022.09.25