IT 30

Matplotlib - 파이썬을 활용한 데이터 분석 기초 #8

안녕하세요. 이번에는 파이썬을 활용한 데이터 시각화 라이브러리인 Matplotlib에 관해 알아보도록 하겠습니다. Matplotlib는 Mathematical Plot Library의 약자로 파이썬에서 그래프를 그릴 수 있게 하는 라이브러리입니다. 꺾은선 그래프나 막대 그래프 등 모두를 지원하기 때문에 잘 가공한 데이터를 시각화하여 보기좋게 표현하는데 유용하게 사용할 수 있을것이라 생각합니다. 이번 예제들은 그래프가 들어가기때문에 캡쳐를 해온 이미지들이 많은데 이미지가 흐릿한 점 양해부탁드립니다. 아래의 예제는 Matplotlib을 활용해 그린 1차원 직선입니다. import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [1, 2, 3, 4, 5] plt.plo..

IT/Python 2022.10.08

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #7

안녕하세요. 이번시간부턴 Pandas 와 관련된 다양한 함수에 대해 알아보도록 하겠습니다. 먼저 Pandas 에서 조건으로 검색을 하는것에 대해 알아보겠습니다. 파이썬의 특징 답게 간단한 조건을 검색하는것은 굉장히 직관적이고 단순합니다. 또한, query()라는 함수를 통해서도 동일한 결과를 얻을 수 있습니다. 아래의 예제를 통해 확인해보겠습니다. import numpy as np import pandas as pd df = pd.DataFrame(np.random.rand(5,2), columns=["A", "B"]) # A B # 0 0.416760 0.417993 # 1 0.417333 0.010951 # 2 0.490884 0.335433 # 3 0.942838 0.114225 # 4 0.9098..

IT/Python 2022.10.03

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #6

안녕하세요. 벌써 파이썬과 관련해 6번째 글을 쓰게 됐네요. 이번 시간 역시 Pandas와 관련해 알아보도록 하겠습니다. Pandas에서도 누락된 데이터를 체크할 수 있습니다. isnull의 경우 비어있으면 True, notnull의 경우 비어있지 않으면 True를 return해줍니다. 또한 데이터를 비우거나 채울수도 있는데요. 아래의 예제를 통해 알아보도록 하겠습니다. dataframe.isnull() dataframe.notnull() # 비어있는 행을 없애기 dataframe.dropna() # 전화번호가 없는 행이 있으면 '전화번호 없음'으로 채우기 # 비어있는 값을 삭제하지 않고 0 혹은 평균값과 같은 값으로 대체할때 주로 사용 dataframe['전화번호'] = dataframe['전화번호']..

IT/Python 2022.09.27

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #5

안녕하세요. Pandas 세번째 글 작성해보도록 하겠습니다. 이번에는 Pandas에서 Indexing과 Slicing에 관해 알아보도록 하겠습니다. Series 데이터와 DataFrame에 있는 값을 찾고 변경할 필요가 있을때 유용하게 활용할 수 있을 것 같은데요. 먼저, loc 을 설명드리겠습니다. loc은 명시적인 인덱스를 참조하는 인덱싱/슬라이싱으로 loc의 파라미터로 들어간 데이터를 참조해 정보를 가져옵니다. # Data population gdp per capita # china 14092500001415009959.363958 # japan 5167000001271840627.457147 # korea 169320000518032687.258687 # usa 2041280000326766247..

IT/Python 2022.09.26

Pandas(판다스) - 파이썬을 활용한 데이터 분석 기초 #4

안녕하세요. 오늘은 판다스(Pandas)에 대해 알아보겠습니다. 먼저 Numpy 기반의 라이브러리인 Pandas 에 대해 위키백과에 나와있는 내용을 확인해보겠습니다. pandas 는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리입니다. 특히 숫자 테이블과 시계열 을 조작하기 위한 데이터 구조와 연산을 제공합니다. 이것은 무료 소프트웨어이며 New BSD 라이센스입니다. pandas란 이름은 한 개인에 대해 여러 기간동안 관찰을 한다는 데이터 세트에 대한 계량 경제학 용어인 "패널 데이터"라는 용어에서 파생되었습니다. 또한 "Python 데이터 분석"이라는 문구 자체에서 따온 것입니다. Wes McKinney 는2007년부터 2010년까지 연구원으로 있을 때 ..

IT/Python 2022.09.25

Numpy(넘파이) - 파이썬을 활용한 데이터 분석 기초 #3

안녕하세요. Numpy 세번째 시간입니다. 앞전 2개의 글에 배열을 선언한 뒤 붙이고 나누는 등 기본적인 활용법에 대해 공부했었는데요. 이번엔 Numpy 의 연산, 브로드캐스팅, 집계함수 및 마스킹연산에 대해 공부해보도록 하겠습니다. # Numpy 연산 def add_five_to_array(values): output = np.empty(len(valus)) for i in range(len(values)): output[i] = values[i] + 5 return output values = np.random.randint(1, 10, size=5) add_five_to_array(values) big_array = np.random.randint(1, 100, size=10000000) add_f..

IT/Python 2022.09.20

Numpy(넘파이) - 파이썬을 활용한 데이터 분석 기초 #2

안녕하세요. 이번글에서는 넘파이에서 배열과 관련된 기초적인 내용을 학습해보겠습니다. #1 배열의 기초 먼저 배열의 기초에 관해 코드로 한번 확인해보겠습니다. x2 = np.random.randint(10, size=(3,4)) # array([[2, 2, 9, 0], #[4, 2, 1, 0], # [1, 8, 7, 3]]) x2.ndim # 2 x2.shape # (3, 4) x2.size # 12 x2.dtype # dtype('int64') 먼저 3, 4 크기의 배열 x2를 생성하였습니다. ndim 은 배열의 차원을 확인하는 것이고 shape 는 배열의 모양, size는 배열에 몇개의 데이터가 들어있는지 그리고 마지막으로 dtype은 데이터 타입을 확인하는 명령어입니다. # 배열안의 원소 찾기 및 잘..

IT/Python 2022.09.19

Numpy(넘파이) - 파이썬을 활용한 데이터 분석 기초 #1

안녕하세요. 저는 원래 Java를 활용해 웹개발을 주로 했었는데요. 이번에 Numpy라는 파이썬의 라이브러리를 활용해 데이터 분석 기초와 관련된 공부를 해볼 기회가 생겼습니다. 파이썬을 써보지는 않았지만 훨씬 직관적이고 사용하기에 편리해 많이들 사용하고 있다고 들었고 따라서 Numpy를 공부하며 파이썬 역시 조금씩 공부해볼까 합니다. #1 배열 만들기 # Phthon List list(range(10)) # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] # Numpy import numpy as np np.array([1, 2, 3, 4, 5]) # array([1, 2, 3, 4, 5]) np.array([3, 1.4, 2, 3, 4]) # array([3., 1.4, 2., 3., 4. ])..

IT/Python 2022.09.18