Home
Big Ben's Log
Cancel

python으로 하는 머신러닝 선형회귀분석 이상치, 결치 처리 그리고 정규화

Linear Regression Data Handling 이번 포스팅은 파이썬과 경사하강법 (Gradient Descent Algorithm)을 이용하여 지난번보다 더 정확한 회귀분석을 해보려고 한다. 그리고 최종적으로 내가 짠 코드와 알고리즘이 scikit learn 패키지에서 제공한 linear_model에 모듈에 비해서 얼마나 정확한지 비교...

python 머신러닝을 위한 Regression 그리고 경사하강법 (Gradient descent)

선형 회귀분석 (Linear Regression) 이번 포스팅은 머신러닝의 근간이 되는 친구인 Regression 에 대해서 간단하게 알아보자. 사실 간단하게 내용을 정리할 수가 없다. 위대한 학자 Gauss가 어떻게 Least square라는 방법을 발견했으며, 회귀분석은 왜 회귀분석이며 그래서 이게 뭐 어떤걸 나타내며, 어떤 가정하에서는 다른 ...

python으로 하는 수치미분 (Numerical Differentiation) (2)

python으로 편미분하기 지난번 포스팅 (python으로 하는 수치미분 (Numerical Differentiation)에서 어떻게 파이썬으로 수치미분을 하는지 알아보았다. 이번엔 다변수로 넘어가서 어떻게 편미분을 하여 미분 계수를 구하는지 한번 알아보자. 다변수이기 때문에 코드가 비교적 더 복잡해진다. 다음과 같은 식을 편미분해본다고 생...

python으로 하는 수치미분 (Numerical Differentiation)

미분 (Differentiation) 📈 “사실 미분은 크게 두 가지 종류가 있어요~”라고 말하며 해석미분은 무엇이고 수치미분은 무엇인지 장황한 설명을 시작으로 글을 쓰고 싶으나, 간단하게 수치미분이 무엇인지, 또 파이썬으로 하려면 필요한게 무엇인지만 설명한 뒤 바로 코드로 들어가자!! 수치미분은 해석 미분을 수행할 수 없을 때, 정답은 아니지...

python Pandas (12) DataFrame Duplicates 중복값 제거

중복 값 handling 데이터를 다루면서 평균을 구하다보면 집계함수를 칼럼에 넣기 위해 중복된 값을 지워야하는 순간이 있다. 그때를 위한 함수가 몇가지 있다. 바로 예제를 보자. import numpy as np import pandas as pd df = pd.DataFrame({ 'k1': ['one'] * 3 + ['two'...

python Pandas (11) DataFrame Grouping

DataFrame 그룹핑 그룹핑은 pandas`기능과 데이터 분석의 꽃이 아닐까 생각한다. 특정 집단의 집계함수나 유의미한 결과 추론은 어떤 형태의 데이터 분석이든간에 유용하게 쓰이기 때문이다. pandas 자료구조인 Series와 DataFrame을 갖고 어떻게 그룹핑을 하는지 알아보자. Series 그룹핑 import numpy as ...

python Pandas (10) DataFrame 특정값 처리 (이상치, 결치)

DataFrame NaN 처리 NaN을 처리하기 용이하게끔 만들어주는 몇 가지 함수를 알아보자. import numpy as np import pandas as pd np.random.seed(1) # 난수 사용을 위해 seed 설정 df = pd.DataFrame(np.random.randint(0, 10, (6, 4))) # 6x4 ma...

python Pandas (9) DataFrame Concatenation

Series와 DataFrame을 연결(Concatenate)해보자 지난 포스팅은 하나의 ‘키 🔑 ‘값을 기반으로 두 개의 DataFrame을 병합해보았다. 이번에는 Series와 DataFrame을 단순히 연결하는 법을 배워보자. Series 연결해보기 pandas Series를 사용해보자. import numpy as np import...

python Pandas (8) DataFrame Merge

DataFrame Merge에 대해서 알아보자 DataFrame을 병합한다는 것은 말그대로 두개의 각기 다른 테이블을 하나로 합친다는 것이다. Database의 join과 같은 개념이다. Database의 행과 열로 구성된 table 이란 이름이 case와 변수로 구성된 DataFrame으로 변했을 뿐이다. 데이터를 공부하시는 분들이라면 Dat...

python Pandas (7) DataFrame 정렬

정렬 바로 코드를 통해 알아보자. import numpy as np import pandas as pd # 난수를 무작위로 줘서 데이터 정렬을 해보자. np.random.seed(1) # seed로 처음 난수 값을 고정 df = pd.DataFrame(np.random.randint(0, 10, (6, 4))) # 6x4 매트릭스 생성 (...