[위키피디아]를 참조해서 적어보자면, scaling은 독립 변수나 data의 features의 범위를 normalize 하는 것이다.
독립 변수라는 말을 쉽게 이해하기 위해, 키-몸무게 데이터를 분석하는 상황을 가정하자. '키가 클수록 몸무게가 많이 나갈 것이다'라는 가설을 세웠다면, 원인인 '키'는 독립 변수이고, 결과인 '몸무게'는 종속 변수이다. 내가 세운 가설에서 '몸무게'가 원인인 '키'에 의해 결정되므로, 독립/종속과 같은 용어가 붙었다.
data의 feature란, 위의 데이터처럼 관찰한 현상을 나타내는 특성들이다. 위의 예제에서, 몸무게를 나타내기 위해 '키'라는 feature를 사용한다.
이제 Scaling에 관해 정리해보자 Feature scaling은 위처럼 결과를 내놓기 위한 원인으로 작용하는, 다시말해 입력으로 작용하는 것의 범위를 normalize 하는 것이다. feature들을 비슷한 범위로 normalize 해야 하는 이유와 효과에 관해 제대로 알아보자. (위키피디아에 서술된 방식들을 찾아봤다.)
실습의 방법 및 목적, 실습할 데이터의 분포 설명
1. x1, x2 라는 feature를 임의로 만든다. 2. x1, x2의 초기 분포를 확인한다. 3. 다양한 scaling 기법을 적용하며 분포가 어떻게 변하는지 확인한다. => scaling의 동작 방식을 이해한다.
데이터는 x1: 6~16 x2: 3*x1 (18~48) 범위의 random한 10개의 실수 값으로 이루어진다.