ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 54일차 - 파이썬 AI수학 기초(2)
    AI 솔루션 개발자과정(Java, Python) 2022. 12. 22. 17:21

    정보량

    정보량은 정보이론에서의 정보를 정량적으로 취급하기 위해 정의된 개념이다.

     

    각각의 사건의 정보량뿐만 아니라 사건의 정보량의 평균값에도 정보량이라 부르는 경우가 있다.

    전자를 선택정보량(자기 엔트로피) 후자를 평균정보량(엔트로피)이라고 부른다.

     

    이에 더해서 교차 엔트로피라는 기계학습에서 오차를 나타내기 위해서 자주 사용되는 개념도 존재한다.

    엔트로피는 원래 물리학의 분야인 열역학과 통계과학에서의 개념이다.
    정보이론 분야의 통계물리학에서 다루는 엔트로피와 수학적으로 거의 같은 계산식이 나타났기 때문에
    이를 엔트로피라고 부르게 됐다.

     

    사건 E가 일어나는 확률을 P(E)라고 하면 이 때의 선택정보량 I(E)는 다음 식으로 표현된다.

    I(E) = -log2P(E)

    이처럼 선택정보량은 확률의 대수를 음으로 한 것으로서 나타낸다.

    대수의 밑에는 2를 사용하는 경우가 많은데 밑에는 무엇을 선택해도 본질적으로 차이는 없다.

     

    예를 들어 양쪽이 앞면인 특수한 동전을 던질 경우, [ 앞면이 위가된다 ]는 사건이 일어날 확률은 1이므로 선택정보량은 -log2 1로 0이다.

     

    보통의 한쪽 면이 앞면, 한쪽 면이 뒷면인 동전을 던지는 경우 [ 앞면이 위가 된다 ]는 사건이 일어날 확률은 1/2이므로 선택정보량은 -log2 1/2로 1이 된다.

     

    이와 같이, 사건의 확률이 작을수록 선택정보량은 커진다.

     

    선택정보량은 어떤 사건이 얼마나 일어나기 어려운지를 나타내는 척도이나, 유용성을 나타내는 척도는 아니다.

     

     

    밑이 2인 대수는 numpy의 log2()함수로 계산할 수 있다.

     

     

    확률의 상승에 따라, 선택정보량은 단조감소한다.

    확률이 1이 되면 전택정보량은 0이 된다. 또한 확률이 0에 가까워지면 선택정보량이 무한으로 늘어난다.

    선택정보량이 사건이 일어나기 어려운 정도를 나타내는 척도인 것을 알 수 있다.

     

    또한 선택정보량에는 [ 합을 취한다 ]는 성질이 있다.

     

     

    평균정보량은 엔트로피로도 혹은 섀넌 엔트로피로도 불린다.

    평균정보량은 결과를 예측하기 어려울 때에 크게, 예측하기 쉬울 때에 작아진다.

    즉, 어떤 사건의 발생 확률이 모두 같을 때, 무슨 일이 일어날지가 예측이 안될 때에 최대가 된다.

    발생 확률의 편향이 클수록 평균정보량은 작아진다고 표현할 수도 있다.

    평균정보량은 정보의 무질서함과 불확실성을 나타내는 척도이기도 한다.

     

     

    교차 엔트로피(크로스 엔트로피)는 예측 확률 분포값과 살제 확률 분포값이 얼마만큼 떨어져 있는지를 나타내는 척도이다.

    교차 엔트로피가 작으면 확률분포가 타당하게 된다.

     

     

     

     

    회귀와 과학습

    데이터의 경향을 Y = f(X)모델로 파악하는 경우, X = {x1,x2,...,xn}, Y = {y1,y2,...,ym}처럼 각각 n개, m개로 이뤄졌을 때 Y의 각 값이 연속값이면 회귀, Y의 값이 0, 1등의 이산적인 값이면 분류라고 한다.

    기계학습에서 다룰 문제는 크게 이 회귀와 분류로 나눌 수 있다.

     

    회귀에 의한 분석을 실시하는 것을 회귀 분석이라고 한다.

    회귀 분석은 모델이 데이터의 경향을 학습하기 위한 기계학습의 일종이라고 생각할 수 있다.

    가장 간단한 회귀 분석은 직선의 식 y = ax + b를 데이터에 적용한다.

     

    여기에서는 다항식을 데이터에 적용하는 다항식 회귀를 사용해서 기계학습을 실시한다.

    이를 데이터에 적용시킴으로써 데이터의 특징을 파악해 미지의 값을 예측을 할 수 있다.

     

     

    최소 제곱법은 제곱합을 최소로 하는 함수의 파라미터를 구하는 것이다.

    기계학습에서는 이것에 1/2을 곱해서 오차로 하는 오차제곱합이 자주 사용된다.

    1/2를 곱하는 것은 미분할 때에 다루기 쉽게 하기 위함이다.

    이 오차를 최소가 되도록 함수의 파라미터를 조정하는 것은 함수가 데이터의 경향을 나타내도록 학습하는 것을 의미한다.

     

     

    오차 파라미터에 의한 편미분은 기울기(경사, 그라디언트, 구배)라고 부른다.

    딥러닝에서는 기울기를 구하는 방법이 알고리즘의 핵심이다.

    다항식 회귀에 사용하는 데이터는 sin() 함수에 노이즈를 더한 것으로 생성한다. 

Designed by Tistory.