la descente de gradient à l'aide de python et numpy

def gradient(X_norm,y,theta,alpha,m,n,num_it):
    temp=np.array(np.zeros_like(theta,float))
    for i in range(0,num_it):
        h=np.dot(X_norm,theta)
        #temp[j]=theta[j]-(alpha/m)*(  np.sum( (h-y)*X_norm[:,j][np.newaxis,:] )  )
        temp[0]=theta[0]-(alpha/m)*(np.sum(h-y))
        temp[1]=theta[1]-(alpha/m)*(np.sum((h-y)*X_norm[:,1]))
        theta=temp
    return theta



X_norm,mean,std=featureScale(X)
#length of X (number of rows)
m=len(X)
X_norm=np.array([np.ones(m),X_norm])
n,m=np.shape(X_norm)
num_it=1500
alpha=0.01
theta=np.zeros(n,float)[:,np.newaxis]
X_norm=X_norm.transpose()
theta=gradient(X_norm,y,theta,alpha,m,n,num_it)
print theta

Mon thêta du code ci-dessus est 100.2 100.2, mais il devrait être 100.2 61.09 dans matlab qui est correct.

point-virgule sont ignorés en python et de l'indentation si fondamental.

InformationsquelleAutor Madan Ram | 2013-07-22

126

Je pense que ton code est un peu trop compliqué et il a besoin de plus de structure, car sinon vous serez perdu dans toutes les équations et les opérations. À la fin de cette régression se résume à quatre opérations:
1. Calculer l'hypothèse h = X * theta
2. Calculer la perte = h - y et peut-être le carré de coût (perte^2)/2m
3. Calculer le gradient = X' * perte /m
4. Mettre à jour les paramètres theta = theta - alpha * gradient
Dans votre cas, je suppose que vous avez confondu m avec n. Ici m désigne le nombre d'exemples dans votre entraînement, pas le nombre de fonctionnalités.

Nous allons jeter un oeil à mon variation de votre code:
```
import numpy as np
import random

# m denotes the number of examples here, not the number of features
def gradientDescent(x, y, theta, alpha, m, numIterations):
    xTrans = x.transpose()
    for i in range(0, numIterations):
        hypothesis = np.dot(x, theta)
        loss = hypothesis - y
        # avg cost per example (the 2 in 2*m doesn't really matter here.
        # But to be consistent with the gradient, I include it)
        cost = np.sum(loss ** 2) / (2 * m)
        print("Iteration %d | Cost: %f" % (i, cost))
        # avg gradient per example
        gradient = np.dot(xTrans, loss) / m
        # update
        theta = theta - alpha * gradient
    return theta


def genData(numPoints, bias, variance):
    x = np.zeros(shape=(numPoints, 2))
    y = np.zeros(shape=numPoints)
    # basically a straight line
    for i in range(0, numPoints):
        # bias feature
        x[i][0] = 1
        x[i][1] = i
        # our target variable
        y[i] = (i + bias) + random.uniform(0, 1) * variance
    return x, y

# gen 100 points with a bias of 25 and 10 variance as a bit of noise
x, y = genData(100, 25, 10)
m, n = np.shape(x)
numIterations= 100000
alpha = 0.0005
theta = np.ones(n)
theta = gradientDescent(x, y, theta, alpha, m, numIterations)
print(theta)
```
Au début, j'ai créer un petit aléatoire dataset qui devrait ressembler à ceci:

Comme vous pouvez le voir j'ai aussi ajouté le générés ligne de régression et de la formule qui a été calculée par excel.

Vous devez prendre soin sur l'intuition de la régression à l'aide de la descente de gradient. Comme vous le faites complet lot de passer au-dessus de vos données X, vous avez besoin pour réduire le m-pertes de chaque exemple, pour un poids unique de mise à jour. Dans ce cas, c'est la moyenne de la somme des gradients, ainsi que la division par m.

La prochaine chose que vous devez prendre soin de est la voie de la convergence et de régler le taux d'apprentissage. Pour cette question, vous devriez toujours suivre votre coût à chaque itération, peut-être même de l'intrigue elle.

Si vous exécutez mon exemple, le thêta retourné devra ressembler à ceci:
```
Iteration 99997 | Cost: 47883.706462
Iteration 99998 | Cost: 47883.706462
Iteration 99999 | Cost: 47883.706462
[ 29.25567368   1.01108458]
```
Qui est en fait assez proche de l'équation qui a été calculé par excel (y = x + 30). Notez que, comme nous l'avons adopté le parti pris dans la première colonne, la première thêta valeur indique le biais de poids.
- Dans gradientDescent, est / 2 * m censé être / (2 * m)?
- aïe, oui, vous avez raison! Corrigé.
- À l'aide de loss pour la valeur absolue de la différence n'est pas une très bonne idée que de "perte" est généralement synonyme de "coût". Vous n'avez pas besoin de passer m à tous, tableaux NumPy connaître leur propre forme.
- Quelqu'un peut-il expliquer comment les dérivées partielles de la Fonction de Coût est égal à la fonction: np.point(xTrans, de la perte) / m ?
- Saurabh Verma : Avant de vous expliquer le détail, tout d'abord, cette déclaration: np.point(xTrans, de la perte) / m est une matrice de calcul et, simultanément, calcule le gradient de toutes les paires de données sur la formation, les étiquettes en une seule ligne. Le résultat est un vecteur de taille (m 1). De retour à la base, si nous prenons une dérivée partielle d'un carré d'erreur en ce qui concerne, disons, theta[ j ], nous prenons la dérivée de cette fonction: (np.point(x[ i ], theta) - y[ i ]) ** 2 w.r.t. theta[ j ]. Remarque, theta est un vecteur. Le résultat devrait être de 2 * (np.point(x[ i ], theta) - y[ i ]) * x[ j ]. Vous pouvez le vérifier en main.
- comment choisissez-vous un bon alpha ?
- Au lieu de xtrans = x.transpose() qui inutilement double emploi avec les données, vous pouvez simplement utiliser x.T chaque fois que xtrans est utiliser. x a juste besoin d'être Fortran commandé efficace de l'accès à la mémoire.
InformationsquelleAutor Thomas Jungblut

Ci-dessous vous pouvez trouver mes de mise en œuvre de la descente de gradient pour la régression linéaire problème.

Au premier abord, le calcul de gradient comme X.T * (X * w - y) /N et à mettre à jour vos thêta avec ce dégradé simultanément.

X: caractéristique de la matrice
y: valeurs cibles
w: poids/valeurs
N: taille de l'ensemble d'apprentissage

Voici le code python:

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import random

def generateSample(N, variance=100):
    X = np.matrix(range(N)).T + 1
    Y = np.matrix([random.random() * variance + i * 10 + 900 for i in range(len(X))]).T
    return X, Y

def fitModel_gradient(x, y):
    N = len(x)
    w = np.zeros((x.shape[1], 1))
    eta = 0.0001

    maxIteration = 100000
    for i in range(maxIteration):
        error = x * w - y
        gradient = x.T * error / N
        w = w - eta * gradient
    return w

def plotModel(x, y, w):
    plt.plot(x[:,1], y, "x")
    plt.plot(x[:,1], x * w, "r-")
    plt.show()

def test(N, variance, modelFunction):
    X, Y = generateSample(N, variance)
    X = np.hstack([np.matrix(np.ones(len(X))).T, X])
    w = modelFunction(X, Y)
    plotModel(X, Y, w)


test(50, 600, fitModel_gradient)
test(50, 1000, fitModel_gradient)
test(100, 200, fitModel_gradient)

la descente de gradient à l'aide de python et numpy

Inutile instruction d'importation: l'importation des pandas que le pd
Je ne comprends pas comment vous pouvez obtenir le gradient w/ le produit scalaire de l'erreur et de la formation-définir: gradient = x.T * error / N Quelle est la logique derrière cela?

InformationsquelleAutor Muatik

Je sais que cette question a déjà été répondu, mais j'ai fait une mise à jour de la déclaration de la fonction :

  ### COST FUNCTION

def cost(theta,X,y):
     ### Evaluate half MSE (Mean square error)
     m = len(y)
     error = np.dot(X,theta) - y
     J = np.sum(error ** 2)/(2*m)
     return J

 cost(theta,X,y)



def GD(X,y,theta,alpha):

    cost_histo = [0]
    theta_histo = [0]

    # an arbitrary gradient, to pass the initial while() check
    delta = [np.repeat(1,len(X))]
    # Initial theta
    old_cost = cost(theta,X,y)

    while (np.max(np.abs(delta)) > 1e-6):
        error = np.dot(X,theta) - y
        delta = np.dot(np.transpose(X),error)/len(y)
        trial_theta = theta - alpha * delta
        trial_cost = cost(trial_theta,X,y)
        while (trial_cost >= old_cost):
            trial_theta = (theta +trial_theta)/2
            trial_cost = cost(trial_theta,X,y)
            cost_histo = cost_histo + trial_cost
            theta_histo = theta_histo +  trial_theta
        old_cost = trial_cost
        theta = trial_theta
    Intercept = theta[0] 
    Slope = theta[1]  
    return [Intercept,Slope]

res = GD(X,y,theta,alpha)

Cette fonction de réduire l'alpha au cours de l'itération de prise de fonction trop convergent plus rapidement voir L'estimation de la régression linéaire avec une pente de Descente (Descente la plus raide) pour un exemple dans l'arrêt R. j'applique la même logique, mais en Python.

InformationsquelleAutor Nico Coallier

Suivant @thomas jungblut mise en œuvre en python, j'ai fait de même pour Octave. Si vous trouvez quelque chose de mal, s'il vous plaît laissez-moi savoir et je vais le corriger+mise à jour.

Des données à partir d'un fichier txt avec les lignes suivantes:

penser à cela comme une très approximative de l'échantillon pour les fonctions de [nombre de chambres] [mts2] et la dernière colonne [loyer] qui est ce que nous voulons prédire.

Ici est l'Octave de la mise en œuvre:

%
% Linear Regression with multiple variables
%

% Alpha for learning curve
alphaNum = 0.0005;

% Number of features
n = 2;

% Number of iterations for Gradient Descent algorithm
iterations = 10000

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% No need to update after here
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

DATA = load('CHANGE_WITH_DATA_FILE_PATH');

% Initial theta values
theta = ones(n + 1, 1);

% Number of training samples
m = length(DATA(:, 1));

% X with one mor column (x0 filled with '1's)
X = ones(m, 1);
for i = 1:n
  X = [X, DATA(:,i)];
endfor

% Expected data must go always in the last column  
y = DATA(:, n + 1)

function gradientDescent(x, y, theta, alphaNum, iterations)
  iterations = [];
  costs = [];

  m = length(y);

  for iteration = 1:10000
    hypothesis = x * theta;

    loss = hypothesis - y;

    % J(theta)    
    cost = sum(loss.^2) / (2 * m);

    % Save for the graphic to see if the algorithm did work
    iterations = [iterations, iteration];
    costs = [costs, cost];

    gradient = (x' * loss) /m; % /m is for the average

    theta = theta - (alphaNum * gradient);
  endfor    

  % Show final theta values
  display(theta)

  % Show J(theta) graphic evolution to check it worked, tendency must be zero
  plot(iterations, costs);

endfunction

% Execute gradient descent
gradientDescent(X, y, theta, alphaNum, iterations);

InformationsquelleAutor Fernando Gabrieli

Vous devez vous connecter pour publier un commentaire.