# Lineare Regression mit scikit-learn

In [1]:
import numpy as np
import pandas as pd
# plotting settings
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from sklearn.linear_model import LinearRegression

In [2]:
melbourne_file_path = 'data/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data = melbourne_data.dropna(axis=0)  # entfernen von Daten mit fehlenden Werten
# wählen für unser Beispiel einen kleinen Ausschnitt aus den Daten (denselben, wie im ersten Beispiel)
max_area = 400
max_datapoints = 100
data = melbourne_data[melbourne_data['BuildingArea'] < max_area][:max_datapoints][['BuildingArea', 'Rooms', 'Price']]
data.head()

Unnamed: 0,BuildingArea,Rooms,Price
1,79.0,2,1035000.0
2,150.0,3,1465000.0
4,142.0,4,1600000.0
6,210.0,3,1876000.0
7,107.0,2,1636000.0


Die scikit-learn API erwartet die Trainingsdaten (Inputs, Features) ähnlich zu unserer Feature-Matrix als 2D-Array, allerdings ohne der '1'.

In [3]:
r = np.array([1,2,3])
r

array([1, 2, 3])

In [4]:
# ändern eines Vektors der Länge n in eine Matrix der Dimension n x 1:
r.reshape((-1,1))

array([[1],
       [2],
       [3]])

In [5]:
x = data[['BuildingArea'] ].to_numpy(copy=True).reshape((-1, 1))
y = data['Price'].to_numpy(copy=True)

In [6]:
x.shape

(100, 1)

In [7]:
model = LinearRegression().fit(x, y)
# print model parameters
print('w0: {}'.format(model.intercept_))
print('w1: {}'.format(model.coef_))

w0: 441524.4208318128
w1: [6024.22929588]


Vergleichen Sie die Werte mit der selbstprogrammierten Lösung!

**Achtung:** Alle scikit-learn Modelle haben Parameter, die das Verhalten beeinflussen. Mehr in der scikit-learn Dokumentation, z.B. hier für LinearRegression: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [8]:
r_sq = model.score(x, y)
print('erklärte Varianz (R^2): {}'.format(r_sq))

erklärte Varianz (R^2): 0.22971025499088593


Vorhersage mit trainiertem scikit-learn Modell

In [9]:
building_area_new_house = [[287]]
y_pred = model.predict(building_area_new_house)
print('Preis-Vorhersage für ein neues Haus mit Wohnfläche {}: {}'.format(building_area_new_house[0][0], y_pred))

Preis-Vorhersage für ein neues Haus mit Wohnfläche 287: [2170478.22874863]


In [10]:
# Vorhersage für mehrere Objekte auf einmal
building_area_new_houses = [[287], [80], [110]]
y_preds = model.predict(building_area_new_houses)
print('Preis-Vorhersagen für Objekte mit den Wohnflächen {}: {}'.format(building_area_new_houses, y_preds))

Preis-Vorhersagen für Objekte mit den Wohnflächen [[287], [80], [110]]: [2170478.22874863  923462.76450201 1104189.64337833]


Alle scikit-learm Modelle haben bestimmte Funktionen, insbesondere `model.fit()` und `model.predict()`, sodass es sehr einfach ist, verschiedene ML-Modelle auszuprobieren.

**Aufgabe: Mehrere Input-Features ausprobieren!**