Doğrusal regresyon

Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.

Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistik tekniğidir. Doğrusal regresyon, makine öğrenimi bağlamında özellikler ile etiket arasındaki ilişkiyi bulur.

Örneğin, bir arabanın ağırlığına göre galon başına mil cinsinden yakıt verimliliğini tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:

Binlerce sterlin (özellik) Mil/galon (etiket)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Bu noktaları grafiğe döktüğümüzde aşağıdaki grafiği elde ederiz:

1. şekil Soldan sağa doğru eğimi aşağı olan trendi gösteren veri noktaları.

Şekil 1. Aracın ağırlığı (pound cinsinden) ile galon başına mil oranı. Bir araba ağırlaştıkça galon başına mil derecesi genellikle düşer.

Noktalardan en iyi uyum çizgisini geçirerek kendi modelimizi oluşturabiliriz:

2. şekil. Modeli temsil eden, içinden en uygun çizginin geçtiği veri noktaları.

Şekil 2. Önceki şekildeki verilerden geçen en uygun çizgi.

Doğrusal regresyon denklemi

Cebirsel olarak model, $ y = mx + b $ şeklinde tanımlanır. Burada:

  • $ y $, galon başına mil cinsinden değerdir. Tahmin etmek istediğimiz değer budur.
  • $ m $, doğrunun eğimidir.
  • $ x $ bizim giriş değerimiz olan sterlin cinsindendir.
  • $ b $, y kesme noktasıdır.

Makine öğreniminde, doğrusal regresyon modelinin denklemi şu şekilde yazılır:

$$ y' = b + w_1x_1 $$

Bu örnekte:

  • $ y' $ tahmin edilen etikettir (çıktı).
  • $ b $, modelin önyargısıdır. Sapma, bir doğrunun cebirsel denklemindeki y eksenini kesme noktasıyla aynı kavramdır. ML'de sapma bazen $ w_0 $ olarak adlandırılır. Sapma, modelin bir parametresidir ve eğitim sırasında hesaplanır.
  • $ w_1 $, özelliğin ağırlığıdır. Ağırlık, bir doğrunun cebirsel denklemindeki eğim $ m $ ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
  • $ x_1 $ bir özelliktir (giriş).

Eğitim sırasında model, en iyi modeli üreten ağırlığı ve yanlılığı hesaplar.

3. şekil Her bileşenin amacının belirtildiği y' = b + w1x1 denklemi.

Şekil 3. Doğrusal modelin matematiksel gösterimi.

Örneğimizde, çizdiğimiz çizgiden ağırlığı ve yanlılığı hesaplıyoruz. Eğilim 34 (doğrunun y eksenini kestiği nokta), ağırlık ise -4,6'dır (doğrunun eğimi). Model $ y' = 34 + (-4.6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu modeli kullanarak 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olacağı tahmin edilebilir.

4. şekil Şekil 2 ile aynı grafik, (4, 15,6) noktası vurgulanmış.

Şekil 4. Modele göre, 1.814 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olması bekleniyor.

Birden fazla özelliği olan modeller

Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayanabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Örneğin, yakıt verimliliğini tahmin eden bir model, aşağıdaki gibi özellikleri de kullanabilir:

  • Motor hacmi
  • Hızlandırma
  • Silindir sayısı
  • Beygir gücü

Bu model aşağıdaki gibi yazılır:

5. şekil Beş özellikli doğrusal regresyon denklemi.

Şekil 5. Bir arabanın galon başına mil derecesini tahmin etmek için beş özelliğe sahip bir model.

Bu ek özelliklerden birkaçını grafiğe döktüğümüzde, bunların da etiketle doğrusal bir ilişkisi olduğunu görebiliriz (ör. galon başına mil):

6. şekil Santimetreküp cinsinden hacim, galon başına mil cinsinden yakıt tüketimiyle karşılaştırıldığında negatif doğrusal ilişki gösteren bir grafikte gösterilir.

Şekil 6. Bir arabanın santimetreküp cinsinden motor hacmi ve galon başına mil cinsinden yakıt tüketimi. Bir arabanın motoru büyüdükçe galon başına mil değeri genellikle düşer.

Şekil 7. Saniyeler içinde sıfırdan altmışa hızlanma, galon başına mil cinsinden grafiklenerek pozitif doğrusal ilişki gösteriliyor.

Şekil 7 Bir arabanın hızlanması ve galon başına mil derecesi. Bir arabanın hızlanması daha uzun sürdükçe galon başına mil oranı genellikle artar.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Eğitim sırasında doğrusal regresyon denkleminin hangi kısımları güncellenir?
Sapma ve ağırlıklar
Model, eğitim sırasında önyargıyı ve ağırlıkları günceller.
Tahmin
Tahminler eğitim sırasında güncellenmez.
Özellik değerleri
Özellik değerleri veri kümesinin bir parçası olduğundan eğitim sırasında güncellenmez.