Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.
Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistik tekniğidir. Doğrusal regresyon, makine öğrenimi bağlamında özellikler ile etiket arasındaki ilişkiyi bulur.
Örneğin, bir arabanın ağırlığına göre galon başına mil cinsinden yakıt verimliliğini tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:
Binlerce sterlin (özellik) | Mil/galon (etiket) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Bu noktaları grafiğe döktüğümüzde aşağıdaki grafiği elde ederiz:
Şekil 1. Aracın ağırlığı (pound cinsinden) ile galon başına mil oranı. Bir araba ağırlaştıkça galon başına mil derecesi genellikle düşer.
Noktalardan en iyi uyum çizgisini geçirerek kendi modelimizi oluşturabiliriz:
Şekil 2. Önceki şekildeki verilerden geçen en uygun çizgi.
Doğrusal regresyon denklemi
Cebirsel olarak model, $ y = mx + b $ şeklinde tanımlanır. Burada:
- $ y $, galon başına mil cinsinden değerdir. Tahmin etmek istediğimiz değer budur.
- $ m $, doğrunun eğimidir.
- $ x $ bizim giriş değerimiz olan sterlin cinsindendir.
- $ b $, y kesme noktasıdır.
Makine öğreniminde, doğrusal regresyon modelinin denklemi şu şekilde yazılır:
Bu örnekte:
- $ y' $ tahmin edilen etikettir (çıktı).
- $ b $, modelin önyargısıdır. Sapma, bir doğrunun cebirsel denklemindeki y eksenini kesme noktasıyla aynı kavramdır. ML'de sapma bazen $ w_0 $ olarak adlandırılır. Sapma, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ w_1 $, özelliğin ağırlığıdır. Ağırlık, bir doğrunun cebirsel denklemindeki eğim $ m $ ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ x_1 $ bir özelliktir (giriş).
Eğitim sırasında model, en iyi modeli üreten ağırlığı ve yanlılığı hesaplar.
Şekil 3. Doğrusal modelin matematiksel gösterimi.
Örneğimizde, çizdiğimiz çizgiden ağırlığı ve yanlılığı hesaplıyoruz. Eğilim 34 (doğrunun y eksenini kestiği nokta), ağırlık ise -4,6'dır (doğrunun eğimi). Model $ y' = 34 + (-4.6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu modeli kullanarak 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olacağı tahmin edilebilir.
Şekil 4. Modele göre, 1.814 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olması bekleniyor.
Birden fazla özelliği olan modeller
Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayanabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Örneğin, yakıt verimliliğini tahmin eden bir model, aşağıdaki gibi özellikleri de kullanabilir:
- Motor hacmi
- Hızlandırma
- Silindir sayısı
- Beygir gücü
Bu model aşağıdaki gibi yazılır:
Şekil 5. Bir arabanın galon başına mil derecesini tahmin etmek için beş özelliğe sahip bir model.
Bu ek özelliklerden birkaçını grafiğe döktüğümüzde, bunların da etiketle doğrusal bir ilişkisi olduğunu görebiliriz (ör. galon başına mil):
Şekil 6. Bir arabanın santimetreküp cinsinden motor hacmi ve galon başına mil cinsinden yakıt tüketimi. Bir arabanın motoru büyüdükçe galon başına mil değeri genellikle düşer.
Şekil 7 Bir arabanın hızlanması ve galon başına mil derecesi. Bir arabanın hızlanması daha uzun sürdükçe galon başına mil oranı genellikle artar.