Skip to content

Definování regresního statistického modelu

28 de Červenec de 2021
GettyImages 965105952 772a2efd58a74ef4be664d39a59133cb

Regrese je technika dolování dat používaná k předpovídání řady číselných hodnot (nazývaných také spojité hodnoty), daný konkrétní datový soubor. Regresi lze například použít k předpovědi ceny produktu nebo služby vzhledem k dalším proměnným. Regrese se používá napříč různými průmyslovými odvětvími pro obchodní a marketingové plánování, finanční prognózy, environmentální modelování a analýzu trendů.

Regrese vs. klasifikace

Regrese a klasifikace jsou techniky dolování dat používané k řešení podobných problémů, ale jsou často zaměňovány. Oba se používají v predikční analýze, ale regrese se používá k předpovědi numerické nebo spojité hodnoty, zatímco klasifikace přiřadí data do samostatných kategorií. Regrese by se například použila k předpovědi hodnoty domu na základě jeho polohy, čtverečních stop, ceny při posledním prodeji, ceny podobných domů a dalších faktorů. Klasifikace by byla v pořádku, pokud byste chtěli místo toho uspořádat domy do kategorií, jako je pochůznost, velikost šarže nebo míra kriminality.

Druhy regresních technik

Nejjednodušší a nejstarší formou regrese je lineární regrese používaná k odhadu vztahu mezi dvěma proměnnými. Tato technika používá matematický vzorec přímky (y = mx + b). Jednoduše to znamená, že vzhledem k grafu s osou Y a osou X je vztah mezi X a Y přímka s několika odlehlými hodnotami. Mohli bychom například předpokládat, že vzhledem k nárůstu populace by produkce potravin rostla stejným tempem – to vyžaduje silný lineární vztah mezi těmito dvěma čísly. Chcete-li si to představit, zvažte graf, ve kterém osa Y sleduje nárůst populace a osa X sleduje produkci potravin. Jak se hodnota Y zvyšuje, hodnota X by se zvyšovala stejnou rychlostí, čímž by se vztah mezi nimi stal přímkou. Pokročilé techniky, jako je vícenásobná regrese, předpovídají vztah mezi více proměnnými – existuje například korelace mezi příjmem, vzděláním a tím, kde se člověk rozhodne žít? Přidání více proměnných značně zvyšuje složitost predikce. Existuje několik typů vícenásobných regresních technik včetně standardní, hierarchické, setwise a stepwise, každá s vlastní aplikací. V tomto okamžiku je důležité pochopit, co se snažíme předpovědět (závislý nebo předpovídal proměnná) a data, která používáme k vytvoření predikce (nezávislý nebo prediktor proměnné). V našem příkladu chceme předpovědět místo, kde se člověk rozhodne žít ( předpovídal proměnná) daný příjem a vzdělání (obojí prediktor proměnné).

  • Standardní vícenásobná regrese bere v úvahu všechny predikční proměnné současně. Například 1) jaký je vztah mezi příjmem a vzděláním (prediktory) a výběrem sousedství (predikováno); a 2) do jaké míry přispívá každý z jednotlivých prediktorů k tomuto vztahu?
  • Postupná vícenásobná regrese odpovídá na úplně jinou otázku. Algoritmus postupné regrese bude analyzovat, které prediktory se nejlépe použijí k předpovědi výběru sousedství – to znamená, že krokový model vyhodnotí pořadí důležitosti proměnných prediktorů a poté vybere příslušnou podmnožinu. Tento typ regresního problému používá „kroky“ k vytvoření regresní rovnice. Vzhledem k tomuto typu regrese se všechny prediktory nemusí objevit ani v konečné regresní rovnici.
  • Hierarchická regrese, stejně jako postupné, je sekvenční proces, ale predikční proměnné se do modelu zadávají v předem určeném pořadí definovaném předem, tj. algoritmus neobsahuje integrovanou sadu rovnic pro určení pořadí, ve kterém se má zadat prediktory. To se používá nejčastěji, když má jedinec vytvářející regresní rovnici odborné znalosti oboru.
  • Setwise regrese je také podobný postupným, ale analyzuje spíše sady proměnných než jednotlivé proměnné.