Co je přehnané?
Klíčové způsoby
Pochopení nadměrného vybavení
Častým problémem je například používání počítačových algoritmů k prohledávání rozsáhlých databází historických tržních dat s cílem najít vzorce. Při dostatečném studiu je často možné vypracovat propracované věty, které se zdají předpovídat výnosy na akciovém trhu s velkou přesností.
Při použití na údaje mimo vzorek se však takové věty mohou ukázat jako pouhé překrytí modelu na to, co byly ve skutečnosti jen náhodné výskyty. Ve všech případech je důležité testovat model na základě údajů, které jsou mimo vzorek použitý k jeho vývoji.
Jak zabránit nadměrnému vybavení
Finanční profesionálové si musí být vždy vědomi nebezpečí nadměrného nebo nedostatečného vybavení modelu založeného na omezených údajích. Ideální model by měl být vyvážený.
Overfitting in Machine Learning
Overfitting vs. Underfitting
Model, který je příliš namontovaný, může být příliš komplikovaný, takže je neúčinný. Model však může být také nedostatečně namontovaný, což znamená, že je příliš jednoduchý, s příliš málo funkcemi a příliš málo daty pro sestavení efektivního modelu. Model, který je příliš namontovaný, má nízké zkreslení a vysoký rozptyl, zatímco model, který je příliš namontovaný, je opakem – má vysoké zkreslení a nízký rozptyl. Přidání více funkcí do příliš jednoduchého modelu může pomoci omezit zkreslení.
Příklad nadměrného vybavení
Například univerzita, která zaznamenává vyšší míru nedokončených vysokoškoláků, než by chtěla, se rozhodne vytvořit model, který by předpověděl pravděpodobnost, že se uchazeč dostane až k maturitě.
Za tímto účelem univerzita trénuje model z datového souboru 5 000 uchazečů a jejich výsledků. Poté model spustí na původním datovém souboru – skupině 5 000 uchazečů – a model předpovídá výsledek s 98% přesností. Aby však ověřili jeho přesnost, spustí model také na druhém datovém souboru – dalších 5 000 uchazečů. Tentokrát je však model přesný pouze z 50%, protože model příliš odpovídal úzké datové podskupině, v tomto případě prvním 5 000 aplikacím.