Maximální parsimonie - Magazín MP.cz

Parsimonie je neparametrická statistická metoda běžně používaná ve výpočetní fylogenetice pro odhad fylogenií. Pod parsimonií je preferovaným fylogenetickým stromem strom, který pro vysvětlení některých pozorovaných dat vyžaduje nejmenší evoluční změnu.

Parsimonie je součástí třídy metod odhadu stromů založených na charakteru, které používají matici diskrétních fylogenetických znaků k odvození jednoho nebo více optimálních fylogenetických stromů pro soubor taxonů, běžně soubor druhů nebo reprodukčně izolované populace jednoho druhu. Tyto metody fungují tak, že hodnotí kandidáty fylogenetických stromů podle explicitního kritéria optimálnosti; strom s nejpříznivějším skóre je brán jako nejlepší odhad fylogenetických vztahů zahrnutých taxonů. (Maximum parsimonie) se používá s většinou druhů fylogenetických dat; donedávna to byla jediná široce používaná metoda odhadu stromů založená na charakteru používaná pro morfologická data.

Odhadování fylogenií není triviální problém. Obrovské množství možných fylogenetických stromů existuje pro každý přiměřeně velký soubor taxonů; například pouhých deset druhů dává přes dva miliony možných nezakořeněných stromů. Tyto možnosti je třeba hledat, abychom našli strom, který nejlépe vyhovuje údajům podle kritéria optimálnosti. Samotné údaje však nevedou k jednoduchému, aritmetickému řešení problému. V ideálním případě bychom očekávali, že rozložení jakýchkoli evolučních znaků (jako jsou fenotypové znaky nebo alely) bude přímo sledovat vzorec větvení evoluce. Mohli bychom tedy říci, že mají-li dva organismy společný znak, měly by být více příbuzné jeden druhému než třetímu organismu, který tento znak postrádá (za předpokladu, že tento znak nebyl přítomen u posledního společného předka všech tří organismů, v takovém případě by šlo o symlesiomorfii). Předpovídali bychom, že netopýři a opice jsou k sobě bližší než k rybě, protože oba mají chlupy – synapomorhy. Nemůžeme však říci, že netopýři a opice jsou k sobě bližší než k velrybám, protože mají společné chlupy, protože věříme, že poslední společný předek těchto tří měl chlupy.

Dobře pochopené jevy konvergentní evoluce, paralelní evoluce a evoluční zvraty (souhrnně nazývané homoplasie) však přidávají nepříjemnou vrásku k problému odhadu fylogeneze. Z řady důvodů mohou mít dva organismy vlastnost, která se nevyskytuje u jejich posledního společného předka: Kdybychom přítomnost této vlastnosti naivně brali jako důkaz vztahu, rekonstruovali bychom nesprávný strom. Reálná fylogenetická data zahrnují podstatnou homoplasii, přičemž různé části dat naznačují někdy velmi rozdílné vztahy. Metody používané k odhadu fylogenetických stromů jsou výslovně určeny k řešení konfliktu v rámci dat výběrem fylogenetického stromu, který se nejlépe hodí ke všem datům celkově, a akceptují, že některá data se prostě nehodí.

Údaje, které nepasují do stromu dokonale, nejsou pouhým „šumem“, ale mohou obsahovat relevantní fylogenetický signál v některých částech stromu, i když jsou se stromem celkově v rozporu. Ve výše uvedeném příkladu s velrybami je nedostatek chlupů u velryb homoplastický: Odráží návrat ke stavu, který byl přítomen u dávných předků savců, kterým chyběly chlupy. Tato podobnost mezi velrybami a dávnými předky savců je v rozporu se stromem, který akceptujeme, protože z něj vyplývá, že savci s chlupy by měli tvořit skupinu vyjma velryb. Nicméně mezi velrybami je obrat k bezvousosti vlastně správně přiřazen různým typům velryb (včetně delfínů a sviňuch) do skupiny Cetacea. Přesto je určení nejlépe padnoucího stromu – a tedy dat, která nepasují do stromu – složitým procesem. Jednou z metod vyvinutých k tomuto účelu je maximální parsimonie.

Vstupní data použitá v analýze maximální parsimonie jsou ve formě „znaků“ pro řadu taxonů. Neexistuje žádná obecně dohodnutá definice fylogenetického znaku, ale operativně lze znak považovat za atribut, osu, podél které se taxony liší. Tyto atributy mohou být fyzické (morfologické), molekulární, genetické, fyziologické nebo behaviorální. Zdá se, že jediná rozšířená shoda ohledně znaků je, že variace použitá pro analýzu znaků by měla odrážet dědičnou variaci. Zda musí být přímo dědičná, nebo zda je přijatelná nepřímá dědičnost (např. naučené chování), není zcela vyřešeno.

Každý znak je rozdělen do diskrétních stavů znaků, do kterých jsou zařazeny pozorované variace. Stavy znaků jsou často formulovány jako deskriptory, popisující stav znakového substrátu. Například znak „barva očí“ může mít stavy „modrá“ a „hnědá“. Znaky mohou mít dva nebo více stavů (mohou mít pouze jeden, ale tyto znaky nepropůjčují nic pro analýzu maximální parsimonie a jsou často vyloučeny).

Kódování znaků pro fylogenetickou analýzu není exaktní věda a existuje řada komplikujících problémů. Obvykle jsou taxony bodovány se stejným stavem, pokud jsou si v daném atributu více podobné, než je tomu u taxonů bodovaných s jiným stavem. To není jednoduché, pokud znakové stavy nejsou jasně vymezeny nebo pokud se jim nepodaří zachytit všechny možné variace znaku. Jak by jeden bodoval dříve zmíněný znak pro taxon (nebo jedince) s oříškovýma očima? Nebo zelená? Jak je uvedeno výše, kódování znaků je obecně založeno na podobnosti: oříškové a zelené oči mohou být házeny do jednoho pytle s modrou, protože jsou této barvě více podobné (jsou světlé), a znak by pak mohl být překódován jako „barva očí: světlá; tmavá“. Střídavě mohou existovat vícestavové znaky, jako „barva očí: hnědá; oříšková, modrá; zelená“.

Genetické údaje jsou zvláště přístupné fylogenetickým metodám založeným na charakteru, jako je maximální parsimonie, protože proteinové a nukleotidové sekvence jsou přirozeně diskrétní: Konkrétní pozice v nukleotidové sekvenci může být buď adenin, cytosin, guanin nebo thymin / uracil, nebo sekvenční mezera; pozice (reziduum) v proteinové sekvenci bude jednou ze základních aminokyselin nebo sekvenční mezerou. Tudíž, bodování znaků je zřídka nejednoznačné, s výjimkou případů, kdy sekvenční metody nepřinášejí definitivní přiřazení pro konkrétní sekvenční pozici. Sekvenční mezery jsou někdy považovány za znaky, i když neexistuje shoda o tom, jak by měly být kódovány.

Znaky mohou být považovány za neuspořádané nebo uspořádané. U binárního (dvoustavového) znaku to není velký rozdíl. U vícestavového znaku lze neuspořádané znaky považovat za znaky, které mají stejné „náklady“ (ve smyslu počtu „evolučních událostí“) na změnu z jednoho stavu do druhého; doplňkově nevyžadují přechod přes mezistavy. Uspořádáné znaky mají zvláštní posloupnost, ve které se stavy musí vyskytovat prostřednictvím evoluce, takže přechod mezi některými stavy vyžaduje přechod přes mezistav. To lze doplňkově považovat za znaky, které mají různé náklady na přechod mezi různými páry stavů. Ve výše uvedeném příkladu s barvou očí je možné to ponechat neuspořádané, což ukládá stejné evoluční „náklady“ pro přechod z hnědo-modré, zeleno-modré, zeleno-lískové atd. Střídavě by to mohlo být nařízeno hnědo-lískovo-zeleno-modré; to by normálně znamenalo, že přechod z hnědo-zelené by stál dvě evoluční události, tři z hnědo-modré, ale jen jednu z hnědo-lískové. To lze také chápat tak, že je třeba, aby se oči vyvíjely „lískovým stádiem“, aby se dostaly z hnědo zelené, a „zeleným stádiem“, aby se dostaly z lískové do modré, atd.

Probíhá živá debata o užitečnosti a vhodnosti řazení znaků, ale neexistuje všeobecný konsenzus. Některé autority si objednávají znaky, když existuje jasný logický, ontogenetický nebo evoluční přechod mezi stavy (například „nohy: krátké; střední; dlouhé“). Některé akceptují jen některá z těchto kritérií. Některé provádějí neuspořádanou analýzu a objednávají znaky, které vykazují jasné pořadí přechodu ve výsledném stromu (což by praxe mohla být obviněna z kruhového uvažování). Některé autority odmítají vůbec objednávat znaky, což naznačuje, že to předpojatost analýzy vyžaduje, aby evoluční přechody sledovaly určitou cestu.

Také je možné použít diferenciální vážení na jednotlivé znaky. Obvykle se tak děje v poměru k „nákladu“ 1. Některé znaky by tedy mohly být považovány za pravděpodobnější, že odrážejí skutečné evoluční vztahy mezi taxony, a tudíž by mohly být váženy hodnotou 2 nebo více; změny těchto znaků by se pak při výpočtu stromového skóre počítaly jako dva evoluční „kroky“ spíše než jeden (viz níže). V minulosti se hodně diskutovalo o vážení znaků. Většina autorit nyní váží všechny znaky stejně, i když výjimky jsou běžné. Například údaje o frekvenci alel jsou někdy sdruženy do košů a skórovány jako uspořádaný znak. V těchto případech je samotný znak často zmenšen tak, že malé změny v frekvenci alel se počítají méně než velké změny u jiných znaků. Také třetí pozice kodonu v kódující nukleotidové sekvenci je obzvláště labilní a někdy je snížena váha nebo je jí dána váha 0 za předpokladu, že je pravděpodobnější, že bude vykazovat homoplazii. V některých případech se provádějí opakované analýzy, kdy jsou znaky přetvořeny v inverzním poměru ke stupni homoplazie objevenému v předchozí analýze (nazývané postupné vážení); to je další technika, která by mohla být považována za kruhové uvažování.

ČTĚTE: Winifred Fletcherová

Změny stavu znaků mohou být také váženy individuálně. To se často dělá u dat sekvence nukleotidů; bylo empiricky zjištěno, že určité změny základního stavu (A-C, A-T, G-C, G-T a reverzní změny) se vyskytují mnohem méně často než jiné. Tyto změny jsou proto často váženy více. Jak je uvedeno výše v diskusi o řazení znaků, uspořádané znaky mohou být považovány za formu vážení stavu znaků.

Někteří systematici raději vylučují znaky, o nichž je známo, že jsou nebo je podezření, že jsou vysoce homoplastické, nebo které mají velký počet neznámých vstupů („?“). Jak je uvedeno níže, teoretické a simulační práce prokázaly, že to pravděpodobně přesnost obětuje, místo aby ji zlepšilo. To je také případ znaků, které jsou variabilní v terminální taxe: teoretické, kongruentní a simulační studie prokázaly, že takové polymorfní znaky obsahují významné fylogenetické informace.[citace nutná]

Doba potřebná pro analýzu parsimonie (nebo jakoukoli fylogenetickou analýzu) je úměrná počtu taxonů (a znaků) zahrnutých do analýzy. Protože také více taxonů vyžaduje odhad více větví, lze u rozsáhlých analýz očekávat větší nejistotu. Protože náklady na sběr dat v čase a penězích se často mění přímo s počtem zahrnutých taxonů, většina analýz zahrnuje pouze zlomek taxonů, které mohly být vzorkovány. Někteří autoři dokonce tvrdili, že čtyři taxony (minimum potřebné k vytvoření smysluplného nezkořeněného stromu) jsou vše, co je nezbytné pro přesnou fylogenetickou analýzu, a že více znaků je cennější než více taxonů v fylogenetice. To vedlo k zuřící polemice o odběru vzorků taxonů.

Empirické, teoretické a simulační studie vedly k řadě dramatických ukázek důležitosti adekvátního výběru taxonů. Většinu z nich lze shrnout jednoduchým pozorováním: fylogenetická datová matice má rozměry znaků krát taxony. Zdvojnásobení počtu taxonů zdvojnásobuje množství informací v matici stejně jistě jako zdvojnásobení počtu znaků. Každý taxon představuje nový vzorek pro každý znak, ale co je důležitější, představuje (obvykle) novou kombinaci znakových stavů. Tyto znakové stavy mohou nejen určit, kde je daný taxon umístěn na stromě, ale mohou informovat celou analýzu, což může způsobit různé vztahy mezi zbývajícími taxony, které budou upřednostňovány měnícími se odhady vzoru znakových změn.

Nejvíce znepokojující slabina analýzy parsimonie, tedy přitahování dlouhých větví (viz níže), je zvláště výrazná při špatném odběru vzorků taxonů, zejména v případě čtyř taxonů. Jedná se o dobře pochopitelný případ, kdy dodatečný odběr vzorků znaků nemusí zlepšit kvalitu odhadu. Jak jsou taxony přidávány, často rozbíjejí dlouhé větve (zejména v případě zkamenělin), čímž efektivně zlepšují odhad změn charakterových stavů podél nich. Vzhledem k bohatství informací, které jsou přidávány odběrem vzorků taxonů, je dokonce možné vytvořit vysoce přesné odhady fylogenií se stovkami taxonů za použití pouhých několika tisíc znaků.[citace nutná]

I když bylo provedeno mnoho studií, stále zbývá mnoho práce na strategiích vzorkování taxonů. Kvůli pokroku v počítačovém výkonu a sníženým nákladům a zvýšené automatizaci molekulárního sekvenování jsou velikosti vzorků celkově na vzestupu a studie zabývající se vztahy stovek taxonů (nebo jiných terminálních entit, jako jsou geny) se stávají běžnými. To samozřejmě neznamená, že přidávání znaků není také užitečné; počet znaků se také zvyšuje.

Někteří systematici preferují vyloučení taxonů na základě počtu záznamů neznámých znaků („?“), které vykazují, nebo proto, že mají tendenci „skákat kolem“ stromu v analýzách (tj. jsou to „divoké karty“). Jak je uvedeno níže, teoretické a simulační práce prokázaly, že je pravděpodobné, že to přesnost obětuje, místo aby ji zlepšilo. Ačkoli tyto taxony mohou generovat více stromů, které jsou nejšetrnější (viz níže), metody, jako jsou podstromy dohody a snížený konsenzus, mohou stále získávat informace o zájmových vztazích.

Pro zvládnutí tohoto problému se dílčí stromy dohody, snížený konsensus a analýza dvojího rozkladu snaží identifikovat podporované vztahy (ve formě „n-taxonových výroků“, jako je výrok o čtyřech taxonech „(ryba, (ještěrka, (kočka, velryba))“) spíše než celé stromy. Je-li cílem analýzy vyřešený strom, jak je tomu v případě srovnávací fylogenetiky, tyto metody nemohou problém vyřešit. Je-li však odhad stromu tak špatně podložen, budou výsledky jakékoli analýzy odvozené ze stromu pravděpodobně stejně příliš podezřelé, než aby se daly použít.

Analýza maximální parsimonie probíhá velmi přímočaře. Stromy jsou bodovány podle míry, do jaké implikují parsimoniózní rozdělení dat o znacích. Nejparsimoničtější strom pro datový soubor představuje preferovanou hypotézu vztahů mezi taxony v analýze.

Stromy jsou bodovány (vyhodnocovány) pomocí jednoduchého algoritmu, který určuje, kolik „kroků“ (evolučních přechodů) je zapotřebí k vysvětlení rozdělení každého znaku. Krok je v podstatě změna z jednoho znakového stavu do druhého, i když u uspořádaných znaků některé přechody vyžadují více než jeden krok. Na rozdíl od všeobecného přesvědčení algoritmus výslovně nepřiřazuje konkrétní znakové stavy uzlům (větvovým přechodům) na stromě: nejmenší počet kroků může zahrnovat vícenásobné, stejně nákladné přiřazení a rozdělení evolučních přechodů. Optimalizován je celkový počet změn.

Možných fylogenetických stromů je mnohem více, než lze vyčerpávajícím způsobem vyhledat více než osm taxonů nebo tak nějak. K vyhledávání mezi možnými stromy se proto používá řada algoritmů. Mnohé z nich zahrnují odebrání počátečního stromu (obvykle favorizovaného stromu z poslední iterace algoritmu) a jeho rozrušení, aby se zjistilo, zda změna nepřináší vyšší skóre.

Stromy vzešlé z parsimonie hledání jsou nezkořeněné: Zobrazují všechny možné vztahy zahrnutých taxonů, ale postrádají jakékoliv vyjádření o relativních časech divergence. Uživatel si vybere konkrétní větev ke kořenování stromu. Tato větev je pak považována za vně všech ostatních větví stromu, které dohromady tvoří monofyletickou skupinu. To dodává stromu pocit relativního času. Nesprávná volba kořene může mít za následek nesprávné vztahy na stromě, i když je strom sám ve své nezkořeněné podobě správný.

Parsimonova analýza často vrací počet stejně nejprimitivnějších stromů (MPT). Velký počet MPT je často považován za analytické selhání a všeobecně se má za to, že souvisí s počtem chybějících záznamů („?“) v datovém souboru, znaky vykazujícími příliš mnoho homoplazie nebo přítomností topologicky labilních taxonů „divokých karet“ (které mohou mít mnoho chybějících záznamů). Pro snížení počtu MPT byly navrženy četné metody, včetně odstranění znaků nebo taxonů s velkým množstvím chybějících údajů před analýzou, odstranění nebo snížení váhy vysoce homoplastických znaků po následném vážení) nebo odstranění taxonů divokých karet (metoda fylogenetického kmene) a posteriori a následná opětovná analýza dat.

Četné teoretické a simulační studie prokázaly, že k analýze přispívají vysoce homoplastické znaky, znaky a taxony s množstvím chybějících údajů a taxony s „zástupnými znaky“. Ačkoli se může zdát, že vyloučení znaků nebo taxonů zlepšuje rozlišení, výsledný strom je založen na menším množství údajů, a je tedy méně spolehlivým odhadem fylogeneze (pokud znaky nebo taxony nejsou neinformativní, viz bezpečná taxonomická redukce). Dnešní obecný konsenzus je, že mít více MPT je platný analytický výsledek; jednoduše to naznačuje, že není dostatek údajů k úplnému vyřešení stromu. V mnoha případech je v MPT podstatná společná struktura a rozdíly jsou nepatrné a zahrnují nejistotu v umístění několika taxonů. Existuje řada metod pro shrnutí vztahů v rámci této množiny, včetně stromů shody, které vykazují společné vztahy mezi všemi taxony, a prořezaných podstromů dohody, které vykazují společnou strukturu dočasným prořezáním „zástupných“ taxonů z každého stromu, dokud se všechny neshodnou. Snížená shoda posouvá tento jeden krok dále, ale ukazuje všechny podstromy (a tedy všechny vztahy) podporované vstupními stromy.

Jackknifing a bootstrapping, známé statistické převzorkovací postupy, byly použity při analýze parsimonie. Jackknife, které zahrnuje převzorkování bez náhrady („leave-one-out“), může být použito na znaky nebo taxony; interpretace se může v druhém případě zkomplikovat, protože proměnnou zájmu je strom a srovnání stromů s různými taxony není jednoduché. bootstrap, převzorkování s náhradou (vzorek x položek náhodně ze vzorku o velikosti x, ale položky mohou být vybrány vícekrát), se používá pouze na znaky, protože přidání duplicitních taxonů nezmění výsledek analýzy parsimonie. Bootstrap se mnohem častěji používá ve fylogenetice (jako jinde); obě metody zahrnují libovolný, ale velký počet opakovaných iterací zahrnujících perturbaci původních dat následovanou analýzou. Výsledné MPT z každé analýzy jsou sloučeny a výsledky jsou obvykle prezentovány na 50% většinovém stromu shody pravidel, s jednotlivými větvemi (nebo uzly) označenými procentem bootstrap MPT, ve kterých se objevují. Toto „bootstrap percentage“ (což není hodnota P, jak se někdy tvrdí) se používá jako míra podpory. Technicky to má být míra opakovatelnosti, tedy pravděpodobnosti, že tato větev (uzel, clade) by se obnovila, pokud by se z taxonů znovu odebíral vzorek. Experimentální testy s virovými fylogeniemi naznačují, že bootstrap percentage není dobrým odhadem opakovatelnosti pro fylogenetiky, ale je to rozumný odhad přesnosti.[citace nutná] Ve skutečnosti bylo prokázáno, že bootstrap percentage, jako odhad přesnosti, je zkreslený a že toto zkreslení vede v průměru k podcenění spolehlivosti (jako že již 70% podpora může skutečně naznačovat až 95% spolehlivost). Nicméně směr zkreslení nelze v jednotlivých případech zjistit, takže za předpokladu, že vysoké hodnoty podpory bootstrap naznačují ještě vyšší spolehlivost, je neopodstatněné.

ČTĚTE: Formace Houthem

Problémy s maximálním odhadem parsimonie fylogeneze

Příklad atraktivity dlouhých větví. Větve A & C mají vysoký počet substitucí.

Maximální parsimonie je velmi jednoduchý přístup a z tohoto důvodu je populární. Není však statisticky konzistentní. To znamená, že není zaručeno, že vytvoří pravdivý strom s vysokou pravděpodobností, za předpokladu dostatku dat. Konzistence, zde míněná monotónní konvergence ke správné odpovědi s přidáním více dat, je žádoucí vlastností každé statistické metody. Jak prokázal v roce 1978 Joe Felsenstein, maximální parsimonie může být za určitých podmínek nekonzistentní. Kategorie situací, ve kterých je známo, že k tomu dochází, se nazývá přitahování dlouhých větví a vyskytuje se například tam, kde máte dlouhé větve (vysoká úroveň substitucí) pro dva znaky (A & C), ale krátké větve pro další dva (B & D). A a B se oddělily od společného předka, stejně jako C a D.

Pro zjednodušení předpokládejme, že uvažujeme o jediném binárním znaku (může to být buď + nebo -). Protože vzdálenost mezi B a D je malá, v naprosté většině všech případů budou B a D stejné. Zde budeme předpokládat, že jsou oba + (+ a – jsou přiřazeny libovolně a jejich výměna je pouze otázkou definice). Pokud tomu tak je, zbývají čtyři možnosti. A a C mohou být oba +, v tom případě jsou všechny taxony stejné a všechny stromy mají stejnou délku. A může být + a C může být -, v tom případě je pouze jeden znak jiný a my se nemůžeme nic naučit, protože všechny stromy mají stejnou délku. Podobně A může být – a C může být +. Jedinou zbývající možností je, že A a C jsou oba -. V tomto případě však seskupujeme A a C dohromady a B a D dohromady. V důsledku toho, když máme strom tohoto typu, čím více dat sbíráme (tj. čím více znaků studujeme), tím více tíhneme ke špatnému stromu.

Jednoduchou a účinnou metodou pro určení, zda přitahování dlouhých větví ovlivňuje topologii stromů, je metoda SAW, pojmenovaná po Siddalovi a Whitingovi. Pokud je u dvojice taxonů (A a B) podezření na přitahování dlouhých větví, jednoduše odstraňte taxon A („pila“ z větve) a analýzu proveďte znovu. Poté odstraňte A a nahraďte B, přičemž analýzu proveďte znovu. Pokud se některý z taxonů objeví v různých bodech větve bez druhého, existuje důkaz přitahování dlouhých větví. Vzhledem k tomu, že dlouhé větve se nemohou navzájem přitahovat, pokud je v analýze pouze jedna, konzistentní umístění taxonu mezi ošetřeními by naznačovalo, že přitahování dlouhých větví není problém (Siddal & Whiting, 1999).

K dispozici je několik dalších metod odhadu fylogeneze, včetně maximální pravděpodobnosti, Bayesovské fylogeneze inference, sousedského spojení a kvartetní metody. Z nich první dvě obě používají funkci pravděpodobnosti, a pokud jsou správně použity, jsou teoreticky imunní vůči přitahování dlouhými větvemi. Obě tyto metody jsou parametrické, což znamená, že se opírají o explicitní model vývoje charakteru. Bylo prokázáno, že u některých suboptimálních modelů mohou být tyto metody také nekonzistentní.[citace nutná]

Další komplikací s maximální parsimonií je, že nalezení nejparsimonióznějšího stromu je NP-Hard problém. Jediný v současné době dostupný, efektivní způsob, jak získat řešení, vzhledem k libovolně velkému souboru taxonů, je pomocí heuristických metod, které nezaručují, že nejparsimonióznější strom bude navrácen. Tyto metody používají algoritmy pro šplhání do kopců, aby se postupně přiblížily k nejlepšímu stromu. Bylo však prokázáno, že mohou existovat „stromové ostrovy“ suboptimálních řešení a analýza může uvíznout v těchto lokálních optimech. Proto jsou vyžadovány komplexní, flexibilní heuristiky, které zajistí, že prostor stromu byl dostatečně prozkoumán. K dispozici je několik heuristik, včetně nejbližší sousedské výměny (NNI), bisekce / znovuspojení stromu (TBR) a fylogenetického ratchetu. Tento problém rozhodně není unikátní pro MP; každá metoda, která používá kritérium optimálnosti, se potýká se stejným problémem a žádná nenabízí snadná řešení.

Bylo tvrzeno, že hlavním problémem, zejména pro paleontologii, je to, že maximální parsimonie předpokládá, že jediný způsob, jak mohou mít dva druhy stejný charakter, je ten, že jsou geneticky příbuzné. Ačkoli je toto tvrzení zmateně formulováno, zdá se, že tvrdí, že fylogenetické aplikace parsimonie předpokládají, že veškerá podobnost je homologní (jiné interpretace, jako tvrzení, že dva organismy nemusí být vůbec příbuzné, jsou nesmyslné). Důrazně to není tento případ: jako u jakékoli formy fylogenetického odhadu založeného na charakteru, parsimonie se používá k testování homologní povahy podobností tím, že se najde fylogenetický strom, který nejlépe vysvětluje všechny podobnosti.

Například ptáci a netopýři mají křídla, zatímco krokodýli a lidé ne. Pokud by toto byl jediný dostupný údaj, maximální parsimonie by měla tendenci spojovat krokodýly s lidmi a ptáky s netopýry (stejně jako jakákoli jiná metoda fylogenetické inference). Domníváme se, že lidé jsou ve skutečnosti více příbuzní netopýrům (což jsou savci) než krokodýlům nebo ptákům (což jsou plazi). Naše přesvědčení je založeno na dodatečných údajích, které nebyly vzaty v úvahu v jednoznakovém příkladu (použití křídel). Pokud by byl do analýzy zahrnut jen nepatrný zlomek těchto dodatečných údajů, včetně informací o stavbě kostry, morfologii měkkých tkání, integumentu, chování, genetice atd., byl by slabý fylogenetický signál vyvolaný přítomností křídel u ptáků a netopýrů přehlušen převahou údajů podporujících (člověka, netopýra)(ptáka, krokodýla) strom.

Často se uvádí, že parsimonie není pro fylogenetickou inferenci relevantní, protože „evoluce není parsimoniózní“. Ve většině případů není navržena žádná explicitní alternativa; pokud není k dispozici žádná alternativa, je vhodnější jakákoli statistická metoda než vůbec žádná. Navíc není jasné, co by bylo míněno, kdyby tvrzení „evoluce je parsimoniózní“ bylo ve skutečnosti pravdivé. To by mohlo být chápáno tak, že k historicky větším změnám charakteru mohlo dojít, než se předpokládá pomocí kritéria parsimonie. Protože odhad parsimonie fylogenie rekonstruuje minimální počet změn nutných k vysvětlení stromu, je to docela možné. Nicméně bylo prokázáno simulačními studiemi, testováním se známými in vitro virovými fylogeniemi a shodou s jinými metodami, že přesnost parsimonie není ve většině případů tímto ohrožena. Analýza parsimonie používá počet změn charakteru na stromech k výběru nejlepšího stromu, ale nevyžaduje, aby přesně tolik změn, a ne více, vytvořilo strom. Pokud jsou změny, které nebyly započítány, náhodně rozloženy po stromu (rozumné očekávání null), výsledek by neměl být zkreslený. V praxi je tato technika robustní: maximální parsimonie vykazuje minimální zkreslení v důsledku výběru stromu s nejmenším počtem změn.

Lze učinit analogii s výběrem dodavatele na základě jeho původního (nezávazného) odhadu nákladů na práci. Skutečné hotové náklady budou velmi pravděpodobně vyšší než odhad. Navzdory tomu by výběr dodavatele, který poskytl nejnižší odhad, měl teoreticky vést k nejnižším konečným nákladům na projekt. Je to proto, že při neexistenci jiných údajů bychom předpokládali, že všichni příslušní dodavatelé mají stejné riziko překročení nákladů. V praxi samozřejmě mohou bezohledné obchodní praktiky tento výsledek zkreslit; také ve fylogenetice mohou potenciálně zkreslit výsledky některé konkrétní fylogenetické problémy (například přitahování dlouhých větví výše). V obou případech však nelze na základě samotného odhadu určit, zda bude výsledek zkreslený, nebo do jaké míry bude zkreslený. Také při parsimonii nelze bez srovnání s jinými důkazy říci, zda jsou údaje pozitivně zavádějící.

Ve stejném duchu je parsimonie často charakterizována jako implicitní přijetí filozofického stanoviska, že evoluční změna je vzácná, nebo že homoplazie (konvergence a reverze) je v evoluci minimální. To není tak úplně pravda: parsimonie minimalizuje počet konvergencí a reverzí, které předpokládá preferovaný strom, ale to může mít za následek relativně velký počet takových homoplastických událostí. Bylo by vhodnější říci, že parsimonie předpokládá pouze minimální množství změny vyplývající z údajů. Jak je uvedeno výše, to nevyžaduje, aby to byly jediné změny, které nastaly; jednoduše to nevyvozuje změny, pro které neexistuje žádný důkaz. Zkratka pro popis je, že „parsimonie minimalizuje předpokládané homoplazie, nepředpokládá, že homoplazie je minimální“.

Parsimonie je také někdy spojována s představou, že „nejjednodušší možné vysvětlení je nejlepší“, což je zobecnění Occamovy břitvy. Parsimonie dává přednost řešení, které vyžaduje nejmenší počet nepodložených předpokladů a nepodložených závěrů, řešení, které jde nejméně teoreticky daleko za data. To je velmi běžný přístup k vědě, zejména pokud se jedná o systémy, které jsou tak složité, že se vzpírají jednoduchým modelům. Parsimonie v žádném případě nutně nevytváří „jednoduchý“ předpoklad. Obecně platí, že většina znakových datových souborů je tak „hlučná“, že žádné skutečně „jednoduché“ řešení není možné.

ČTĚTE: Krátkodobá aktiva

Existuje několik dalších metod pro odvození fylogenií založených na diskrétních charakterových datech. Každá z nich nabízí potenciální výhody a nevýhody. Většina těchto metod má zvláště zanícené zastánce a odpůrce; parsimonie byla zejména obhajována jako filozoficky nadřazená (především horlivými kladisty).

Mezi nejpopulárnější alternativní fylogenetické metody patří fylogenetická inference maximální pravděpodobnosti, někdy jednoduše nazývaná „pravděpodobnost“ nebo „ML“. Kritériem optimálnosti je maximální pravděpodobnost, stejně jako parsimonie. Mechanicky funguje analýza maximální pravděpodobnosti podobně jako analýza parsimonie v tom, že stromy jsou bodovány na základě datové sady znaků a strom s nejlepším skóre je vybrán. Maximální pravděpodobnost je parametrická statistická metoda v tom, že využívá explicitní model vývoje znaků. Takové metody jsou potenciálně mnohem výkonnější než neparametrické statistické metody jako parsimonie, ale pouze v případě, že použitý model je rozumnou aproximací procesů, které data přinesly. Maximální pravděpodobnost pravděpodobně překonala parsimonii v popularitě s daty sekvence nukleotidů a bayesovská fylogenetická inference, která využívá funkci pravděpodobnosti, se stává téměř stejně rozšířenou.

V praxi nelze pravděpodobnost stromu vypočítat přímo. Pravděpodobnost dat daného stromu lze vypočítat, pokud předpokládáte určitý soubor pravděpodobností změny znaků (model). Kritická část analýzy pravděpodobnosti je, že pravděpodobnost dat daného stromu je pravděpodobnost stromu daných dat. Strom, který má nejvyšší pravděpodobnost vzniku pozorovaných dat, je tedy strom nejpravděpodobnější.

Maximální pravděpodobnost, jak je implementována ve fylogenetice, používá stochastický model, který udává pravděpodobnost, že se určitý znak v daném bodě na stromě změní. Tento model může mít potenciálně velké množství parametrů, které mohou vysvětlovat rozdíly v pravděpodobnostech konkrétních stavů, pravděpodobnostech konkrétních změn a rozdíly v pravděpodobnostech změn mezi znaky.

Strom pravděpodobnosti má smysluplné délky větví (tj. je to fylogram); tyto délky jsou obvykle interpretovány jako úměrné průměrné pravděpodobnosti změny znaků na této větvi (tedy na větvi o délce 1 bychom očekávali průměrnou jednu změnu na znak, což je hodně). Stav každého znaku je vynesen na strom a pravděpodobnost tohoto rozložení stavů znaků je vypočítána pomocí modelu a délek větví (které mohou být změněny tak, aby maximalizovaly pravděpodobnost dat). To je pravděpodobnost daného znaku vzhledem ke stromu. Pravděpodobnosti všech znaků jsou vynásobeny dohromady; jsou obvykle záporné log-transformovány a sčítány (což má stejný účinek), protože čísla se velmi rychle zmenší. Tento součet je pravděpodobnost dat vzhledem ke stromu nebo pravděpodobnost stromu. Strom s nejvyšší pravděpodobností (nejnižší záporná log-transformovaná pravděpodobnost) vzhledem k datům je preferován.

Ve výše uvedené analogii týkající se výběru dodavatele by byla maximální pravděpodobnost analogická se shromažďováním údajů o konečných nákladech na víceméně srovnatelná pracovní místa vykonávaná každým dodavatelem v uplynulém roce a výběrem dodavatele s nejnižšími průměrnými náklady na tato srovnatelná pracovní místa. Tato metoda by byla vysoce závislá na tom, nakolik jsou pracovní místa srovnatelná, ale pokud jsou správně vybrána, přinese lepší odhad skutečných nákladů na pracovní místo. Dále by nebyla klamavá zkreslením odhadů dodavatele, protože je založena na konečných nákladech, nikoli na (potenciálně zkreslených) odhadech.

V praxi má maximální pravděpodobnost tendenci upřednostňovat stromy, které jsou velmi podobné nejprimitivnějšímu stromu (stromům) pro stejnou datovou sadu. Bylo prokázáno, že překonává parsimonii v určitých situacích, kdy je o ní známo, že je předpojatá, včetně přitahování dlouhými větvemi. Všimněte si však, že výkonnost pravděpodobnosti je závislá na kvalitě použitého modelu; nesprávný model může přinést předpojatý výsledek. Studie ukázaly, že začlenění parametru pro zohlednění rozdílů v rychlosti vývoje mezi znaky je často kritické pro přesný odhad fylogenií; neschopnost modelovat tento nebo jiné zásadní parametry může přinést nesprávné nebo předpojaté výsledky. Parametry modelu se obvykle odhadují z dat a počet (a typ) parametrů se často určuje pomocí testu hierarchického poměru pravděpodobnosti. Důsledky nesprávně specifikovaných modelů se teprve začínají podrobně zkoumat.

Pravděpodobnost je obecně považována za vhodnější metodu než parsimonie v tom, že je statisticky konzistentní a má lepší statistický základ a protože umožňuje komplexní modelování evolučních procesů. Hlavní nevýhodou je, že ML je stále poměrně pomalá ve srovnání s parsimoniemi, někdy vyžaduje dny na spuštění velkých datových souborů. Maximální pravděpodobnost fylogenetické inference byla navržena v polovině dvacátého století, ale je to populární metoda pro fylogenetickou inferenci teprve od devadesátých let, kdy výpočetní výkon dohnal ohromné nároky na ML analýzu. Novější algoritmy a implementace přinášejí časy analýzy velkých datových souborů do přijatelných rozsahů. Dokud tyto metody nezískají široké přijetí, bude parsimonie pravděpodobně preferována pro extrémně velké datové soubory, zvláště když se používá bootstrapping k posouzení spolehlivosti výsledků.

Jednou z oblastí, kde má parsimonie stále velký vliv, je analýza morfologických dat. Až donedávna nebyly stochastické modely změny charakteru dostupné pro nemyelekulární data. Nové metody, navržené Paulem Lewisem, vycházejí v podstatě ze stejných předpokladů jako analýza parsimonie, ale činí tak v rámci pravděpodobnosti. Tyto modely však nejsou široce implementovány, a pokud nejsou modifikovány, vyžadují modifikaci stávajících datových souborů (aby se vypořádaly s uspořádanými znaky a tendencí nezaznamenávat autapomorfémy v morfologických datových souborech.

Maximální pravděpodobnost byla kritizována jako implicitní předpoklad neutrální evoluce při přijetí stochastického modelu evoluce. To nemusí být nutně tento případ: stejně jako u parsimonie, předpoklad stochastického modelu nepředpokládá, že celá evoluce je stochastická. V praxi je pravděpodobnost robustní až k odchylkám od stochastiky. Funguje dobře i na kódovacích sekvencích, které zahrnují místa, o nichž se předpokládá, že jsou pod selekcí.

Analogicky nikdo netvrdí, že lidská noha se liší pouze délkou a šířkou, ale různé kombinace hodnot délky a šířky lze kombinovat tak, aby se na ni vešla široká škála nohou. V některých případech může být mírně širší celková noha lépe přizpůsobena zvětšením celkové velikosti spíše než šířkou nártu, zatímco noha s užším podpatkem by mohla být lépe přizpůsobena širšímu nártu a menší botě. Přidání několika dalších měření by pravděpodobně poněkud zlepšilo padnutí boty, ale bylo by nepraktické z obchodního hlediska. Se stále přesnějším přizpůsobením by rozdíly mezi nohami znemožnily prodej sladěných párů bot a rozdíly v čase by znamenaly, že správné padnutí při nákupu by nemuselo být správné při nošení.

Bayesovská fylogenetická inference

Bayesovská fylogenetika používá funkci pravděpodobnosti a je běžně implementována pomocí stejných modelů evoluční změny, které se používají v Maximální pravděpodobnosti. Je však velmi odlišná, jak v teorii, tak v aplikaci. Bayesovská fylogenetická analýza používá Bayesovu větu, která spojuje zadní pravděpodobnost stromu s pravděpodobností dat a předchozí pravděpodobnost stromu a modelu evoluce. Nicméně, na rozdíl od metod parsimonie a pravděpodobnosti, Bayesovská analýza nevytváří jediný strom nebo množinu stejně optimálních stromů. Bayesovská analýza používá pravděpodobnost stromů v Markovově řetězcové simulaci Monte Carlo (MCMC) k odběru vzorků stromů v poměru k jejich pravděpodobnosti, čímž vytváří důvěryhodný vzorek stromů.

Existuje několik jednoduchých algoritmů pro konstrukci stromu přímo z párových vzdáleností, včetně UPGMA a sousedního spojování (NJ), ale ty nemusí nutně produkovat ten nejlepší strom pro data. UPGMA předpokládá ultrametrický strom (strom, kde jsou všechny délky cesty od kořene ke špičkám stejné). Sousedské spojování je forma rozkladu hvězd a může velmi rychle produkovat rozumné stromy. Velmi často se používá samostatně a ve skutečnosti docela často produkuje rozumné stromy.

Odhad fylogeneze pomocí distančních metod vyvolal řadu kontroverzí. Vztah mezi jednotlivými znaky a stromem se ztrácí v procesu redukce znaků na vzdálenosti. Vzhledem k tomu, že tyto metody nepoužívají přímo znaková data a informace uzamčené v rozložení znakových stavů se mohou ztratit v párových srovnáních. Také některé složité fylogenetické vztahy mohou vytvářet zkreslené vzdálenosti. Navzdory těmto potenciálním problémům jsou distanční metody extrémně rychlé a často vytvářejí rozumný odhad fylogeneze. Mají také určité výhody oproti metodám, které používají znaky přímo. Zejména distanční metody umožňují použití dat, která nemusí být snadno převedena na znaková data, jako jsou DNA-DNA hybridizační testy.

Problémy s maximálním odhadem parsimonie fylogeneze

Bayesovská fylogenetická inference

Související příspěvky: