ssf logo blue Rötter - din källa för släktforskning driven av Sveriges Släktforskarförbund
ssf logo blue Rötter - din källa för släktforskning

Choose language:
Anbytarforum

Författare Ämne: auDNA-Finska frälsesläkter  (läst 4041 gånger)

2016-10-21, 20:04
läst 4041 gånger

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag har inte sett något dokumenterat om värdet av att använda sig av autosomalt DNA då det gäller att identifiera senmedeltida kluster av frälsesläkter i Finland, eller möjligheten att med relativt stor sannolikhet verifiera postulerade filiationer.

Tack vare den mycket begränsade genpolen bland frälset på senmedeltiden, så får man många träffar om man har dessa som anor. Kombinerar man detta med att det finska frälset är relativt väldokumenterat, om än med många felaktigheter, så kan man uppnå överraskande goda resultat.

Jag fick resultatet av min test från FTDNA, 431 matchningar, så sent som för en vecka sedan. Redan efter två dagar hade jag funnit nio ättlingar till ett och samma kluster, med stor överlappning inom ett intervall på 18 cM i kromosom 2. Inte nog med detta, jag har också via kontakt med några av dessa kunnat konstatera att jag sannolikt är 18-männing med en av dessa efter Henrik Fleming (d. > 1477!).

Av en slump har jag fått kontakt med en person vilken inte fanns med bland mina matchningar, men väl delade två av mina matchningar. Hon har dokumenterat släktskap till Måns Persson (Utter) och hans hustru Karin Sluk, dotterdotter till ovannämnde Henrik Fleming.

auDNA fungerar som ett 'förstoringsglas' i det här fallet och synes vara ett mycket potentiellt verktyg för att på sikt verifiera eller förkasta postulerade filiationer.

En förutsättning är dock att alla som tror sig ha dokumenterade anor inom det finska frälset snarast testar sig autosomalt!

Jag ser fram emot många fler träffar! Här bör vi diskutera metodiken för Analys/Syntes av erhållna resultat. I övrigt bör resultaten inordnas under respektive släkt.

2016-10-22, 18:09
Svar #1

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Med hjälp av FTDNA:s utmärkta verktyg, Matrix Matches, så vet jag nu, att av de nio matchningarna nämnda ovan, så matchar åtta av dem inbördes alla de övriga i gruppen.

Slutsatsen blir att vi alla är ättlingar till en specifik ana! Det gäller 'bara' att försöka hitta denne gemensamme nämnare...

2016-10-22, 19:25
Svar #2

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag skrev i mitt första inlägg något förhastat att jag "funnit nio ättlingar till ett och samma kluster, med stor överlappning inom ett intervall på 18 cM i kromosom 2."

En närmare granskning visar att tre stycken har exakt samma start- och slutpositioner!. Utöver detta så har tre av de övriga exakt samma slutposition som de första tre.

Slutsatsen blir att det är mitt block som är på 18 cM, och att tre stycken av mina 'cousins' har längre största block än 18 cM... Inte dåligt efter flera hundra år!

2016-10-23, 12:41
Svar #3

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag har nu genmässigt lyckats urskilja och definiera fem unika anor, med stor sannolikhet kopplade till det finska frälset, och vilka som delar dessa anor med mig!

Detta utgör ett väsentligt steg i processen att försöka sätta namn på de gemensamma anorna.

Jag utgick från det kluster som genererats av det utmärkta verktyget Commom Matches Circle, med relevans för det finska frälset, omfattande ett sextiotal personer.  Nästa steg var att med hjälp av Browsern fördela matchningarna på kromosomnivå, och slutligen med Matrix Matches renodla matchningarna så att alla i varje grupp matchade varandra inbördes.

Resultatet blev, att förutom det 'kluster' jag behandlade ovan, så tillkom fyra grupper om vardera tre unika individer i kromosom 2, 4, 9 och 13.

2016-10-24, 10:20
Svar #4

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
När man som en total nybörjare inom ett område dristar sig till att försöka analysera data och dra slutsatser av detta, så är det väsentligt att snabbt ta till sig relevant terminologi för att få struktur i sitt tänkande - och därmed en tydligare kommunikation.

I inlägget ovan använde jag ordet 'kluster' för de fem grupper jag identifierat,  där man inom respektive grupp är ättlingar till en specifik ana. Utgående från Sjölunds bok handlar det om DNA-kusiner med äkta matchning IBD (Identical By Descent).

Med kluster avser jag släkter med mer eller mindre starka band sinsemellan, genom ingiften i varandras släkter. Nästa steg i analysfasen blir alltså att identifiera ytterligare kopplingar mellan enskilda individer och grupper. För att uppgiften skall bli hanterbar är det bäst att använda sig av Common Matches Circle, då träffarna blir alldeles för många - och i detta fall flera mindre relevanta - vid användandet av ICW.

I en test av analysmetoden utgick jag från en av IBD-grupperna (kromosom 13)  med tre medlemmar, LL, KF och PK.

Till LL hittade jag fyra äkta DNA-kusiner, varav en ingår i den stora gruppen (kromosom 2).

Till KF hittade jag tre äkta DNA-kusiner, varav två var gemensamma med LL:s.

Till PK fann jag enbart två äkta DNA-kusiner- identiska med två av LL:s men ingen gemensam med KF:s.

Resultatet av denna analys återspeglar helt klart mina förväntningar - metoden förefaller användningsbar!

2016-11-02, 22:57
Svar #5

Utloggad Leif Persson

  • Anbytare ****
  • Antal inlägg: 630
  • Senast inloggad: 2017-01-16, 12:13
    • Visa profil
Hej Leif T,
Vad spännande att du också fastnat för den här DNA-forskningen. Och likaså spännande med dina resultat, trist bara att vi inte matchar varandra.. Men så långt bak som på 1400-talet är det sällan man har något autosomalt DNA kvar, jag tror nog att det sannolikt rör sig om närmare träffar, något annat vore ganska otroligt faktiskt. Sedan att de också har dessa medeltidssläkters namn i sina träd visar ju bara på hur begränsad hela den finska genpolen är...

2016-11-02, 23:49
Svar #6

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Leif P,

Nej, det handlar nog inte om en slump. Om du kollar mitt inlägg under släkten Stålhandske idag så är jag DNA-kusin med en finsk man som dokumenterat är ättling till Matts Larsson Ruuth, vilket jag själv är, då handlar det inte om en slump. Inte heller är det en slump att jag är DNA kusin till en person med dokumenterad härstamning efter Henrik Fleming - Tot 54 cM, längsta block 14,2 cM! Lägger man till att den sistnämnde ingår i en grupp på åtta individer - varav minst sex är från Finland - vilka alla är äkta matchningar till varandra och till mig, då är det ingen slump!

Du har nog fler äkta matchningar med kopplingar till senmedeltida anor än du själv inser... Börja leta efter dem!

 /Leif T 

2017-01-14, 21:46
Svar #7

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
En väsentlig fråga att diskutera under denna rubrik, är grunden för mitt antagande att auDNA är användbart för forskning rörande senmedeltida finska frälsesläkter.

I en fiktiv värld, helt utan inavel, så stämmer ditt antagande definitivt, Leif P., men som Peter Sjölund skriver i sin bok, att ”det kan räcka med att du till exempel har en ana som kom till Sverige i början av 1600-talet för att du ska få mängder av matchningar i Finland.”  Han skriver vidare att ”Har du någon ana från norra Sverige är chansen stor att du får många matchningar i Skellefteåtrakten, även om dina rötter i norr kanske ligger mer än 500 år tillbaka i tiden.”  D.v.s. på senmedeltiden…

Orsaken till detta torde vara, vilket Peter Sjölund också skriver, att man är släkt via många grenar och därför har ärvt mycket gemensamt DNA.
 
Hur stora gemensamma segment kan man då tänkas dela med sina äkta (IBD) DNA-kusiner efter en ana på senmedeltiden? Teoretiskt torde det  vara omöjligt att ge ett svar på detta, då antalet variabler vida överskrider mängden tillgänglig data…  En uppfattning om detta kan endast ernås via empiriska metoder, vilket förutsätter tester av väl dokumenterade släkter, ex.vis kungliga släkter, adel eller prästsläkter.

I mitt föregående inlägg så nämnde jag en DNA-kusin (nedan kallad HK) vilken bl.a. delar anan Henrik Fleming (död ca 1477) med mig. Vi båda ingår dessutom i en grupp på totalt tio äkta DNA-kusiner (exkl. familjemedlemmar) enligt FTDNA:s verktyg ’Matrix’. Vilken gruppens gemensamme ana är, har jag ingen aning om, men denne torde helt klart ingå  i ett släktkluster vilket också omfattar ätten Fleming…

Vad gäller mitt möjliga släktskap med min DNA-kusin HK, så är den enda för mig kända kopplingen till Finland, min ana i 12:e led, Kerstin Stålhandske (ca 1584-1652), och hennes anor.  Möjligen var dock hennes dotterdotters, Christina Risings, make, Erich Mathiae Salenius, från Björneborg i Finland. HK:s alla kända anor återfinns i Finland. En av hennes anor i 13:e led, G. Speitz, var släkt i femte respektive  tredje led med min ana Kerstin Stålhandske efter Henrik Fleming och nio till tiomänning på tio olika sätt.  HK är dessutom en ättling till G. Speitz på tre olika sätt. FTDNAs algoritm klassificerar HK som  ”3rd Cousin - 5th Cousin”.
 
Ännu närmare släkt till mig anges en annan av dessa äkta DNA kusiner, här kallad K-LL, vara, nämligen  ”2nd Cousin - 4th Cousin”. Inte heller hon tycks ha några svenska anor. Gemensamt för HK och K-LL, är att ett stort antal av deras anor levde i samma socknar i Österbotten i trakterna kring Vasa.

Baserat på  bl.a. på detta, måste jag dra slutsatsen att den gemensamme anan till mig, HK , K-LL och de övriga äkta DNA-kusinerna torde återfinnas så långt bak i tiden som på 1200/1300-talet…

Varför klarar då inte de använda algoritmerna av att differentiera mellan en äkta ’2nd Cousin - 4th Cousin’ och de träffar vilka har en gemensam ana många hundra år tidigare? Räcker den något svepande förklaringen,  att man är släkt via många grenar och därför har ärvt mycket gemensamt DNA?

Om vi återigen tittar på kopplingen mellan min ana Kerstin Stålhandske och HK:s ana G. Speitz, och tar ett hypotetiskt DNA-prov på dessa, så skulle man sannolikt få till resultat, att de var ’2nd Cousin – 3rd Cousins’ med tanke på det nära släktskapet med Henrik Fleming och de många gemensamma anorna åtta till tio generationer bakåt i tiden. Som ett tankeexperiment kan man anta att de delade ca 250 cM med ett längsta block på på ca 45 cM, vilket torde vara ett rimligt antagande. Hur stor är då sannolikheten att det återstår ett längsta block på 14 cM efter ca 450 år, eller efter ca 13 generationer, då inga ytterligare ingiften skett mellan dessa släkter?

Intuitivt, baserat på nuvarande kunskap, så förefaller sannolikheten mycket liten – men ändå tycks ’humlan kunna flyga’…  Vad är det algoritmutvecklarna förbisett – om något?

Återigen ett tankeexperiment – jag har bara salongskunskaper i ämnet genetik. Kan det möjligen vara så att segment av gener som ’reparerats’ av återkommande inavel löper mindre risk att delas upp vid överföring från förälder till barn, även om ingen inavel förekommit därefter?
 
Svaret på frågan överlämnar jag till experter, men såvitt jag ser det ligger problemet i definitionen av centiMorgan…
« Senast ändrad: 2017-01-14, 22:33 av Leif Tennare »

2017-01-15, 23:49
Svar #8

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag har nu hunnit vidareutveckla mina intuitiva tankegångar något. Själva grundidén för att använda centiMorgan, är ju att stabiliteten varierar mellan olika segment. Däri ligger svaret! De segment som har sitt ursprung för 500 år sedan, och lyckats överleva de första 200 åren måste av naturliga skäl utgöra de stabilaste segmenten... Rena Darwinismen på kromosomnivå!
 
Detta förklarar också de sparsamt redovisade empiriska resultaten, vilka pekar på att antalet ärvda cM tycks plana ut med ökande antal generationer.  Det övre värdet tycks asymptotiskt närma sig ett gränsvärde skiljt från noll...

Anna Linder skriver också i Diskulogen (nr 111, 2015-12): “The Genetic Genealogist, har samlat in statistik från läsare för att se hur mycket DNA man delar med sina närmaste matchningar när autosomalt DNA jämförs. Resultatet visade stora variationer där man delade allt från 0-600% av den statistiskt förväntade mängden, särskilt när den gemensamma anan var tre, fyra generationer, eller mer, bakåt i tiden.
 
Jag tror tyvärr att man man endast betraktat detta som ett besvärande brus, och inte en källa till ökad förståelse...

2017-01-16, 12:13
Svar #9

Utloggad Leif Persson

  • Anbytare ****
  • Antal inlägg: 630
  • Senast inloggad: 2017-01-16, 12:13
    • Visa profil
Jag är fortf inte alls övertygad om att det går att hitta spår ner till medeltiden så enkelt, tyvärr..  Eftersom vi vet att vi ärver ca 50% av generna hos varje förälder, 25% av far- morföräldrar, 12,5% av deras föräldrar, ner till 6,25, 3,125 osv så är det inte många steg till vi är nere under 0 men många decimalers %. Det innebär att vi faktiskt inte alls ärver DNA från alla våra förfäder, ens efter 6-7 generationer. Att vi då skulle kunna räkna ut exakt vem vi matchar med en gemensam person från 1400-talet, ser jag som närapå omöjligt.  Men här är en intressant text om bland annat det här ämnet  https://dna-explained.com/2013/08/05/autosomal-dna-ancient-ancestors-ethnicity-and-the-dandelion/

Likaså den här artikeln, där det bland annat visas lite kurvor för att en förfader (efter x antal generationer) har lämnat autosmala spår i vårt DNA https://gcbias.org/2013/11/11/how-does-your-number-of-genetic-ancestors-grow-back-over-time/

2017-01-17, 12:29
Svar #10

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag kan delvis hålla med dig, Leif P, såtillvida att det knappast är möjligt att entydigt identifiera en specifik ana på senmedeltiden baserat på auDNA. Däremot kan det – kombinerat med pappersforskning – öka sannolikheten att en hypotetisk fliliation är korrekt.
 
Vad jag tror du delvis förbiser, är att det finns ett antal postulerade randvillkor att använda i analysen. I detta fall har jag utgått ifrån att kopplingarna till mina äkta DNA-kusiner i Finland går via Kerstin Stålhandske, som föddes på Åland, men flyttade till Östergötland och gifte sig med Magnus Haraldi Wallerstadius. Kerstin torde ha ärvt ’finskt’DNA endast från sina farföräldrar, Harald Tyrilsson Stålhandske och hans av mig postulerade hustru, Margareta Pedersdotter Fleming, då hennes mor var dotter till  häradshövdingen i Banekinds härad (1573-1581) i Östergötland.

Sannolikheten att Kerstin är en autosomal genetisk ana uppgår teoretiskt till 20%, enligt ett diagram i det material du länkade till. Sannolikheten är alltså inte obefintlig att jag ärvt några gener från Kerstin Stålhandske, frågan är bara hur mycket….

Helt klart är emellertid att den totala mängden cM man delar tycks kraftigt överskrida det teoretiskt beräknade. Enligt den rena teorin, så delar femmäningar 13 cM med varandra – ett värde som alla mina 529 matchningar överskrider.

För att ta några konkreta exempel, så delar jag 49 cM med en DNA-kusin som är femmänning till mig på fädernet, och sjumänning på mödernet. Med hennes morbror, en sexmänning, delar jag 55 cM.

 Med två åttamänningar delar jag 72 resp. 38 cM istället för det teoretiska 0,2 cM…

2017-01-17, 19:02
Svar #11

Utloggad Nils Hård af Segerstad

  • Anbytare *****
  • Antal inlägg: 1113
  • Senast inloggad: 2017-04-24, 08:24
    • Visa profil
Jag hävdade i en artikel i Släkt och Hävd 2014, nr 3, s 59, med titeln "Vem var domprostinnan?" att Magnus Haraldi Wallerstadius´ maka Kerstin (Christina) Thuresdtr inte tillhörde ätten Stålhandske utan var dotter u ä till kammarrådet Ture Rosengren.

2017-01-17, 19:12
Svar #12

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Ett stöd för mitt antagande att man kan ärva relativt mycket DNA från senmedeltiden fås i en artikel om 'Identical by descent' publicerad av International Society of Genetic Genealogy Wiki (http://isogg.org/wiki/Identical_by_descent).

Där hittar man följande: "In a study of a European subset of the Population Reference Sample (POPRES) dataset it was estimated that for the most part IBD blocks longer than 4 cM come from 500 to 1,500 years ago, and blocks longer than 10 cM are within the last 500 years."

2017-01-17, 20:58
Svar #13

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Ytterligare ett hugskott. Då stabiliteten varierar mellan olika segment – och därmed måttet cM är befogat –  så torde ’stabila’ segment ha en betydligt längre ’halveringstid’ och dominera bland senmedeltida matchningar.
 
Om man utgår ifrån att antalet delade segment är ett approximativt mått på hur nära släkt man är, så kan man förvänta sig att det stabila segmentet utgör en allt större del av det totala antalet cM ju längre bak i tiden den gemensamme anan levde.

I det bifogade diagrammet har jag - baserat på mina matchningar - plottat hur stor del av det totala antalet cM,  som det längsta blocket utgör (i procent) av det totala, som funktion av antalet delade segment. Testa gärna dina egna resultat!

Som synes är trenden klar. Min närmaste matchning är ett barn till en syssling till mig Vi delar 32 segment om tot. 194 cM med längsta block på 36 cm, vilket utgör 19% av totalen. Mina äkta kusiner i Finland delar i snitt 15 segment med mig, om i snitt 45 cmM med ett längsta block på i snitt 13 cM, vilket utgör ca. 28%.  En sannolikt mycket avlägsen släkting till mig, en ryss, delar totalt 5 segment om totalt 19 cM varav 9 cM i ett längsta block = 47%.

Ett extremt exempel delar tre segment med mig, totalt 21 cM, varav ett längsta block på 16 cM! (76 %!)

‘Halveringstiden’ för dessa stabila block torde vara mycket lång – och kanske prioriterat vid rekombination, vilket kan förklara att man kan ärva betydligt mer än det teoretiskt angivna.

Såsom varande en total novis på området, skulle jag uppskatta en kommentar från någon med relevant bakgrund i ämnet…

2017-02-14, 14:51
Svar #14

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
I avsaknad av någon reaktion på mitt senaste inlägg, så har jag grävt vidare i den information som finns tillgänglig från mina egna auDNA-kusiner. Dessutom har jag naturligtvis försökt ta till mig en del av den information som finns tillgänglig på nätet – i teoretisk eller statistisk form – rörande kopplingen mellan delade centimorgans och grad av släktskap.

Om man gör sig besväret att slumpmässigt kartlägga fördelningen av blocklängderna för ett mindre antal DNA-kusiner, så får man ganska snabbt en bekräftelse på att de tre längsta blocken utgör en inte oväsentlig del av den totalt delade mängden cM. I bilagan visas fördelningen av de (upp till åtta) största blocken när man delar totalt 5-8, 18-20 respektive 22 och 32 segment.

Paul Rakow blev mycket förvånad, när han simulerade fördelningen av storleken på segment efter anor så långt tillbaka som 20 generationer, då han kunde konstatera att de fåtal segment som översteg 10 cM, fortfarande utgjorde nästan hälften av genomet efter 20 generationer. Med andra ord, skriver han, så kommer nästan hälften av ditt DNA från endast 200 av den tjugonde generationens anor, och den andra hälften från ca 1200 anor och du har hundratusentals anor vilka inte har bidragit till ditt DNA över huvud taget. Ca 22% av ditt genom består av block längre än 15 cM från den 20:e generationen, och ca 5% av block längre än 25 cM.

Notera dock att det här rör sig om längden på de block du delar med dina anor – inte med dina DNA-kusiner. Men det innebär att det är fullt möjligt att dela ett block med en DNA-kusin, på ca 10 cM efter en ana 20 generationer bakåt i tiden. Detta ligger också i linje med resultatet av POPRES – studien nämnd ovan, där man uppskattade att block längre än 4 cM kommer från 500 till 1500 år sedan, och block längre än 10 cM från de senaste 500 åren.

Baserat på uppdaterad data från The Shared cM Project  i The Genetic Genealogist,  gjord av Blaine Bettinger, har jag tagit fram ett diagram där jag lagt in mina DNA-kusiner med kända anor (se bil.) Av diagrammet framgår att redan för en 5th cousin (6-männing) så ligger mitt faktiska totala cM-värde cirka 75% högre än det rapporterade maxvärdet, och skillnaden ökar därefter…

Som författaren själv besvarade en fråga om just detta på sin blogg: If nothing else, questions like these demonstrate how little we really know, and how much more study is needed!

2017-02-14, 18:47
Svar #15

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Det är intressant att konstatera att FTDNA enligt ISOGG Wiki använder följande data som input till deras algoritm för att prognosticera släktskap mellan DNA-kusiner:

The science behind this involves comparing the atDNA of all participants to discover total Centimorgans (abbreviated as cMs) to determine up to and including 2nd cousins, then for 3rd cousin and higher they use largest cMs plus a formula to determine these as follows:

    1st longest block
    2nd longest block over 5
    total of all cMs

on 500 SNPs or more.


Jag har själv utan vetskap om detta för några dagar sedan tagit fram ett diagram där jag plottat
summan av de tre största segmenten som funktion av avstånd till gemensam ana. (Angivna 'halva' generationer motsvarar nth C 1R) Se bil.

Bilden är dock inte så enkel som det förefaller i denna graf. I ett fall där jag inte hittat den gemensamma anan, så delar jag ca 24 cM med två systrar, samt 31,2 cM med deras mor och moster, medans jag delar endast 16,6 cM med den tredje systern. Detta gäller alltså summan av de tre största blocken. Vad gäller det största blocket så delar jag 17,3 cM med alla utom den tredje systern med vilken jag delar 10,2 cM.

Detta är i.o.f.s. inget märkligt, men det är svårt att skapa en algoritm för...
« Senast ändrad: 2017-02-14, 18:56 av Leif Tennare »

2017-02-19, 22:36
Svar #16

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
För att återkomma till huvudfrågan – är det möjligt att använda sig  av autosomalt DNA, för att försöka spåra kopplingar till senmedeltida släkter? 

Som jag berört ovan, så hävdas att av en individs genom består ca 22% av block längre än 15 cM från den 20:e generationen, och ca 5% av block längre än 25 cM.  Jag nämnde också resultatet av POPRES, där man uppskattade att block längre än 4 cM kommer från 500 till 1500 år sedan, och block längre än 10 cM från de senaste 500 åren. Slutsatsen blir att det torde vara möjligt att dela ett block på ca 10 -15 cM med en DNA-kusin efter en gemensam ana som levde på 1500-talet i Finland – eller i Skellefteåtrakten -  eller från vilket område som helst med en begränsad genpool…

Varför hittar man då inget om denna möjlighet på nätet? Efter ha försökt sätta mig in i de algoritmer som används av de största operatörena inom området, så tycks fokus hos flertalet operatörer ligga på att med största möjliga säkerhet identifiera nära DNA-kusiner, upp till 3-4 männingar, baserat på avancerade teoretiska och statistiska metoder. Innan man letar efter ’matchningar ’ så filtreras en hel del resultat bort, då de bedöms ligga utanför det statistiskt förväntade. Statistiken styr resultaten – inte tvärtom…

Utöver detta så har man i USA ett problem med allt för många matchningar, varför man begränsar antalet rapporterade matchningar till ex.vis 2000. Då bortfiltreras många avlägsna ’DNA-kusiner’.

Hösten år 2014 introducerade AncestryDNA ett nytt matchningssystem baserat på deras nya algoritm, döpt till ’Timber’. Resultatet blev att många blev av med långt mer än hälften av sina tidigare erhållna matchningar!  Även så nära släktskap som kusiner försvann, till stor förtret för folk som faktiskt väl kände sina kusiner!  AncesterDNA har uppenbarligen valt en diskrimineringsnivå som ska hålla för en domstol gällande arvsrätt…

Det problem som de försökte eliminera var ”to deal with the phenomenon of the matching of overly-common chromosome regions.” Förutom att blockera sådana regioner, vilka med stor sannolikhet inkluderar resultat från begränsade genpooler, så justerar Ancestry dessutom till viss del de ’faktiska’ segmentens längd mätt i centimorgan!

Signaturen Puzzled  skriver på ’Geneaology and Genomics’, ” It may turn out that the Timber algorithm is too aggressive, and some genealogically informative matches are being lost in the new AncestryDNA matching system”.

FTDNA:s Family Finder, får å andra sidan mycket kritik för att de inte filtrerar resultaten tillräckligt hårt – dock inte av kunderna utan av teoretikerna. Jag tycker tvärtom att FF är de mest kundorienterade – de utelämnar ingen information. All data innehåller information – det gäller bara att tolka den rätt. Även ’felaktig’ data kan uppträda systematiskt och bidraga till en analys.

Ett första steg för att eventuellt kunna skapa en algoritm, som kan identifiera approximativt  avstånd till närmaste gemensamma ana från senmedeltiden, är att ’sortera bort’ närmare träffar så långt möjligt. I en första ansats, så har jag tagit fram medellängden av de med mig delade segmenten (i cM) för alla mina matchningar. När jag plockat bort mina kända matchningar, upp till 8-männingar, så hamnar alla medelvärden inom spannet 2,3 till 3,5 cM, med ett medelvärde på 2,9 cM! Ett medelvärde under 3,5 cM indikerar att släktskapet ligger minst åtta generationer bakåt i tiden. (Se bil.) Maxvärdet är uppjusterat till 3,5 från det värde, 3,3, som är inritat i diagrammet. Jag har också utelämnat en handfull matchningar, vilka med relativt hög sannolikhet är närmare släkt än 8-männingar, men där jag inte lyckats identifiera den gemensamme anan.

För matchningar med få gemensamma segment, färre än 7-8, så kan dock i vissa fall värdena ligga  klart över 3,5 cM. I extremfallet 3 delade segment så är medelvärdet så högt som 7 cM.

Slutsatsen bygger på få kända släktskap.  Tar gärna emot även enstaka resultat gällande kända släktskap, från dig som läser detta…
« Senast ändrad: 2017-02-20, 15:25 av Leif Tennare »

2017-03-02, 17:43
Svar #17

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html
Hej Leif!

Med synnerligen stort intresse har jag tagit del av ditt enmansseminarium om möjligheterna att genom autosomala DNA-test spåra släktskap långt tillbaka i tiden. Jag har själv vid några tillfällen försökt initiera diskussioner i FB-gruppen DNA-anor om liknande frågor - om än på en betydligt mindre avancerad nivå - och varje gång mötts av ett kompakt ointresse, varpå saken efter bara ett par dagar sjunkit ner och helt försvunnit i ett moras av mera engagerande frågor, t ex om hur lång tid det tar att få svar från FamilyTreeDNA och hur mycket porto man ska sätta på kuvertet med salivprovet. Din imponerande insats här i Anbytarforum kommer förhoppningsvis att bli mera långlivad och så småningom leda till en kvalificerad diskussion. Men jag är både förvånad och besviken över att ingen av experterna i Svenska Sällskapet för Genetisk Genealogi ännu har tagit upp din kastade handske.

Redan när jag för drygt fyra år sedan fick de första resultaten av mitt autosomala test hos FTDNA, slogs jag av orimligheten i företagets uppskattning av vilka av träffpersonerna som var mina närmaste släktingar. De få svenskarna i listan hade påfallande ofta sina förfäder i delar av Sverige - ofta Västerbotten eller Piteåtrakten - där jag inte har några kända anor.  I övrigt bestod topplistan huvudsakligen av amerikaner, finländare och norrmän.  Det skulle dröja ganska länge innan det bland kategorierna 2C-4C och 3C-5C hittade några som jag kunde belägga släktskap med - och då rörde det sig oftast om klart mera avlägsna kopplingar än de av FTDNA uppskattade.

Sedan dess har min misstro mot FTDNA:s kriterier snarast förstärkts. I gruppen DNA-anor har jag bl a visat hur man genom att ordna min träfflista efter den totala mängden gemensamt DNA istället för enligt FTDNA:s uppskattning (där längsta gemensamma segment verkar väga tyngst), får en betydligt större andel dokumenterade släktingar i övre delen av listan och en bättre korrelation mellan verklig släktskap och listplacering.

Liksom de flesta andra som en gång med entusiasm och nyfikenhet kastade sig över möjligheterna att genom DNA-test komplettera och kontrollera sin släktforskning, ägnar jag nu allt mindre tid och kraft åt att leta efter släktskap med nya träffar på listorna från FTDNA eller att försöka tolka de mönster som man kan finna i gemensamma DNA-strängar på olika kromosomer.

Vad man skulle kunna hoppas på är att testföretagen lägger ner mera kraft på att förse sina kunder med bättre analysverktyg. Hittills verkar det bara vara FTDNA som överhuvudtaget intresserar sig för detta, och att döma av vad du skrev i ett av inläggen ovan, går utvecklingen nu snarare åt fel håll.

Hälsningar
Hans Olof


PS - Du finns förresten på min träfflista, men såvitt jag vet har jag inga linjer till några finländska frälsesläkter. - DS

2017-03-03, 19:18
Svar #18

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Hans Olof!

Tack för ditt inlägg. Förhoppningsvis kommer fler att repa mod och dela med sig av sina egna sina erfarenheter!

Jag bifogar ett intressant diagram som jag tagit fram som ett komplement till diagrammet i mitt föregående inlägg, nu i en mer kvantitativ form  Diagrammet visar fördelningen av medellängden på de segment jag delar med alla mina matchningar, 597 st. (inklusive dig). Av bilden framgår att medellängden av gemensamma segment för majoriteten av alla mina matchningar, 95%,  ligger under 3,6 cM, vilket indikerar ett släktskap mer avlägset än sju-/ åttamänningar.

Kurvans form, med ett maximum för ett medelvärde på 2,8cM - vilket gäller för ca 14%  av mina DNA-kusiner - för att sedan snabbt dyka ned till 2,2 cM, återspeglar sannolikheten att få sådana träffar. Samtidigt som  totalt cM och antalet delade segment avtar med ökat antal generationer till en potentiell gemensam ana, så ökar samtidigt antalet potentiella nu levande DNA-kusiner. Man kan därför rent matematiskt förvänta sig ett maximum någonstans på kurvan.

Det vore kul att få input från fler läsare om koppling mellan deras kända DNA-kusiner, och medellängden på deras delade segment…

Angående ditt PS, så är medellängden på våra 21 delade segment 2,8 cM. Vi är också äkta kusiner till en gemensam DNA-kusin, med vilken jag delar 14 segment med en medellängd på 2,7 cM. Fyra av dina ICW:s tillhör mina kända DNA-kusiner, bl.a. min närmaste matchning – en son till en syssling till mig. De övriga är åttamänningar.

Vår gemensamme ana torde återfinnas i nordöstra Uppland.

Hälsningar
Leif

2017-03-05, 23:43
Svar #19

Utloggad Peter Siljerud

  • Anbytare **
  • Antal inlägg: 79
  • Senast inloggad: 2017-04-08, 07:02
    • Visa profil
    • www.siljerud.com
Hej Leif!

Jag har följt din "medborgarforskning" och kan meddela att jag har många finska matchningar på FTDNA, flera med gemensamma anor från finsk medeltid (Tavast, m.m.). Förstås kan det finnas senare kopplingar, men det är onekligen intressant. Du och jag matchar ju inte men även jag har Henrik Fleming.

Jag vet inte om följande hjälper dig vidare men jag testar. Jag har från Fredrik Skog på DNA-anor på Facebook fått en Excelfil med 250 personer som har rapporterat in totalt cM och längsta segment samt på vilket avstånd dessa matchningar varit på (mätt i antal generationer till första gemensamma ana). Tyvärr saknas antal delade segment.

Jag gjorde antagandet att antalet cM för en viss generation är normalfördelat. Det är sannolikt ett felaktigt antagande, och kan vara någon annan fördelning (Poisson?). Utifrån dessa sampelvärden kunde jag i vilket fall få fram hyfsade normalfördelningskurvor. Dessvärre är underlaget lite klent, man skulle behövt ett par tusen för större exakthet antar jag. Exempelvis är medlet för 7 generationer högre än för 6 vilket förstås inte kan stämma. Då skillnaderna mellan vissa generationer var så små valde jag att slå samman generation 5-7 och även de som är 8+. Grafen blir hyfsad för längsta segment, men för totalt cM är variationen så stor att det inte blir meningsfullt utan mer data.

Jag bifogar denna graf i normerad form vilket gör den lite lättare att tolka. Att kurvorna sticker ut till vänster (in på minus) är förstås inte korrekt utan detta är en approximation. Det är inte perfekt på något sätt och jag är osäker på om den tillför något till FTDNAs uppskattningar.

Jag kollade också på min- och maxvärden men även det är svårt. Några eventuella regler som (oftast) gäller kan vara dessa. Antalet generationer är till första gemensamma ana.

>120 cM - 1 gen
>70 cM - Max 2 gen
>50 cM - Max 3 gen
>30 cM - Max 7 gen
>20 cm - Max 9 gen

Tyvärr kan man inte säga så mycket exakt för generationerna 4-6.

För att koppla det till dina teorier så var längsta avstånden 14 generationer av de som rapporterat. Snittet för såväl 13 som 14 generationer var 12 cM för längsta gemensamma segment (men det fanns bara sju värden dessvärre). Snittet för totalt cM var 56.

Det finns förstås fler felkällor än få mätvärden. Statistiken bygger på första gemensamma ana man har hittat, vilket långt ifrån alltid behöver vara den närmaste. Särskilt när antalet generationer stiger. Och omvänt kan ju anförluster i områden med begränsad genpool få genomslag åt andra hållet, att släktskapen uppfattas närmare än i verkligheten.

Ja, det var lite tankar som kanske ger dig någon ledtråd att nysta vidare i.

2017-03-06, 01:13
Svar #20

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Peter,

Tack för ditt inlägg! Dina data och dina tankegångar kommer väl till pass!

Jag har nämligen just idag börjat jobba med ett embryo till en 'algoritm' för att i ett första steg kunna sortera ut vilka träffar som ligger innanför, resp. utanför "åtta generationers" gränsen. Då jag har kommit fram till, att det på grund av ämnets komplexitet så finns det sannolikt ingen unik lösning, som baseras på endast en variabel. I en första omgång har jag testat att utgå från empiriska gränsvärden för tre variabler, och ansatt följande approximativa värden för dessa för att sortera ut de träffar som de facto bör ligga inom "åtta generationer":

- Segmentens medellängd:    > 3,6 cM
- Längsta block (LB):             > 13 cM
- LB / Totalt cM                      < 50 %

M.h.a dessa gränsvärden har jag av mina totalt 29 träffar med 3,6+ cM kunnat gallra bort 18 träffar vilka sannolikt, eller med stor sannolikhet, ligger bortom 8 generationer. Av de kvarstående 11, är 4 bekräftade träffar inom intervallet och 3 av olika skäl troliga. Återstår 4 värda att försöka spåra upp.

Självklart är osäkerheten mycket stor, men dina värden tycks ligga i linje med detta. Jag uppskattar speciellt informationen om bekräftade 13/14-männingar, då jag själv saknar detta.

Hälsningar
Leif

2017-03-06, 09:39
Svar #21

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html
Hej Leif!

Äntligen börjar det hända något konstruktivt. Jag sitter också periodvis och försöker räkna på alternativa kriterier för att uppskatta de genetiska avstånden till mina DNA-träffar. Tyvärr slutar det i allmänhet med att jag stångar min panna blodig mot det bisarra måttet centiMorgan, som jag bara korta stunder tror mig förstå innebörden av - vanligen under lätt påverkan av alkoholhaltiga drycker. Att addera och beräkna medelvärden på strängar, vilkas "längd" uttrycks i centiMorgan, känns som att försöka räkna äpplen som inneslutits i betongblock.

I mitt senaste försök tog jag också med det totala antalet SNP i de gemensamma segment som FTDNA redovisar (se http://www.secutor.se/diverse/close_relatives.pdf ). Visserligen är jag lite undrande över att FTDNA för det mesta tycks redovisa dessa SNP som avrundade 100-tal och bara i ett fåtal fall som exakta värden, men här tycker jag mig ändå se ett ganska tydligt mönster, som jag inte ser i de kolumner som bygger på cM-värden.

Tabellen innehåller alltså de av mina FF-träffar som enligt min pappersforskning är mina sjumänningar eller närmare. Det är förstås ett alltför litet underlag för slutsatser, men med ett enda undantag har de släktingar som visat sig vara sex- till sjumänningar SNP-värden mellan 9100 och 14555, medan de närmare släktingarna har SNP-värden mellan 17858 och 19030.

Beträffande undantaget BE, som alltså uppvisar det allra högsta SNP-värdet, har jag även andra skäl att misstänka att vi har en närmare släkting - förmodligen en okänd far på ganska nära håll.

Även om min tabell alltså har begränsat värde, kan du kanske i alla fall använda innehållet för att testa din senaste algoritm.

Beträffande våra gemensamma anor, tror jag också att det handlar om nordöstra Uppland, men hittills har jag inte hittat något.

Hälsningar
Hans Olof

2017-03-06, 11:19
Svar #22

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hans Olov,

Tack vare dina data så fick jag ett direkt svar på värdet av mitt embryo till en 'algoritm' - det höll inte måttet! Med mina kriterier skulle jag ha prognostiserat 8 av de 13 som mer avlägsna än 7th cousin! Det intressanta är att de 8 sorterades ut p.g.a. såväl segmentens medellängd som längsta block, medan de övriga 5 mötte gränsvärdena för båda variablerna - till synes en samvariation.

Detta bara understryker nödvändigheten av en större mängd data. Förhoppningsvis får vi in fler bidrag!

Det är bara att jobba vidare!

/Leif

2017-03-06, 12:26
Svar #23

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hans Olov,

Du skrev i ditt första inlägg. "I gruppen DNA-anor har jag bl a visat hur man genom att ordna min träfflista efter den totala mängden gemensamt DNA istället för enligt FTDNA:s uppskattning (där längsta gemensamma segment verkar väga tyngst), får en betydligt större andel dokumenterade släktingar i övre delen av listan och en bättre korrelation mellan verklig släktskap och listplacering."

Jag har därför tagit fram en graf utgående från medelvärden för dina värden på tot. CM och dessutom lagt in fyra av mina, och två av min hustrus, enstaka värden. Trenden är uppenbar baserat på medelvärden, men spridningen är mycket stor.

På något sätt bör totalt cM ändå ingå i en empirisk algoritm...

2017-03-06, 13:56
Svar #24

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Tar man med alla enskilda värden så får man följande bild.

2017-03-06, 22:10
Svar #25

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag återkommer med ytterligare en bild, vilken visar mängden gemensamt DNA vid olika släktskap enligt tre olika källor. Syftet med detta är att väcka intresse för att redovisa renodlat empiriska data för DNA-tester utförda av FTDNA:s Family Finder. Som exempel på utfall har jag lagt in de fåtal punkter som redovisats ovan, gällande Hans Olovs och mina och min hustrus fåtal kända matchningar.

De värden man finner rapporterade idag från olika källor spänner från rent  teoretiska datasimuleringar, där alla ’störande faktorer’ är eliminerade så långt möjligt, till hybrider mellan teori och empiri.

Som jag tidigare nämnt, arbetar Ancestry rent teoretiskt – man ’avlar barn’ in silicum (=datasimulerar) baserat på par av kunders genotyper. ”All pairs of individuals in this simulation share exactly two ancestors, or no ancestors; we do not consider other types of pedigree relationships, such as halfsiblings”. Inte heller anförluster finns med i simuleringarna, varför deras prognoser endast torde vara relevanta för ett fåtal generationer, vilket tycks vara deras affärside – extremt högt prognosvärde inom ett par, tre generationer…

B T Bettinger: ”The Shared cM Project is a collaborative data collection and analysis project created to understand the ranges of shared centimorgans associated with various known relationships. As of June 2016, total shared cM data for more than 10,000 known relationships has been provided.This is the first update to the original data, released in May 2015. In this update there are more than 4,000 new entries. Additionally, the data for each relationship has been analyzed statistically to remove extreme outliers and produce a histogram to show the distribution (min kursivering).” Detta är sannolikt nödvändigt, men också en möjlig felkälla.
 
Vad jag, och säkert fler med mig, vill se, är spridningen av faktiska resultat kopplade till känt släktskap. I FF:s fall tycks det lägsta rapporterade värdet för totalt cM vara 19 cM och 8 cM för längsta block. Frågan är då hur många generationer kan man uppnå över dessa gränsvärden som är ett resultat av FTDNA:s algoritm?

Peter, kan du bidra med spridningen av totalt cM relaterat till närmsta ana, hämtat från den excelfil du fått av Frerik Skog?  Det skulle uppskattas!

/Leif
« Senast ändrad: 2017-03-06, 23:24 av Leif Tennare »

2017-03-07, 00:02
Svar #26

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html

2017-03-07, 16:41
Svar #27

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Tack, Hans Olov. Har uppdaterat tabellen med dessa träffar.

Angivandet av släktskap utgör medelvärdet av avståndet till den gemensamme anan för repektive part. En 6th cousin 2R, noteras alltså som en 7th cousin och en 6th cousin 3R blir en 7th cousin 1R.

2017-03-07, 20:55
Svar #28

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Tabellen ovan pekar uppenbart på att man kan spåra anor åtminstone tio generationer bakåt i tiden – eller…?

Vi har nu nått den punkt där tvivel börjar infinna sig. Det rör sig förmodligen om oidentifierade anor som ligger närmare i tiden, anser en del, och det är en åsikt som måste respekteras. Självklart lär det finnas en del sådana fall, men jag tror att majoriteten av identifieringarna de facto är de närmaste gemensamma anorna, men osäkerheten ökar raskt med antalet ökade generationer.

Det fortsatta arbetet bör alltså inriktas mot att hitta indicier som stöder hypotesen att auDNA är användbart som instrument för att verifiera postulerade senmedeltida anor.

Självklart behövs tillgång till stora mängder bekräftande data, vilket jag av naturliga skäl inte förfogar över. Men, man kan alltid jobba emot att höja sannolikheten för att ens hypotes är korrekt!

I ett första steg har jag tagit fram ett stapeldiagram vilket visar fördelningen av totalt delat cM för mina DNA-kusiner. I tabellen ovan finner man ett lägsta värde på 32 cM för de mycket fåtaliga matchningarna. Av intresse kan ändå vara, att 25% av mina matchningar delar mindre än 32 cM med mig. Sannolikheten torde vara relativt hög, att en icke oväsentlig del hamnar bortom 10th cousin.

Vad gäller fördelningen i sig, så är distributionen i princip identisk för min hustrus matchningar – endast en förskjutning på någrafå procentenheter mellan staplarna.
 
I diagrammet har jag också lagt in medelvärdet för antalet gemensamma segment för varje stapel. Som synes samvarierar antalet segment och totalt delat cM. Detta gäller även inom varje stapel, men spridningen är stor.

2017-03-09, 21:21
Svar #29

Utloggad Peter Siljerud

  • Anbytare **
  • Antal inlägg: 79
  • Senast inloggad: 2017-04-08, 07:02
    • Visa profil
    • www.siljerud.com
Hej Leif,
jag bifogar bilder på totalt cM och längsta segment kopplat till antal generationer till första gemensamma ana. Dessvärre är spridningen så stor att det är svårt att säga något definitivt. Intressant i sammanhanget är dock att spridningen tycks minska ju fler generationer det handlar om (det är förvisso färre mätpunkter, men detta håller även vid en statistisk analys vilket jag kollat).

Om rådatan i sig hjälper ytterligare kan jag fråga Fredrik om jag kan vidarebefordra den till dig.

2017-03-09, 23:38
Svar #30

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Peter,

Tack för de mycket informativa graferna! Jag tror inte att det är en slump att spridningen minskar med antalet generationer – det beror sannolikt enbart på att de minst stabila blocken ’snabbt’ bryts ner, och att de stabila blocken inte varierar särskilt mycket i längd (cM).

Jag bifogar en bild, baserad på mina matchningar, som förvånade mig mycket när jag först tog fram den. Det förefaller som att minsta mängden totalt delad cM är linjärt korrelerad med antalet delade segment! Maxvärdena är däremot mer slumpartde. Varför det tycks vara så , har jag ingen hypotes om ännu…

Jag skulle uppskatta väldigt mycket att få ta del av Fredriks rådata. Jag vill nämligen gärna studera relationen mellan antalet generationer och antal delade segment.

Rådata är guld värt för en forskare, oavsett område – man vet aldrig vad man kan få ut av det!

2017-03-10, 09:06
Svar #31

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html
Bara en snabb reflektion: Beror inte de senast observerade fenomenen till stor del på att FTDNA inte mäter - eller åtminstone inte redovisar - segment som är mindre än 1 cM? Eftersom gemensamma segment genomsnittligt minskar i storlek för varje ny generation, försvinner allt flera av dem under horisonten, och därmed minskar antalet segment i redovisningen samtidigt som cM-medelvärdet för segment blir kvar på en relativt hög nivå.

2017-03-10, 11:36
Svar #32

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Helt klart synes fördelningen av totalt cM vara statistiskt relevant. Bilden blir närmast identisk när jag plottar 28 matchningar jag erhållit av Hans Olof, tillsammans med 9 av mina och 3 av min hustrus.

2017-03-10, 16:36
Svar #33

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag skrev ovan att jag vill studera relationen mellan antalet generationer till närmaste gemensamma ana och antalet delade segment. Jag utgår ifrån att ’informationstätheten’ är hög för den relationen.

Jag har idag gjort en betaversion av en sådan graf – ’beta’ p.g.a. den mycket begränsade datamängden. Oavsett denna begränsning, så törs jag redan nu påstå att grafen återspeglar verkligheten – speciellt som ett minimum för 6:e generationen också kan anas i Peters bilder.

Antalet delade segment tycks alltså av naturliga skäl minska med ökat avstånd till den gemensamma anan upp till sjätte generationen för att därefter öka igen och till synes plana ut efter 8:e - 9:e generationen...

Hur skall man då tolka detta?  En möjlig hypotes är att effekten av anförluster och begränsad genpool slår igenom med ökat avstånd till närmaste ana.

Denna graf tillsammans med Peters bilder påvisar tydligt svårigheten att skilja 8-männingar från 4-männingar...
« Senast ändrad: 2017-03-10, 16:49 av Leif Tennare »

2017-03-11, 23:39
Svar #34

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Tack vare Peter Siljerud och Fredrik Skog, kan jag presentera en mycket intressant graf. Den visar relationen mellan längsta block och totalt delat cM versus släktskap i generationer till närmaste gemensamme ana. Databasen omfattar 253 kända släktskap. Självklart kan några av dessa vara felaktiga, men det är sällan man ser så 'ideala' diagram! Här handlar det inte om en slumpmässig spridning, utan om kausala samband!

Denna graf pekar återigen på den sjätte generationens unika betydelse i tolkningen av komplexa samband vad gäller delat DNA.       
« Senast ändrad: 2017-03-11, 23:47 av Leif Tennare »

2017-03-12, 01:17
Svar #35

Utloggad Lena Svensson

  • Anbytare ***
  • Antal inlägg: 129
  • Senast inloggad: 2017-04-24, 03:43
    • Visa profil
Tror du att det går att hitta något 15+ generationer bak?

Är inte insatt i DNA-forskningen alls, försöker lite förvirrad (pga min okunskap i ämnet) att hänga med i denna tråden.

2017-03-12, 21:46
Svar #36

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Lena,

Jag tror definitivt att du har träffar, vars med dig gemensamme ana ligger mer än femton generationer tillbaka. Däremot finns det tyvärr inte något känt sätt att gallra fram vilka dessa är. Det är det som den här tråden handlar om.

Problemet är också att du sannolikt har fler gemensamma anor med den matchning du eventuellt lyckas identifiera, vilket innebär att det är svårt att veta ursprunget för de delade segmenten.

Har man tur och får ett kluster av äkta DNA-kusiner - d.v.s. där alla är 'kusiner' med alla de övriga,  och om dessa också har väl dokumenterade antavlor, så ökar chansen i hög grad att kunna identifiera den gemensamme anan. Men, oddsen är är tyvärr ganska dåliga...

15+ innebär trots allt, att vi är tillbaka på trettonhundratalet!

Hälsningar
Leif T

2017-03-13, 13:42
Svar #37

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Som en förklaring till att den rena teorin inte stämmer med verkligheten, d.v.s. att man de facto kan dela segment efter gemensamma anor vilka levde för femhundra år sedan, ges exempel på begränsade genpooler i vissa områden, och graden av endogami inom olika folkgrupper.

En dimension som jag inte sett belysas, är variation av grad av inavel över århundradena.

Om man lyfter blicken, så reducerades genpoolerna i hela Europa som resultat av digerdöden i mitten på 1300-talet! Och pesten drabbade Sverige i varierande grad 20 ggr mellan 1350 och 1713. Befolkningen reducerades med minst 1/3 på 1300-talet, och nådde inte upp till den tidigare nivån, ca. 1 miljon människor (i nuvarande Sverige), förrän ca 300 år senare!

Under hela senmedeltiden var det, p.g.a hög dödlighet, mycket ovanligt att man gifte sig endast en gång i livet. När partnern dog gifte man raskt om sig med någon i den nära omgivningen. På detta sätt torde graden av inavel vara förhöjd under en lång tidsperiod.

Genpoolen var alltså, om än av varierande grad, starkt begränsad i hela Sverige under ca 300 år –då våra anor i 10:e till 20:e led levde!

Detta stämmer väl med rapporterade resultat, där delat totalt cM för generationerna 10 till 14 ligger inom samma intervall, 25 – 80 cM (dock med mycket få mätpunkter). Det har också ett högt förklaringsvärde för fördelningen av delade segment som funktion av antalet generationer till gemensam ana (se graf ovan), vilken visar att antalet segment ökar från generation 6 till generation 9. Detta kan tolkas som att effekten av genpoolens begränsning ebbade ut under perioden 1650-1750 då Sveriges befolkning fördubblades till ca 2 miljoner.

Baserat på detta anser jag definitivt att auDNA är ett användbart verktyg i släktforskning avseende senmedeltida finska frälsesläkter!

2017-03-14, 21:53
Svar #38

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag hade tänkt att avrunda diskussionen, för min del, med föregående inlägg,  men det är svårt att avsluta. Ämnet är så komplext – och därför så intressant!

Det enligt min mening väsentligaste resultatet av mina funderingar i den här tråden, sammanfattas av grafen i mitt ”svar” (#33), vilken visar relationen mellan antal delade segment och avstånd till närmaste gemensamma ana. Rent intuitivt, så känns det helt fel, att kurvan stiger mellan sjätte och åttonde generationerna – men så är fallet uppenbart! (Se mitt försök till förklaring ovan)

Anledningen till att jag återvänder till ämnet är Hans Olovs första inlägg (#17) där han säger följande: ”I mitt senaste försök tog jag också med det totala antalet SNP i de gemensamma segment som FTDNA redovisar . Visserligen är jag lite undrande över att FTDNA för det mesta tycks redovisa dessa SNP som avrundade 100-tal och bara i ett fåtal fall som exakta värden, men här tycker jag mig ändå se ett ganska tydligt mönster, som jag inte ser i de kolumner som bygger på cM-värden.”

Jag har därför tagit fram en ny graf, baserad på Hans Olofs data, vilken visar relationen mellan totalt delade SNP:s och avstånd till närmaste gemensamma ana – och jag håller med honom!

Jag har ’dramatiserat’ grafen något genom att antyda renodlat linjära parallella relationer, kopplat till avstånd till gemensam ana. Så ser förmodligen inte verkligheten ut när datamängden växer.

Jag tror dock att de flesta som eventuellt plottar sina egna värden, kommer finna en kurva som liknar denna till karaktären, men ändå vara helt individuell beroende på var majoriteten av deras anor levde, och hur begränsade genpoolerna var just där!

Det handlar naturligtvis om SNPs, inte SNB...
« Senast ändrad: 2017-03-14, 22:08 av Leif Tennare »

2017-03-15, 23:45
Svar #39

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html
Hej igen, Leif!

Jag tror att mycket skulle vara vunnet om testföretagen kunde återgå till grundläggande fakta och helt enkelt redovisa de mätpunkter i obruten följd som hos två eller flera personer har samma värden. Varje sådan följd skulle betraktas som ett delat segment av den längd som antalet ingående mätpunkter utvisar, och varje användare skulle själv kunna bestämma önskad miniminivå på de segment som skulle krävas för att få fram en totalsumma för de delade segmenten.

Som det nu är, är användarna i stort sett hänvisade till färdigtuggad mat i form av svårgenomträngliga cM-värden eller - hos 23andMe - procentberäkningar. De intressanta diagram du har lagt ut här har alla en stor brist: det är mycket svårt att veta vad de egentligen mäter. Varken begrepp som 'totalt delat DNA', 'längsta delade segment', 'antalet delade segment' eller 'antalet matchande SNPs' har någon klar, entydig betydelse.

Som man kan se av en sammanställning jag gjort (se http://www.secutor.se/diverse/Krom17.pdf ) kan samma rådata av olika företag/organisationer presenteras och tolkas på mycket olika sätt, utan att man egentligen kan påstå att något av dem är rätt eller fel.

Exemplet utgår från de uppgifter som FTDNA lämnat om förhållandet mellan mitt DNA och en förmodad släktings, i synnerhet när det gäller matchande segment på kromosom 17. Jag har inte lyckats identifiera några gemensamma förfäder, men fyra generationer bakåt i hans släkt finns ett par okända fäder till barn födda i en by där även jag hade släktingar. Eftersom det rör sig om ett landskap med liten genpool, kan det också handla om flera separata kopplingar, troligen några generationer längre tillbaka i så fall.

Enligt FTDNA är vi troligen sexmänningar eller mera avlägsna släktingar (5th Cousin - Remote Cousin), vilket motiveras av ett visserligen ganska högt värde för totalt delat DNA (58 cM) men ett lågt värde för längsta delade segment (9 cM). Det sistnämnda finns på kromosom 17 och har närmare bestämt uppmätts till 8,74 cM. Totalt har vi enligt FTDNA 18 gemensamma segment, de flesta mycket små.

Vi har båda laddat upp våra rådata från FTDNA till GedMatch, och där väntade en överraskning. Med standardinställningen för "one-to-many" har vi totalt 24,2 cM gemensamt och samma värde för största gemensamma segment. Det som i FTDNA:s Chromosome Browser såg ut som två närliggande segment (grafiken) och räknades som tre segment (tabellen) på kromosomens vänstra del, var alltså hos GedMatch ett enda långt segment - något som förde upp den förmodade släktingen ganska högt upp på träfflistan.

Senare har jag laddat upp samma rådata till DNA.LAND och kunnat konstatera att de ursprungligen tre segmenten till vänster på kromosom 17 även där räknades som ett enda, nu med längden 23,96 cM. DNA.LAND hade dessutom räknat till 34 delade segment med totalt 137,74 cM.

I rest my case...

Hälsningar
Hans Olof

2017-03-16, 20:09
Svar #40

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hej Hans Olof,

Det är bra att du illustrerar skillnaden mellan de olika testföretagen. Problemet består i att de använder egna algoritmer för såväl identifieringen av gemensamma segment mätt i cM, som för tolkningen av dessa! Det beror helt enkelt på att det inte finns någon sanning vilken låter sig definieras…

Utgångspunkten för min del har varit  att, om möjligt, hitta ett sätt att sortera mina matchningar på ett – ur kronologisk synpunkt - bättre sätt än vad just Family Finder kan. Man bör inte blanda resultat från flera operatörer.

Om jag kan få DNA-forskare att acceptera att man de facto kan spåra gemensamma anor på senmedeltiden om man har väl dokumenterade släktträd så långt bak så är jag mer än nöjd!
 
Speciellt gäller detta om många delar samma ana, vilket torde vara vanligt – bland mina matchningar har jag drygt 20 kluster av äkta DNA-kusiner med mer än 5 i varje. Av dessa består 2 kluster av 15 äkta DNA-kusiner i varje. Detta trots att jag ännu endast har totalt 604 ’DNA-cousins´!

För att på ett ungefär uppskatta när den gemensamma anan till det ena klustret omfattande  15 matchningar levde, så har jag placerat in deras specifika mätresultat i de olika graferna redovisade ovan för att se om det går att dra någon slutsats.

Utgångshypotesen  har varit att de torde ha  levt för minst 10 generationer sedan med tanke på den statistiska sannolikheten att hitta 15 äkta ättlingar till denne ana i ett så begränsat provuttag! Det måste finnas enormt många levande anor till denne…

•   Först tittade jag på totalt cM, vilket ligger inom 22 – 39 cM. Baserat på det av mig postulerade randvillkoret, för minst 10 generationer sedan, så drar jag slutsatsen, att den gemensamma anan levde för ca 13 generationer sedan (Jfr svar 29 ovan).

•   Därefter tot SNP:s – mellan 5100 och 14200 – vilket indikerar ca 12 generationer bakåt (Jfr svar 38).

•   Andelen delade segment ligger mellan 7 och 17, viket pekar emot en gemensam ana bortom den 12:e generationen. (Jfr svar 33)

Jag har även tittat på fler relationer, men p.g.a det begränsade underlaget räcker detta som exempel. Slutsatsen blir att vår gemensamma ana i detta kluster uppskattningsvis levde någon gång i början på 1600-talet, eller snarare tidigare…

Jag kommer fortsätta att fila på detta för mitt eget behov!

Hälsningar
Leif
« Senast ändrad: 2017-03-16, 20:11 av Leif Tennare »

2017-03-22, 00:26
Svar #41

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Mitt första inlägg under den här tråden var ” Jag har inte sett något dokumenterat om värdet av att använda sig av autosomalt DNA då det gäller att identifiera senmedeltida kluster av frälsesläkter i Finland, eller möjligheten att med relativt stor sannolikhet verifiera postulerade filiationer.”

Min slutsats idag är att man kan ha en mycket stor nytta av verktyget auDNA, som ett stöd för sin forskning rörande väldokumenterade senmedeltida släkter, men det finns ingen enkel algoritm som ger ett definitivt svar…

För min egen del så har jag idag, som ett resultat av  auDNA, haft turen att få en stark bekräftelse på det via ’pappersvägen’ bekräftade släktskapet i 16:e led, med en av mina ’kusiner’. Vår gemensamme ana var riddare och riksråd och levde på 1400-talet – dock inte i Finland.

Jag har använt mig av summan av de tre längsta blocken, då de varierar mindre än enbart längsta blocket…  Den graf jag presenterade för en månad sedan har jag uppdaterat med bl.a. två av Hans Olofs punkter (gen. 11 och 11,5) samt min nya för dagen i 16:e generationen, vilken delar 16,5 cM med mig i de tre längsta blocken.

Som synes faller punkten väl på plats i grafen. Det mimimum som anges, ligger runt 12 cM, är ett resultat av FTDNAs algoritm.

2017-03-22, 20:45
Svar #42

Utloggad Marcus Boman

  • Anbytare ****
  • Antal inlägg: 848
  • Senast inloggad: 2017-04-23, 23:51
    • Visa profil
Leif,
En måhända dum men ändå enkel fråga. I all välmening.
Har du verkligen namn på alla i din antavla rakt igenom alla generationer upp till och med den 16 generationen?
Om inte, vilka är dina tankar, om alla de eventuella gemensamma förfäder/förmödrar som du inte har på pappret och som dina DNA-kusiner inte heller har på pappret.
Jag kan nog köpa din teori om att vissa segment kan hänga med under generationernas gång men om du och dina DNA-matchande personer inte har alla grenar helt utredda, hur kan man vara så säker då?
I 16:e generationen har man 65536 platser att fylla. Om de flesta är ofyllda, är det då inte enormt osannolikt att de just få man känner till i denna generation ska ha med matchandet att göra.
Men, jag vet på tok för lite om detta, så jag har direkt ingen egen uppfattning.
Kanske har du rätt? Vi får väl hoppas på det!

2017-03-22, 23:51
Svar #43

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Marcus,

Jag har självfallet inte namn på alla mina anor upp till sextonde led – var det måhända  den ”dumma frågan”?  Jag har faktiskt inte haft ett enda dokumenterat släktskap i den generationen förrän nu!
 
Ditt eventuella tankefel är att du tänker nerifrån och upp i släktträdet. I det 16:e ledet har man mycket riktigt 65536 anor totalt, men endast en bråkdel av dessa har bidragit till mitt genom.

Jag vet inte storleksordningen för den 16:e generationen, men som nämnts ovan så fann Paul Rakow, vid en simulering, att från den 20:e generation så kommer närmare hälften av mitt DNA från ca 200 individer med segmentslängder över 10 cM och den andra hälften från ca 1200 anor, totalt ca 1400 genetiska anor utav 1048576 ’möjliga’, d.v.s. ca 1,4 promille…

Som Magnus Bäckmark, Gröna Stubben, skriver ”Med andra ord är de anor som gett en individ dess DNA-slumpmix långtifrån samma sak som individens totala härstamning (alla anor).”

Slutsatsen från projektet POPRES (se ovan) blev att ”… it was estimated that for the most part IBD blocks longer than 4 cM come from 500 to 1,500 years ago, and blocks longer than 10 cM are within the last 500 years."  Längsta autosomala block jag delar med min, tills vidare,  ’postulerade’ 16-männing är 7,84 cM – en hårsmån över Family Finders ’cut-off’ värde, 7,69 cM.

Din fråga om ”hur man kan vara så säker”, har ett mycket enkelt svar – det kan man inte alls!

auDNA är bara ett hjälpmedel bland många andra i försöket att identifiera sina senmedeltida anor. Jag kan alltså inte hävda att den av mig  identifierade gemensamme anan är den från vilken det längsta blocket kommer – men han är en gemensam ana till oss baserat på pappersforskning.

I det här specifika fallet så kan många hypotetiska anor gallras bort, och de kvarvarande sökas inom adeln. Detta tack vara Nils Hård af Segerstads inlägg ovan, där  han hävdade att  Magnus Haraldi Wallerstadius´ maka Kerstin (Christina) Thuresdtr inte tillhörde ätten Stålhandske utan var dotter u ä till kammarrådet Ture Rosengren.  Efter att ha tagit del av underlaget för denna slutsats kunde jag bara konstatera, att vad han hävdade tycktes stå sanningen närmast. I.o.m. detta så fick jag alltså en ny ana i 12:e led, vars fm mm f är den ana vilken jag delar med min matchning.
 
Detta bevisar absolut ingenting men ger ett visst stöd för hypotesen…

2017-03-24, 19:50
Svar #44

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Mitt primära syfte med den här tråden har varit att, om möjligt, baserat på rent empiriska data, försöka identfiera DNA-kusiner vars med mig gemensamma ana sannolikt levde någon gång på senmedeltiden eller på storhetstiden, d.v.s. ungefär på 1400- t.o.m 1600-talet.

I ett inlägg den 19:e feb. skrev jag: ”Ett första steg för att eventuellt kunna skapa en algoritm, som kan identifiera approximativt  avstånd till närmaste gemensamma ana från senmedeltiden, är att ’sortera bort’ närmare träffar så långt möjligt.” Jag tror nu att jag är ett steg närmare en algoritm, om än med stor reservation för det extremt begränsade dataunderlaget.

Det bifogade diagrammet är lite ’crowded’ som man säger på engelska, och kanske något  svårförstått för den som är mindre van att tolka sådana.  Jag ber om ursäkt för detta, men finner det nödvändigt för att illustrera den grundläggande tanken med analysen…

Zon 4 i grafen täcker approximativt de gemensamma anor som levde på 1400 t.o.m 1600-talet, och som preliminärt identifieras genom att den sammanlagda längden av de tre största delade segmenten underskrider 20 cM, samtidigt som antalet delade segment överskrider 15 stycken.

Zon 2 är den zon i vilket ett skenbart ’paradigmskifte’ sker, vilket återspeglas i flertalet av de tidigare graferna.

Testa gärna hur era egna matchningar passar in – eller inte… Hör gärna av er - speciellt ni som har anor tillhörande zon 4!
« Senast ändrad: 2017-03-24, 20:48 av Leif Tennare »

2017-03-28, 21:14
Svar #45

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Det kanske har skapat en viss förvirring -  alla grafer jag lagt in på detta forum, där det kanske inte varit helt uppenbart vilken eventuell betydelse de kan ha.  Jag har inte alltid själv vetat detta fullt ut – syftet har varit att hitta någon variabel som förhoppningsvis skulle visa sig vara mer diskriminerande än någon annan, och därmed möjligen kunna användas  som en bas för en algoritm med högre prognosäkerhet vad gäller ’remote’ släktskap än Family Finders algoritm.

Ganska tidigt insåg jag att de tre längsta gemensamma autosomala blocken innehåller mest information, och bör utgöra basen i en algoritm vilken fokuserar på möjliga senmedeltida gemensamma anor.

Bifogat återfinns en ’algoritm’ vilken enbart är baserad på summan avde tre längsta autosomala blocken man delar med sin DNA-kusin [S3Lb (cM)]. Dessutom redovisas resultatet vid användning av FF:s algoritm jämte min egen (LT algoritm).

Jag är fullt medveten om vanskligheten att drista sig att ens skissa på en algoritm baserat på den extremt begränsade mängden data!  Samtidigt ser det mycket lovande ut, om än med reservation för att jag naturligtvis optimerat algoritmen för att passa den begränsade datamängd jag har till förfogande.

Algorimen bygger alltså på totalt 20 matchningar, av vilka 14 är mina, tre är Hans Olof Johanssons och tre är min hustrus.

Jämförelsen pekar dock emot att min preliminära algoritm synes ha en större potential än FF:s att fungera för ’remote’ släktskap. Den är också sannolikt möjlig att vidareutveckla.

Då jag är djärv nog att tro att jag är bland de första att tro att autosomalt DNA kan ha värde i samband med forskning i senmedeltida släkter, så skulle jag uppskatta om ni refererar till mig om ni eventuellt sprider detta vidare. Och - om ni testar detta gentemot era egna bekräftade DNA-kusiner – delge mig gärna resultatet. Oavsett om det handlar om en 5-männing eller en 11-männing… Positivt eller negativt. Det är det enda sättet att eventuellt gå vidare!

FF:s prediktering för YS, skall naturligtvis vara gulmarkerad, liksom min, då vi missar med en halv generation. Av samma skäl skall ES vara gulmarkerad för min algoritm. Man blir lätt något yr i huvudet när man bollar med cousins i stället för n-männingar...
« Senast ändrad: 2017-03-28, 23:26 av Leif Tennare »

2017-03-29, 15:51
Svar #46

Utloggad Hans Olof Johansson

  • Anbytare *****
  • Antal inlägg: 2749
  • Senast inloggad: 2017-04-24, 08:14
    • Visa profil
    • www.secutor.se/genealogi/index.html
Hej igen, Leif!

Jag kunde förstås inte låta bli att testa din nya algoritm (se http://www.secutor.se/diverse/32_relatives_S3Lb.pdf ), och det verkar onekligen som om den fungerar betydligt bättre än FTDNA.s för sju- eller åttamänningar och avlägsnare släktingar - inte minst förstås för att FTDNA helgarderar genom att sätta "remote" i änden på sina största grupper.

Å andra sidan verkar din algoritm inte fungera något vidare för närmare släktingar. Eller har jag missat något?

Hälsningar
Hans Olof







2017-03-29, 17:26
Svar #47

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hans Olof,

Tack för den värdefulla informationen! Du lär definitivt inte ha missat något - den preliminära algoritmen  är uppenbarligen inte bättre än så, men den tycks fungera hyfsat inom det område som jag fokuserar mest på.

Mitt mål är en algoritm som kan ge en god vägledning om ungefär vilken tidsperiod den delade anan levde i.

Jag var väl medveten om att variationen i S3Lb sannolikt var störst mellan nära släktingar, vilket bekräftas av dina data. Jag får jobba vidare och eventuellt lägga till någon variabel som inte samvarierar med S3Lb!

Hälsningar
Leif

2017-03-30, 17:49
Svar #48

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hans Olof,

Jag har nu tagit fram en mer sammansatt algoritm med en högre diskrimineringskapacitet än den första versionen – den bygger på fler variabler. Resultatet  är en klar förbättring avseende träffsäkerheten för närmare släktingar. Av de 11 missade prognoserna på din första sida återstår nu bara 3 – gällande KB, DJE och MB…  Detta säger naturligtvis ingenting om allmängiltigheten för detta försök till en algoritm, då den är direkt optimerad för det ännu mycket begränsade underlaget.

De gränsvärden jag definierat bör snarast ses som gränszoner. Man bör därför testa båda alternativa vägarna, när ens data hamnar i en sådan gränszon. Sen får man använda sin intuition - d.v.s. samlade erfarenhet - för att välja vilken väg man vill gå...

Då det empiriska resultatet bygger på ett antal icke kontinuerliga variabler, vilka förändras slumpmässigt, så måste man acceptera att det inte går att skapa en algoritm vilken kan hantera alla dessa. Däremot torde FF kunna förbättra sina prognoser för anor på ’mellanavstånd’ om de vore intresserade av detta!

Intuitivt så ger algoritmen ett trovärdigt besked för de av mina matchningar,  för vilka  jag känner att jag är mycket nära att hitta vår gemensamme ana.

Hälsningar
Leif T
« Senast ändrad: 2017-03-30, 22:39 av Leif Tennare »

2017-03-30, 23:36
Svar #49

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Tala om slump! I samma ögonblick som jag postade min sista uppdatering, och nämnde att man bör se gränsvärdena som zoner, så anlände ett mejl från administratören till en av mina matchningar och omtalar,  att min matchning fått bekräftat ett släktskap i elfte led med en finsk man – vi letar fortfarande efter kopplingen oss emellan.

Av olika skäl funderade administratören över möjligheten att de var släkt på närmare håll. Då jag fick data för den matchningen, så testade jag naturligtvis genast mitt embryo till algoritm. Resultatet vägde mellan  7th – 11th cousin och 12th – remote cousin. S3Lb var en hårsmån från 17 cM – 16, 81 cM!

Just nu fick jag en korrigering att släktskapet tydligen var 10-männingar, alltså 9th cousins, vilket ligger mitt i det predikterade intervallet – om S3Lb överstigit 17 cM…

Ett bättre exempel kunde jag inte få för att  demonstrera vad jag menade!

2017-03-31, 10:23
Svar #50

Utloggad Peter Siljerud

  • Anbytare **
  • Antal inlägg: 79
  • Senast inloggad: 2017-04-08, 07:02
    • Visa profil
    • www.siljerud.com

Här kommer två tester jag körde:

S3Lb = 31,49
Delade segment = 7   
Släktskap = 3C1R
Algoritm 1 = 4th-8th
Algortim 2 = 3rd-7th

S3Lb = 15,33   
Delade segment = 13
Släktskap = 10th
Algoritm 1 = 11th-remote
Algortim 2 = 4th-8th


En fråga är ju från vilken "sida" släktskapet beräknas. I båda desas fall är släktskapen annorlunda om man räknar från sin matchnings sida. Det skiljer förvisso bara någon generation, men teoretiskt kan det ju bli åtminstone 3-4 generationer om man går långt tillbaka!?

2017-03-31, 11:29
Svar #51

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Ett bra påpekande. Det genetiska avståndet mellan två matchningar utgörs egentligen av antal Meioser, om jag tolkat det hela rätt - vilket motsvarar summan av antalet generationer upp till, och ned från, den gemensamma anan.

I det fall man är släkt i 7:e resp. 10: led (6C3R), så återspeglar resultatet en chimär 8,5 - männing (7C1R). Avvikelsen blir alltså teoretiskt 1,5 generationen för vardera parten.

Jag har just testat algoritm 2 på sex äkta DNA-kusiner till mig, vars gemensamma ana tycks ha fötts omkring år 1600, plus/minus 50-60 år. Enligt algoritmen (med dess brister) så är tre av 'kusinerna' 7th - 11th cousins med mig, medan övriga tre är 12th - remote cousins.

Detta resultat kan eventuellt återspegla det problem du påpekar.

2017-04-01, 19:23
Svar #52

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
I mitt första inlägg skrev jag: ”Här bör vi diskutera metodiken för Analys/Syntes av erhållna resultat”.

En väsentlig del av analysen är att identifiera kluster av äkta DNA-kusiner. Bland mina i dagsläget 638 träffar, så har jag funnit 62 kluster med med mellan 3 och 15 äkta DNA-kusiner i varje grupp, totalt 371 stycken – eller med andra ord, endast 62 av mina anor (en för varje kluster) är anfädrar till 58% av mina matchningar!

Av dessa 62 anor så står 11 för ca 20% av träffarna, 133 stycken…

Hur är detta möjligt? Sannolikheten är ju minimal att detta kan vara sant, eller…? Jomenvisst, men om dessa anor levde tillräckligt långt bak i tiden, dessutom på en plats med begränsad genpool , så torde antalet levande ättlingar till dessa vara enormt stort!

För att praktiskt kunna göra denna analys krävs att man har alla data i ett sorterbart format. Utan att veta vad jag skulle få för användning av detta, så lade jag - redan när jag fått mitt första resultat från FF  - upp en tabell med alla data, inklusive 22 kolumner för kromosomerna där jag angav det längsta blockets position för varje matchning.  Efter test med Matrix – verktyget, så färgkodar jag de äkta DNA-kusinerna. När jag så får en ny matchning, så kan jag direkt se om den platsar i något av klustren.

Att jag tar upp ämnet nu beror på att jag haft stor anledning att fördjupa mig i dessa kluster i försöket att skapa en algoritm. Hur stor är spridningen av en viss varabel mellan dessa ättlingar till en gemensam ana? Och vad kan den tänkas bero på, förutom det skäl som Peter lyfte fram här ovan.

I ett av mina kluster på kromosom 6, omfattande nio äkta DNA-kusiner, så har jag tittat på spridningen av S3Lb (cM). Resultatet innehåller mycket information.
 
Fem ’kusiner’ hade värden mellan 14,1 och 15,7 cM, och  delade endast två segment över 3 cM med mig, medan de övriga fyra hade S3Lb-värden mellan 17,4 cM och 28,4 cM och mellan sex och nio segment över 3 cM. Detta resulterade i att de senare fyra predikterades som 7th – 11th cousins enl. min algoritm, medan övriga fem predikterades som 12th – Remote cousins.

En titt på resultatet i ’browsern’ avslöjar flera träffar över 5 cM som inte delas av någon av de övriga DNA-kusinerna. Genom att plocka bort dessa så fick jag nya S3Lb-värden för de fyra med ursprungligen högre värden.

Den totala spridningen blev efter korrigeringen 14,1 till 16,6 cM, alla predikterade som 12th – Remote cousin enligt min preliminära algoritm, med ett undantag – denne hade sorterats ut som 4th – 7th p.g.a. att han endast delar 10 segment med mig, vilket indikerar ett misstag i min algoritm!

De ’för höga’ värdena på S3Lb beror alltså på gemensamma segment från en eller flera andra gemensamma anor än den aktuelle.  I två av dessa fall så vet jag vilket  övrigt kluster de tillhör, tack vare upplägget av min databas.

Det kan tilläggas att FF 'tillsynes' hade ’rätt’ på åtta av de nio när de predikterar 5th – Remote.  För den nionde predikterar de 3rd – 5th cousin!

Utmaningen blir att försöka koppla de justerade S3Lb värdena till antalet generationer (meioser) till den närmaste anan. Det absolut lägsta värdet jag hittat är 12,8, vilket är enbart ett resultat av de använda gränsvärdena i FF:s algoritm för matchningar.
« Senast ändrad: 2017-04-01, 21:57 av Leif Tennare »

2017-04-01, 21:38
Svar #53

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Hans Olof,

Vad gäller dina mer avlägsna matchningar, så förefaller S3Lb värdena för CR, AMA och EE kunna vara resultatet av flera gemensamma anor. Vad tror du?

/Leif T

2017-04-02, 12:05
Svar #54

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
En till synes användbar metod för att separera DNA-kusiner med vilken man delar två anor från dem med en gemensam ana, tycks vara kvoten mellan de två längsta blocken.

I fallet som jag beskrev ovan, så var kvoten för de fyra med vilka jag delar två anor från 1,2 till 1,8, medan kvoten för de övriga låg mellan 2,4 och 2,7.

Observera dock, att kvoten i sig sannolikt ökar med antalet generationer till närmsta ana, då det stabilaste segmentet utgör en allt större del av totalt delade cM.
« Senast ändrad: 2017-04-02, 12:29 av Leif Tennare »

2017-04-04, 21:39
Svar #55

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Efter ett idogt sökande efter eventuella mönster i avvikelserna från prediktionerna i de två tidigare preliminära algoritmerna, så tror jag att jag har lyckats skapa en hybrid mellan version 1 och version 2, vilken till synes lyckas fånga upp alla mina, min hustrus och Hans Olofs vänligen tillhandahållna matchningar, utan att någon av dessa hamnar i ett ’Remote’-läge…

Samma reservation  som tidigare gäller dock, algoritmen är optimerad för den data jag råkar ha tillgänglig. Då det inte ligger – eller kan ligga – någon som helst teori bakom algoritmen, så har jag ingen aning om dess allmängiltighet.  All utveckling bygger på feed-back!

Spridningen av prediktionerna för en viss matchnings resultat är max fem generationer, vilket är ’något’ bättre än FF:s ’Remote’ efter 4th – 5th cousins…

Jag är medveten om att ett antal sannolika '12th - remote' träffar har ett S3Lb överstigande 15 cM, men jag orkade inte fullföja detta idag...
« Senast ändrad: 2017-04-04, 22:01 av Leif Tennare »

2017-04-07, 01:09
Svar #56

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
I mina försök att ta fram en algoritm, vilken i träffsäkerhet överträffar FF:s algoritm för predikteringar av avstånd till närmaste gemensamma ana, har jag hittills inte använt mig av den intressantaste variabeln, totalt delat SNP.

Den graf jag visade i ”svar 38” ovan, kan man bara inte bortse från – det kan inte röra sig om en ren slump att diagrammet ser ut som det gör…

Jag har nu lagt in mina egna och min hustrus kända anors totalt delade SNP:s i detta diagram. Resultatet som bifogas vidgar ytterligare avståndet till någon som helst slumpteori!

Förutom de kända matchningarna, så har jag lagt in tre av de lägsta värdena jag hittat bland mina DNA-kusiner. Utgående ifrån att majoriteten av alla 10 cM block kommer från de senaste 500 åren, och majoriteten av alla 4 cM block kommer från 500 – 1500 år sedan, så har jag hypotetiskt antagit att dessa anor ligger ca 600 år – eller 20 generationer bakåt i tiden, från min födelse på 1940-talet.

Potentialen tycks vara relativt stor för att identifiera vilka anor som hör hemma bland 12th cousin-remote…
« Senast ändrad: 2017-04-07, 01:11 av Leif Tennare »

2017-04-07, 18:31
Svar #57

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
För att kunna förbättra algoritmen måste man sannolikt använda sig av åtminstone tre sorteringskriterier  av tillräckligt hög statistisk signifikans.
Vad man kan få fram av den datamängd ur vilken ovanstående diagram genererats som en delprodukt, så kan följande preliminära slutsatser dras.

Segment:
Av alla  dokumenterade matchningar, så är det bara två som delar endast 10 segment - en i 6:e generationen och en i generation 7,5  (7/8)  – alla övriga mellan 11 och 32. De tre matchningarna i generation 11, resp. 11,5, delar 17 resp. 23 segment. Man kan sannolikt dra slutsatsen , att antalet segment därefter avtar och möjligen är nere i 10 st igen först omkring generation 13.

Bland alla mina träffar delar 69 st (11%), 10 eller färre segment med mig. Majoriteten av dessa kan då förmodas tillhöra gruppen ’12th  cousin-remote’.

S3Lb:
Det lägsta uppmätta värdet för summan av de tre längsta blocken, för varje dokumenterad släkting enligt ovan, är 15,08 cM.

I min databank har jag kalkylerat detta värde för hittills 200 ’cousins’. Av dessa delar 67 st (33%)  <15 cM med mig. Även i detta fall kan man antaga att majoriten av dessa tillhör gruppen ’12th  cousin-remote’.

Totalt SNP

De två lägsta värdena, ca 7800 SNP:s, utgör ett lokalt minimum vid 7,5 generationer , vilket torde underskridas – p.s.s. som antalet segment – omkring den 13:e generationen, om min hypotes är korrekt.
Av de 47 träffar,  för vilka jag (ej slumpmässigt) har lagt in totalt antal gemensamma SNP:s, så ligger 15 st under 7000 SNP:s.

Slutsats: En stor del av mina mina gemensamma anor med mina ’kusiner’ rapporterade från Family Finder, torde härröra från tiden bortom den 12:e generationen.
« Senast ändrad: 2017-04-07, 23:02 av Leif Tennare »

2017-04-07, 22:57
Svar #58

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Bara för att förtydliga, så indikerar gränsvärdena ovan, att den gemensamma anan med relativt stor sannolikhet ligger bortom den 13:e generation – om min slutsats är någorlunda relevant. Men det hindrar inte att matchningar som inte möter dessa krav också har den gemensamma anan längre bort än den 13:e generationen… Om man tittar på grafen kan man se att i  fallet med totalt antal delade SNP:s, så kan en 13-männing dela över 15000 SNP:s med dig.

Men återigen, så ingen misstolkar vad jag säger, allt beror på om mina hypotetiska gränslinjer i grafen någorlunda överensstämmer med verkligheten!

Den bygger trots all på en mycket begränsad datamängd..

2017-04-11, 22:56
Svar #59

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Som jag varit inne på tidigare, så innehåller kluster av äkta DNA-kusiner mycket information. Jag har nu gett mig i kast med att försöka få ut något vettigt av all den information, som ett av mina kluster - bestående av totalt 15 äkta DNA-kusiner  innehåller.  De delar alltså en gemensam ana enligt FF:s ’Matrix’ – algoritm, och därmed är alla släkt med alla övriga i klustret!

Det säger sig självt – baserat på intuitiv sannolikhetskalkyl - att en sådan gemensam ana torde ha levt för mycket länge sedan… En vanlig invändning mot detta är att man säkert är släkt på närmare håll, och att resultatet endast är en  sorts ’bakgrundsbrus’. Ett annat sätt att säga detta är, att segment med en storlek under 10 cM oftare är falska än äkta matchningar – hur vet man det? Det kräver feed-back…

Vad gäller den första invändningen, så är det egentligen ingen invänding – utan endast en tankelapsus. Genom återingiftning mellan berörda släkter, så kan man man naturligtvis ha anor på närmare håll än den mest avlägsne ’närmaste’ gemensamma anan, vilka är ättlingar till denne. Gener skapas inte på nytt – de bara blandas om lite.. Och faktum kvarstår, att alla som delar givna segment har en primär gemensam ana.

Utan att gå in på detaljer, så har jag i en något modifierad variant av diagrammet ovan lagt in resultatet av min klusteranalys. Jag svarar däremot på eventuella frågor…

Jag har också lagt in vad jag tror är orsaken till den ’märkliga’ korrelationen mellan antal generationer och och totalt antal delade SNP:s – Digerdöden,  efterföljande pester och begränsade genpooler…

Diagrammet bevisar ingenting, men det kullkastar inte heller mina hypoteser!
« Senast ändrad: 2017-04-11, 23:00 av Leif Tennare »

2017-04-12, 00:02
Svar #60

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Återigen, för att inte bli missförstådd - generationstillhörighet för klustermedlemmar bygger endast på predikteringar baserade på ett antal variabler. Det rör sig inte om bekräftade släktskap.

2017-04-13, 13:19
Svar #61

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Anledningen till att jag inte ens försökte förklara hur jag kommit fram till det resultat jag redovisade i grafen, är ämnets komplexitet – varje prediktering måste i princip redovisas separat, då kriteriernas diskriminerande förmåga varierar med antalet generationer till närmaste gemensamma ana.

Vad gäller de två principiellt viktigaste predikteringarna, här ovan plottade som generation 15, så har jag primärt baserat dessa på Totalt SNP  och S3Lb, utgående från hypotesen att det lägsta redovisade värdet för 7,5 generationer de facto representerar ett lokalt minimum.

Totalt SNP ligger mellan  7764 och 8264 för de tre lägsta punkterna i generation 7,5, medan de två preliminärt placerade i generation 15 ligger på 7281 och 8100. Om man enbart utgår ifrån totalt SNP, så förefaller predikteringen tveksam, men om man dessutom tittar på S3Lb så ser bilden något annorlunda ut.

I generation 7,5 så ligger S3Lb  mellan 15,7 och 20,8 cM, medan de i generation 15 ligger på 13,0 och 13,1. Utslagsgivande blir det om man tittar på medellängden av alla block exklusive Lb. För de tre förstämnda varierar medellängden mellan 2,4 och 2,8 cM. medan det för de två senare ligger på 1,9 cM.

Jag valde att lägga de senare i generation 15, men som diagrammet är ritat, så rör det sig egentligen om ett spann mellan ca 13:e och 17:e generationen…

Vad gäller de övriga predikteringarna ingående i klustret, så får jag återkomma när jag analyserat dem något djupare…
« Senast ändrad: 2017-04-13, 13:26 av Leif Tennare »

2017-04-13, 19:41
Svar #62

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Den stora svårigheten med detta kluster är att det huvudsakligen härstammar från den f.d. östra rikshalvan med en till synes hög grad av ’inavel’ i släkterna. Spridningen av S3Lb i klustret ligger mellan 13,0 och 26,8 cM som ett resultat av detta. Majoriteten av matchningarna i detta kluster synes vara släkt på flera nivåer efter den primära gemensamma anan.

I ett lika stort kluster, men med huvudsakligen ’engelsklydande’ släktnamn, är spridningen väsentligt  mer begränsad,  och ligger inom intervallet 13,9 till 16,5 cM vilket indikerar en mycket begränsad inavel…

2017-04-15, 23:03
Svar #63

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Efter en hel del tankemöda, så har jag kommit fram till att relationen mellan antalet cM och SNP:s för ett visst block, är helt  beroende på var den är lokaliserad. På vilken kromsom, och var på kromosomen.
 
Dessutom har jag upptäckt, att detta sannolikt tillhör nybörjarkursen i genetisk genealogi… Man lär så länge man lever! Följande länk innehåller ex.vis grafer för varje kromsom, vilka visar kopplingen mellan position på respektive kromosom och motsvarande cM-värde. (Källa: Family Finder Advanced Topics ;  Ann Turner). http://web.archive.org/web/200701130...ps/compare.pdf

Med denna för sannolikt flera av oss amatörer nya kunskap – hur gå vidare?!

Så länge ingen saboterar min hypotes, manifesterad i grafen ovan, så anser jag att totalt delade SNP:s är den väsentligaste parametern att koppla till en viss ana. Då relationen generationer vs. totalt antal SNP:s enligt  hypotesen  inte är en linjär funktion, så får man använda en annan variabel för att uppskatta till vilken generationen respektive matchning tillhör.

Då antalet cM är mer kopplad till kronologi, så ser jag det som ett användbart mått, men då det längsta blocket är det mest ’volatila’ värdet,  så föreslår jag att man tittar på medelvärdet av antal cM för alla block , exklusive det längsta. Ju lägre medelvärde innebär sannolikt desto äldre.

Däremot, om man analyserar matchningar vilka ingår i ett block av äkta DNA-kusiner, så är antalet SNP:s för det längsta blocket till synes mer tillförlitligt än antalet cM för detsamma… Färre delade SNP:s i längsta blocket tycks peka på en mer avlägsen gemensam ana.
« Senast ändrad: 2017-04-15, 23:20 av Leif Tennare »

2017-04-16, 19:34
Svar #64

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
För att utvärdera mitt antagande ovan, att, ”Då antalet cM är mer kopplad till kronologi, så ser jag det som ett användbart mått, men då det längsta blocket är det mest ’volatila’ värdet,  så föreslår jag att man tittar på medelvärdet av cM för alla block , exklusive det längsta. Ju kortare block desto äldre”, så har jag plottat de data jag har tillgängliga.

Resultatet tycks stödja min hypotes, att den gemensamma – primära -anan till det block jag studerar, föddes någon gång mellan 1430 och 1550, d.v.s. för 13 till 17 generationer sedan…

Slutsatsen bygger på de låga värdena för såväl medelvärdet, 1,92 cM, som antal delade SNPs, 7291.
Till synes är det inte troligt, att bland mina matchningar hos FF hitta någon mer avlägsen ’kusin’ än en 18-männing.

Som jag var inne på relativt tidigt, så lär det krävas minst tre variabler med relativt hög grad av oberoende för att skapa en algoritm för prediktering av närmaste gemensamma ana - frågan är om det över huvud taget är möjligt? Jag har dock inte gett upp än...
 
I grafen har jag lagt in motsvarande cut-off gräns som i grafen ovan.  Den mest avlägsna anan till mig, som jag hittat hittills, tycks vara den vars ättling delar totalt 4500 cM med mig och en blockmedellängd på 1,7 cM (exkl. Lb.)
« Senast ändrad: 2017-04-16, 21:25 av Leif Tennare »

2017-04-17, 16:57
Svar #65

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Ännu mer ändamålsenlig tycks denna graf vara, visande totalt cM som funktion av avståndet till närmaste gemensamma ana! Även i detta fall så har jag lagt in min till ca 15:e generationen postulerade ana...

Fortfarande med samma reservation för den mycket begränsade datamängden...

2017-04-17, 17:51
Svar #66

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Jag glömde att jag har tillgång till mer data som jag fått via Peter Siljerud. Jag har skippat värdena för generation ett till tre, för att få en rimlig skala på ordinatan (y-axeln), men lagt in resten av databasen i mitt diagram.

Som synes bibehålles grafens karaktär, men med en utökad träffbild. Antalet punkter i diagrammet säkerställer nu att resultatet inte är slumpmässigt.

2017-04-23, 23:15
Svar #67

Utloggad Leif Tennare

  • Anbytare *****
  • Antal inlägg: 1504
  • Senast inloggad: 2017-04-23, 23:15
    • Visa profil
Det är lätt att gå vilse, när man bollar med ett antal parametrar vars relationer är mycket komplexa. P.g.a. den stora vidden av data, så finns en viss risk för att man tappar känslan för storleksordningar / skalor. När man tittar på grafen ovan, så är det lätt att tro att den representerar en typisk träffbild vad gäller FF:s auDNA-kusiner.  Det gör den inte…

Diagrammet representerar enbart toppen av ett isberg – ca 84 % av punkterna i diagrammet ligger över 50 cM.  Av mina totalt 681 matchningar, däremot, är det bara med 16 % jag delar mer än 50 cM! Detsamma gäller för min hustru, hon delar mer än 50 cM med endast 9 % av sina 800 DNA-kusiner!
 
Grafen är därmed inte särskilt användbar, för att utveckla en algoritm för att prediktera närmaste gemensamma ana.  Jag har inte bara gett upp tanken på möjligheten att skapa en användbar algoritm – jag har snarare kommit till insikt om att det i princip är omöjligt!
 
Det som ändå ser ut att vara användbart vad gäller att sortera ut sina anor från tiden före Gustav Vasa, är den till synes relativt stabila miniminivån för delat DNA, som funktion av antalet generationer till anan. Oavsett vilken parameter man studerar, så finner man ett minimum kring 6:e till 8:e generationen, viket inte tycks underskridas förrän omkring generation 13+.

I den bifogade grafen har jag överlagrat antalet totalt delade SNP:s över totalt delade cM:s för HOJ:s respektive mina och min hustrus kända DNA-kusiner. Därutöver har jag lagt in minimivärdena för delat DNA (cM) för varje generation från den datamängd jag erhållit via Peter S.

Diagrammet är beskuret och fokuserar huvudsakligen på det konstaterade minimumet, men belyser även den fortfarande öppna frågan - vad händer efter generation  10?

Den lokalt lägsta punkten för antalet cM ligger på 28 cM i generation 8, medan det lägsta antalet SNP:s uppgår till 7764 i generation 7,5. Som jag nämnt tidigare så delar ca 10 % av mina DNA-kusiner mindre antal centimorgans än detta lokala minimum med mig. Frågan är då när denna nivå passeras igen i en nedåtgående trend – sannolikt efter generation 14 enl. diagrammet.

De absolut lägsta möjliga nivåerna på parametrarna, liksom maximala antalet generationer till närmaste gemensamma ana, är helt och hållet ett resultat av FF:s algoritmer. Mina lägsta värden för LB är 7,7 cM, för totalt delat DNA, 19 cM, för S3Lb 12,1 cM och för SNP:s 3820.

Frågan är i vilken eller vilka generationer dessa värden uppnås?

 

Annonser



Från bokhandeln




Marknaden

elgenstierna utan-bakgrund 270pxKöp och Sälj

Här kan du köpa eller sälja vidare böcker och andra produkter som är släktforskaren till hjälp.

Se de senast inlagda annonserna