Перейти до основного вмісту

Оцінка частки збіженців з певною кількістю ДНК

Нехай потрібно оцінити скільки потрібно мати збіжеців, щоб принаймні 2 з них мали не менше 60 сМ, якщо на даний момент у мене всі збіженці зі спільною ДНК менше 60 сМ.

Розрахунки робляться на основі збігів MyHeritage.

Знайдемо функцію F(x) - частка збіженців із спільною ДНК >= x. Наприклад F(8)=1 бо 100% збіженців на MyHeritage мають спільну ДНК не менше ніж 8 сМ.

Зі своїх збігів для різних відсотків я зібрав мінімальну кількість спільного ДНК і вийшов ось такий результат.


Для розрахунків я використовую дуже зручний інструмент Desmos.

Зверніть увагу, що при цих вибірках потрібно відкидати близьких родичів, яких ви самі протестували, інакше картинка буде необ'єктивною.

Ця вибірка добре апроксимується Логістичною регресією і дає хороші результати при малих значеннях x, менше 30 сМ, проте гірше працює для оцінки вищих спільних ДНК, які нам потрібні. Щоб це вирішити ми будемо логарифмувати x.

Я взяв 12 точок, на практиці ж достатньо взяти точку (8, 1) - яка завжди однакова (для 100%), та ще дві контрольні точки для 50% і 1%, на графіку вище вони помаранчеві. У мене вийшли такі результати


x для 50% легко знаходиться, потрібно просто загальну кількість сторінок збіженців поділити на 2, тоді перейти до середньої сторінки і взяти будь який збіг на цій сторінці

Для 1% (p) трохи важче. Якщо у вас всього 6000 (T) зібгів, з них 5 (r) протестованих вами самими, то потрібний збіг матиме номер ((T-r)*p+r)/10+1=((6600-5)*1%+5)/10+1=7.495~7.5. 
Тобто потрібно перейти на сторінку 7, та порахувати 5-й збіг на цій сторінці, рахуючи від 0.
Далі в Desmos додаємо табличку

Робимо логістичну регресію для цієї таблички. Копіюємо формулу у окрему функцію F(x), але заміняємо x на ln(x). Отримуємо таке наближення нашої вибірки

Як видно звідси при малих сантиморганах апроксимація дуже погана з логарифмом, зате краща при великих, які якраз нас більше цікавлять:

Далі введемо функцію N(m,x) - скільки потрібно мати збіженців, щоб m з них мали спільну з вами ДНК не менше за x.

Отже у моєму випадку, щоб мати 5 збіженців із спільною ДНК не менше 50 сМ потрібно, щоб загальна кількість збіженців зросла до 21 тис. Оскільки в мене на даний момент 5 тис. зібженців і ця кількість зростає щороку на 1 тис, то через 16 років у мене буде 5 хороших збігів.
Виглядає доволі песимістично. АЛЕ. Модель не враховує те, що в з часом загальна кількість людей, які тестуються зростає і особливо має зрости частка серед цих людей протестованих саме з України. Тобто має зростати частка хороших збіженців серед сумарної кількості моїх збігів.

Коментарі

Популярні дописи з цього блогу

Швидкий старт у генеалогії: як дослідити своїх предків на прикладі Володимирського повіту

Цікавитесь своїм родоводом, але не знаєте, з чого почати? Розпочати генеалогічне дослідження простіше, ніж здається! Особливо якщо ваші предки були з Володимирського повіту на Волині. Ось покрокова інструкція, яка допоможе вам зробити перші впевнені кроки 👣 1. 📌 Почніть з розпитувань у родині Поговоріть з рідними, особливо зі старшими. Дізнайтеся: Імена ваших предків (бабусь, дідусів, прадідів) Де вони жили? Якого були віросповідання? У яку церкву ходили? Ці прості питання допоможуть вам визначити парафію , до якої належали ваші предки. 2. 🗺 Знайдіть свою парафію Парафія — це ключ до церковних записів. Для її пошуку скористайтесь: 🗺 Карта парафій Волині : tinyurl.com/ua-parishes 3. 📄 Перевірте сповідні відомості Це надзвичайно корисний ресурс! 📘  Довідник сповідних відомостей Володимирського повіту :  tinyurl.com/volodymyr-spovidky У багатьох парафіях Волині різного часу відбувались переписи всіх прихожан . Там можна знайти: Склад родини Вік ...

MDS карта збіженців

Пропоную вашій увазі спосіб розміщення збіженців в системі координат. Використовується метод Multidimensional Scaling з бібліотеки sklearn. Аналогічно, як у Ancient Origins карта генетичних відстаней у МyHeritage, тільки тут показують зв'язки між вами і збіженцями. Що можна сказати про це представлення Ви знаходитесь у центрі координат (оранжева крапка) Можна задати одного зі своїх батьків (або когось з близьких родичів цих батьків), і відстань до нього (наприклад 1.0 - одне покоління для когось з батьків), наприклад це буде мати. Тоді мати буде в точці (1;0) З великою натяжкою можна стверджувати, що права половина точок - збіги пов'язані з матір'ю, а ліва половина з батьком. В реальності це представлення є неближенням, тому в реальності межа може бути трохи іншою (див нижче приклад для мого випадку)  В системі координат 4 квадранти і кожен з них (приблизно) може відповідати комусь із ваших дідусів-бабусь Теоретично можна побудувати 3-вимірне (чи навіть більше представлен...

Ймовірність зв'язку зі збіженцем через прямі батьківські лінії

Ймовірність того, що певний збіженець є родичем за прямими батьківськими лініями з вами приблизно залежить від значення спільного ДНК в сантиморганах. Чим ближчий родич, ти більша така ймовірність. Доречі, всі ці міркування вірні і якщо брати прямі материнські лінії, але для простоти будемо говорити тут про батьківські. На цьому зображенні всі блакитні люди - родичі за прямими батьківськими лініями, чоловіки з цієї групи мають спільну з вами Y-гаплогрупу. Всі рожеві люди - родичі за прямими материнськими лініями і всі вони (чоловіки і жінки) мають спільну з вами Mt-гаплогрупу. P(x) - це така ймовірність, вона вираховується за формулою: M - константа, число спільного ДНК між дитиною і батьком/матір'ю. Наприклад для 40 сМ наша ймовірність буде 1.16% . Знаючи формулу ймовірності можемо порахувати скільки всього приблизно серед ваших збіженців таких, з ким ви пов'язані батьківськими лініями. Для цього нам потрібно знати загальну кількість збіженців ( N ) та розмір медіального ...