Система рейтингу ELO: математичне дзеркало шахів — і як BigChess її використовує

Арпад Ело винайшов формулу для вимірювання шахової майстерності. Вона стала однією з найвпливовіших рейтингових систем у світі — і тепер керує змагальною грою в BigChess.

Вступ: число, що розповідає вашу історію

Кожен змагальний шахіст має своє число. Воно стоїть поряд з його іменем на стендах клубів, турнірних таблицях і профілях в інтернеті. Воно зростає після перемог і падає після поразок. Це не ідеальна міра нічого, і все ж шахісти оберігають її з серйозністю, що межує з особистою. Це число — їхній рейтинг ELO, і воно уособлює один із найвпливовіших винаходів в історії змагальної гри.

Система ELO розпочалася як інструмент для ранжування шахістів у США у 1950-х роках. Вона виросла до статусу офіційної рейтингової системи FIDE — міжнародної шахової федерації. А потім вийшла за межі шахів, поширившись у відеоігри, професійний спорт, академічне рецензування та навіть у застосунок для знайомств, який явно використовує її для ранжування користувачів за привабливістю. Математична формула угорсько-американського професора фізики для вимірювання шахової майстерності стала домінуючою парадигмою оцінки змагальних здібностей у десятках непов'язаних галузей.

Це —历史 системи рейтингу ELO: її витоки, математика, культурне поширення, обмеження та реалізація в BigChess, де вона забезпечує підбір суперників у реальному часі на дошці 10×10 проти гравців вашого рівня з будь-якої точки світу.

Частина I: Арпад Ело і народження системи

Проблема до ELO

До появи системи Арпада Ело шахові рейтинги були довільними й непослідовними. Різні національні федерації використовували різні методи. Деякі оцінювали гравців за результатами турнірів проти суперників відомої сили. Інші спиралися на оцінки комітетів. Шахова федерація США застосовувала систему Харкнесса, винайдену Кеннетом Харкнессом, яка призначала числові рейтинги на основі турнірних результатів, але мала суттєві недоліки: вона не мала статистичного підґрунтя, не враховувала належно силу суперника і давала аномальні результати, коли гравці змагалися з противниками значно різної сили.

Фундаментальна проблема була концептуальною: як призначити одне число, яке відображає змагальну шахову майстерність, правильно оновлюється по мірі її зміни та залишається значущим, коли гравці грають проти суперників різної сили?

Арпад Ело: людина за формулою

Арпад Ело народився в Угорщині 1903 року і емігрував до США у 1913-му. Він став професором фізики в Університеті Маркет у Мілуокі та заядлим шахістом. Він служив у рейтинговому комітеті USCF і дедалі більше незадоволений математичними підвалинами системи Харкнесса.

Ело привніс у проблему суворість статистичної фізики. Він припустив, що шахова майстерність, як і багато вимірюваних величин у природі, підпорядковується нормальному розподілу: якщо нанести на графік справжню ігрову силу всіх шахістів, вийде дзвоноподібна крива. Крім того, він запропонував, що ймовірність перемоги гравця A над гравцем B можна математично обчислити з різниці між їхніми рейтингами, використовуючи кумулятивну функцію розподілу нормальної кривої.

Його ключове прозріння було ймовірнісним, а не детерміністичним: він не стверджував, що гравець з вищим рейтингом завжди переможе того, хто нижче, — лише те, що ймовірність кожного результату можна обчислити з різниці рейтингів. Ця ймовірнісна основа зробила систему стійкою до несподіваних результатів і дозволила рейтингам оновлюватися поступово після кожної партії, а не вимагати періодичного перерахунку.

Ело опублікував свою систему у 1978 році в книзі «Рейтинг шахістів — минулого і сьогодення», але USCF прийняла її ще 1960 року, а FIDE почала використовувати міжнародно з 1970-го. На момент публікації його вичерпного трактату формула Ело вже десятиліття була золотим стандартом шахового рейтингу.

Частина II: Математика ELO

Формула очікуваного рахунку

Серцем системи ELO є формула очікуваного рахунку. Для гравця A з рейтингом R_A і гравця B з рейтингом R_B очікуваний рахунок гравця A в одній партії дорівнює:

E_A = 1 / (1 + 10^{(R_B - R_A) / 400})

Ця формула дає такі ключові результати:

Коли рейтинги рівні (R_A = R_B), E_A = 0,5 — 50% вірогідність перемоги (або очікуваний рахунок 0,5 з урахуванням нічиїх).
Коли гравець A має перевагу в 200 очок, E_A ≈ 0,76 — A очікує набрати 76 очок зі 100 партій.
Коли гравець A має перевагу в 400 очок, E_A ≈ 0,91 — A очікує набрати 91 очко зі 100 партій.
Коли гравець A має перевагу в 800 очок, E_A ≈ 0,99 — майже гарантована перемога.

Вибір дільника 400 є певною мірою довільним, але був відкалібрований Ело відповідно до спостережуваних результатів партій у реальних шахових даних. Він визначає масштаб розподілу рейтингу і те, якій різниці рейтингів відповідає певна ймовірність перемоги. FIDE використовує 400; деякі реалізації застосовують інші дільники.

Формула оновлення

Після партії рейтинги обох гравців оновлюються на основі різниці між фактичним і очікуваним рахунком:

R'_A = R_A + K × (S_A - E_A)

Де:

R'_A — новий рейтинг гравця A
R_A — старий рейтинг
K — коефіцієнт K (докладніше нижче)
S_A — фактичний рахунок (1 за перемогу, 0,5 за нічию, 0 за поразку)
E_A — очікуваний рахунок за формулою вище

Логіка елегантна: якщо ви перемогли гравця, над яким мали значну перевагу (високий E_A, S_A = 1), різниця S_A - E_A мала, і рейтинг зростає лише незначно. Якщо ж ви перемогли гравця, який мав значну перевагу над вами (низький E_A, S_A = 1), різниця велика, і ваш рейтинг зростає суттєво. Несподівані перемоги винагороджуються більше, ніж очікувані результати — саме так і має бути.

Коефіцієнт K: швидкість адаптації

Коефіцієнт K визначає, наскільки швидко рейтинги реагують на нові результати. Високий K означає, що рейтинги змінюються стрімко після кожної партії; низький K — що рейтинги змінюються повільно і є більш стабільними.

FIDE використовує ступінчасту систему коефіцієнта K:

K = 40: нові гравці в перших 30 рейтингових партіях або будь-який гравець, доки не зіграє 30 рейтингових партій і його рейтинг не перевищить 2300.
K = 20: гравці з рейтингом нижче 2400, які завершили початковий період.
K = 10: гравці, які будь-коли мали рейтинг 2400 або вище (рівень гросмейстера).

Логіка така: справжня сила нових гравців дуже невизначена, тому великі коефіцієнти K дозволяють швидко збіжитися до більш точної оцінки. Рейтинги досвідчених гравців є більш стабільними оцінками їхньої справжньої сили, тому менші коефіцієнти K запобігають надмірному шуму від окремих результатів партій.

Мінімальні рейтинги та межі

Рейтингова система FIDE включає мінімальні рейтинги — нижні межі, нижче яких гравці не можуть опускатися після їх досягнення. Гравець, який досяг рейтингу 2000, наприклад, не може мати рейтинг FIDE нижче 1000 через погані наступні результати. Ці мінімуми були запроваджені для запобігання маніпуляціям, коли активні гравці навмисно програвали партії, щоб отримати вигідних суперників серед гравців із нижчим рейтингом.

Мінімальні рейтинги вносять невелике систематичне спотворення в рейтинговий пул — вони запобігають справжній дефляції рейтингового розподілу у нижньому діапазоні — але їхня функція захисту від маніпуляцій вважається вартою цього компромісу.

Частина III: Обмеження та дискусії навколо ELO

Рейтингова інфляція та дефляція

Одна з найбільш стійких дискусій у теорії шахових рейтингів стосується інфляції: тенденції середніх рейтингів зростати з часом навіть тоді, коли фактичний розподіл сили гравців не змінився. Якщо до рейтингового пулу входить нова когорта гравців, кожен з яких починає зі стандартного початкового рейтингу, і більшість із них зрештою знижує рейтинг, вони вносять рейтингові очки в пул, які не зникають, коли ці гравці припиняють грати. Гравці, які їх перемагали, поглинають ці очки, піднімаючи загальний середній рейтинг.

Власні дані FIDE показують, що середній рейтинг гравців у верхній частині шкали суттєво зріс із моменту запровадження системи. Це означає, що рейтинг 2700 сьогодні не обов'язково еквівалентний рейтингу 2700 у 1990 році — ефект рейтингової інфляції робить порівняння між різними епохами ненадійним. Скільки саме зі спостережуваного зростання найвищих рейтингів відображає справжнє підвищення майстерності, а скільки — інфляцію, залишається предметом активних дискусій серед теоретиків рейтингів.

Проблема рейтингування нових пулів

Коли формується нова змагальна спільнота — чи то новий онлайн-майданчик, новий варіант, чи нова гра — система ELO стикається з проблемою завантаження. Формула очікуваного рахунку працює правильно лише тоді, коли рейтинговий пул стабілізувався: коли більшість гравців зіграла достатньо партій, щоб їхні рейтинги були достатньо точними оцінками їхньої справжньої сили.

У новому рейтинговому пулі всі починають з однакового початкового рейтингу (або певного стандартного значення), і всі початкові рейтинги однаково неточні. Перші партії між гравцями — це, по суті, здогадки: рейтинг жодного з гравців не є надійним показником його сили. Пул поступово стабілізується по мірі того, як гравці грають більше партій і їхні рейтинги збіжуються до точних оцінок їхньої справжньої сили, але цей процес потребує часу і багатьох партій.

Проблема завантаження є особливим викликом для нової гри, як BigChess, де рейтинговий пул починається з нуля. Нижче ми розглянемо, як BigChess вирішує це.

Припущення про стабільну силу

ELO передбачає, що справжня сила гравця є стабільною протягом вимірювального періоду. Насправді гравці вдосконалюються з часом (особливо початківці) і слабшають з віком (іноді). Система, відкалібрована для стабільної сили, недооцінює рейтинг гравців, що вдосконалюються, і переоцінює рейтинг тих, хто слабшає.

Різні модифікації базової системи ELO намагаються вирішити цю проблему: застосування вищих коефіцієнтів K для молодих або нових гравців (щоб їхні рейтинги змінювалися швидше), використання окремих коефіцієнтів K для різних часових періодів або моделювання сили гравця як динамічної змінної, а не фіксованої. Ступінчаста система коефіцієнта K FIDE є частковим вирішенням цієї проблеми.

Роль нічиїх

Шахи дають нічиї з частотою, яка варіюється залежно від сили гравця: партія між двома гросмейстерами може завершуватися нічиєю приблизно в половині класичних партій, тоді як партії між початківцями завершуються нічиєю рідко. Формула ELO для очікуваного рахунку трактує нічию як половину перемоги, що математично вірно — нічия дає кожному гравцю 0,5 очка незалежно від того, хто краще грав під час партії — але створює ситуацію, коли нічиї між приблизно рівними гравцями майже не змінюють рейтинг, навіть якщо один гравець грав значно краще і «пощастило» зробити нічию.

Ця нечутливість до нічиїх означає, що рейтингові оцінки гравців, які часто роблять нічию, є шумнішими, ніж для гравців із вирішальними результатами. Деякі запропоновані модифікації ELO включають ймовірність нічиї у формулу очікуваного рахунку, але вони не були прийняті основними рейтинговими органами.

Частина IV: ELO поза шахами — універсальна міра змагальних здібностей

Відеоігри

Першим великим нешаховим застосуванням ELO стали змагальні відеоігри. Наприкінці 2000-х років онлайн-мультиплеєрні ігри потребували систем для підбору гравців рівного рівня для змагальної гри. ELO була очевидним вибором — добре зрозуміла, статистично обґрунтована і ретельно перевірена в шахах.

Система підбору суперників Xbox Live від Microsoft, ліга StarCraft 2 від Blizzard і рейтингова система League of Legends від Riot Games — всі вони використовують алгоритми, похідні від ELO. Специфіка варіюється — різні коефіцієнти K, різні рейтингові шкали, прихований або відображуваний рейтинг — але фундаментальна логіка очікуваного рахунку і оновлення помітно нагадує оригінальну формулу Ело.

League of Legends є, мабуть, найяскравішим прикладом: її рейтингова система відстежує рейтинги ELO-типу (так звані MMR, Matchmaking Rating) мільйонів гравців і використовує їх для складання справедливих матчів у своїй величезній базі гравців. Система працює в масштабі саме тому, що лежача в основі математика проста і надійна.

Спорт

FIFA, міжнародна організація футболу, прийняла систему на основі ELO для ранжування національних збірних, замінивши старішу формулу, засновану на результатах, у 2018 році. Рейтинги футболу ELO на eloratings.net відстежують силу національних збірних з 1872 року і широко цитуються аналітиками футболу як більш точні прогнозатори результатів матчів, ніж офіційні рейтинги FIFA.

Національна футбольна ліга, NBA та Головна бейсбольна ліга мають аналітичні спільноти, які застосовують рейтинги на основі ELO для оцінки сили команд, часто як альтернативу або доповнення до офіційних таблиць. Веб-сайт FiveThirtyEight Нейта Сілвера популяризував спортивні прогнози на основі ELO для масової аудиторії, перетворивши академічну формулу Ело на звичне поняття серед шанувальників спортивної статистики.

Академічне рецензування та дослідження

Рейтингові системи типу ELO були застосовані до академічних журналів, наукових статей і навіть публікаційних рекордів окремих вчених. Системи, такі як Eigenfactor (що оцінює журнали), і різні варіації індексу h мають концептуальне коріння в підході ELO: ранжування за змагальною ефективністю в порівнянні з роботами рівного рівня.

Застосунки для знайомств

Мабуть, найбільш культурно значущим поширенням ELO стало її прийняття Tinder — застосунком для знайомств — як основи для його раннього «Elo score», внутрішнього рейтингу привабливості, який визначав, які профілі показувалися яким користувачам. Оцінка ELO Tinder розраховувала привабливість користувача на основі патернів свайпів, виходячи з логіки, що отримати свайп вправо від користувача з високим ELO цінніше, ніж від користувача з низьким ELO. Цей застосунок широко обговорювався в пресі, і Tinder зрештою замінив його іншим алгоритмом, але цей епізод наочно продемонстрував, наскільки далеко формула Ело пройшла від своїх витоків на шахових турнірах клубів Мілуоку 1950-х років.

Частина V: BigChess та ELO — рейтингування нової гри

Виклики рейтингування нового варіанту

Впровадження ELO для BigChess ставить перед розробниками виклики, яких не виникає для гри з усталеною рейтинговою спільнотою. Рейтинговий пул ELO класичних шахів містить мільйони гравців зі стабільними, добре відкаліброваними рейтингами, побудованими протягом десятиліть. Початковий рейтинг нового гравця можна оцінити за результатами турнірів ще до вступу в пул, а партії між досвідченими гравцями дають надійні оновлення рейтингу з першої партії.

BigChess починає без жодної з цих передумов. Кожен гравець — новий. Кожен початковий рейтинг однаково невизначений. Початковий період нового рейтингового пулу за своєю природою є більш шумним, ніж зрілий.

Додатковим викликом є те, що класичний рейтинг шахіста лише частково відображає його силу в BigChess. Знання класичних шахів переносяться в BigChess — цінності фігур, розуміння пішакової структури, техніка ендшпілю — але тактика Клона, принципи дебютів на дошці 10×10 і специфічні патерни BigChess не мають класичних аналогів. Сильний класичний шахіст може спочатку грати нижче очікуваного рівня в BigChess, адаптуючись до нової фігури і більшої дошки, а потім швидко вдосконалюватися, опановуючи специфічні патерни BigChess.

Як BigChess реалізує підбір суперників за ELO

BigChess використовує систему ELO для підбору суперників у реальному часі, з'єднуючи гравців з опонентами, чиї рейтинги близькі до їхніх власних. Система реалізована у бекенді Nakama ігрового сервера, який обробляє розрахунки рейтингів, зберігає ігрову статистику та використовує рейтинги для визначення сумісних суперників із поточного пулу гравців.

Система підбору суперників використовує ширший допустимий діапазон різниці рейтингів на початку кар'єри гравця (коли рейтинги дуже невизначені, а пул менший) і звужує цей діапазон по мірі накопичення партій і стабілізації рейтингів. Це аналогічно вищому коефіцієнту K FIDE для нових гравців — система враховує більшу невизначеність для гравців із малою кількістю партій і коригується відповідно.

Ігрова статистика повністю зберігається для кожного гравця, дозволяючи повністю переглянути траєкторію рейтингу з часом. Гравці можуть точно бачити, які партії спричинили значні зміни рейтингу, і аналізувати ці партії, щоб зрозуміти причину. Ця прозорість — знання не лише поточного рейтингу, але й історії кожного набраного та втраченого очка — є практично корисною функцією реалізації рейтингу в BigChess для вдосконалення гри.

Що означає ваш рейтинг у BigChess

Рейтинги BigChess відповідають стандартній інтерпретації ELO щодо очікуваних різниць у результатах. Конкретні числа зміняться по мірі зростання і стабілізації рейтингового пулу, але відносне значення залишається незмінним:

Різниця рейтингів	Очікуваний відсоток перемог для гравця з вищим рейтингом
0 (рівні)	50%
+100	~64%
+200	~76%
+400	~91%
+600	~97%

На практиці ці числа означають, що рейтинги BigChess є значущими прогнозаторами результатів партій навіть у відносно новому рейтинговому пулі. Гравець, чий рейтинг на 400 очок вищий за рейтинг суперника, виграє приблизно дев'ять партій із десяти; його перевага в рейтингу — не артефакт малої вибірки, а справжній сигнал про різницю сил між двома гравцями.

Конкретний приклад: оновлення рейтингу після партії в BigChess

Розглянемо двох гравців: гравець A (рейтинг BigChess 1400) і гравець B (рейтинг BigChess 1200). Очікуваний рахунок для гравця A:

E_A = 1 / (1 + 10^{(1200 - 1400) / 400}) = 1 / (1 + 10^-0,5) ≈ 0,76

Гравець A очікує набрати 76% проти гравця B. Припустимо, що гравець A виграє. Оновлення рейтингу (при K = 20):

R'_A = 1400 + 20 × (1 - 0,76) = 1400 + 20 × 0,24 = 1400 + 4,8 ≈ 1405

Гравець A набуває близько 5 очок — скромна нагорода за перемогу в партії, де він мав значну перевагу. Гравець B втрачає ті самі 5 очок. Нові рейтинги: гравець A — 1405, гравець B — 1195.

Тепер припустимо, що в цій партії виграє гравець B. Оновлення для гравця A:

R'_A = 1400 + 20 × (0 - 0,76) = 1400 - 15,2 ≈ 1385

Гравець A втрачає 15 очок — значний штраф за поразку від слабшого суперника. Гравець B набуває 15 очок за несподівану перемогу. Ця асиметрія змін рейтингу для очікуваних і несподіваних результатів є основою того, як ELO стимулює змагальну гру проти суперників рівного або вищого рівня.

Частина VI: Підвищення вашого рейтингу ELO у BigChess

Що насправді впливає на ваш рейтинг

Оскільки система ELO винагороджує перемогу над суперниками, близькими або вищими за власний рейтинг, найшвидший шлях до підвищення рейтингу — це стабільна якісна гра проти рівних суперників. Кілька принципів застосовуються спеціально для підвищення рейтингу ELO у BigChess:

Вивчіть Клона перед тим, як грати рейтингові партії. Гравці, які розвивають тверде розуміння тактики Клона і базової стратегії BigChess до того, як зіграти багато рейтингових партій, підніматимуться швидше, ніж ті, хто вчиться через повторні поразки. Система задач BigChess розроблена саме для цього — розв'язання тактичних задач з Кло перед рейтинговими партіями прискорює криву навчання.
Аналізуйте ігрову статистику. Кожна рейтингова партія в BigChess зберігається. Переглядайте партії, де ви втратили значну кількість рейтингових очок, і визначайте конкретні помилки — пропущена тактика Клона, помилки в пішаковій структурі, прорахунки в безпеці короля. Розпізнавання патернів найшвидше вдосконалюється через аналіз власних партій.
Сприймайте поразки від сильніших суперників як можливість навчання. Система ELO карає за поразку від слабших суперників більше, ніж за поразку від сильніших. Гра проти сильніших суперників, навіть при поразках, дає менші зниження рейтингу, ніж програш слабшим гравцям. Крім того, партії проти сильніших суперників знайомлять вас із більш складною грою в BigChess.
Утримайтеся від дебютних експериментів у важливих рейтингових партіях. У BigChess немає усталеної дебютної теорії, але деякі базові принципи — розвиток Клона, контроль центру на дошці 10×10, безпека короля — надійно застосовуються. Відхилення від цих принципів з непевними дебютними експериментами в рейтингових партіях ризикує раннім позиційним збитком ще до того, як партія по-справжньому розпочнеться.
Вивчайте партії лідерів рейтингу. Система ігрової статистики BigChess робить партії гравців з найвищим рейтингом доступними для вивчення. Спостереження за тим, як сильні гравці вирішують координацію фігур Клона, приймають рішення щодо пішакової структури та переходять між фазами гри, дає практичну програму вдосконалення, яку жодна кількість абстрактного навчання не може замінити.

Рейтингові рубежі в новій грі

Оскільки BigChess є новою грою зі складеним рейтинговим пулом, поточні рейтингові рубежі будуть розвиватися по мірі приєднання нових гравців і стабілізації розподілу. Важливо не абсолютне число, а ваше місце в поточному розподілі. По мірі зростання рейтингового пулу BigChess відносна структура рівнів майстерності ставатиме дедалі видимішою — а таблиця лідерів перетвориться на дедалі значущіший орієнтир для змагального ландшафту спільноти.

Висновок: формула, що змінила світ

Внесок Арпада Ело — це не просто формула. Це концептуальна основа для осмислення змагальних здібностей як безперервної, ймовірнісно розподіленої величини, яку можна вимірювати, порівнювати та оновлювати з кожним новим фрагментом доказів. Ця основа виявилася настільки широко застосовною, що пережила свої шахові витоки на десятиліття, вбудувавшись у рейтингову інфраструктуру змагальних заходів — від відеоігор до міжнародного футболу і знайомств.

У BigChess ELO забезпечує змагальну основу, яка робить підбір суперників справедливим, прозорим і мотивуючим. Кожна партія дає інформацію — оновлення рейтингу, яке точно відображає результат і коригує оцінки ймовірностей для майбутніх матчів. Кожне вдосконалення в розумінні BigChess зрештою відображається в рейтингу. Число біля вашого імені розповідає вашу历史, недосконало, але чесно, тією ж математичною мовою, яку Арпад Ело вивів зі статистичної фізики у 1950-х роках.

Гра нова. Формула стара. Разом вони створюють змагальне середовище, де кожна партія має значення і кожне вдосконалення помітне.

Будуйте свій рейтинг BigChess проти суперників вашого рівня. Грайте прямо зараз на bigchessgame.com — доступно на iOS, Android і в браузері. Ваша подорож ELO на дошці 10×10 починається з першої партії.

Система рейтингу ELO: Математичне дзеркало шахів — і як BigChess її використовує