Bewertungs-Relevanz-Reduktion

Externe Links:


CSS
Computerschach-Forum:


umfangreiches Forum zum Thema Computerschach und speziell auch zum Programm Stockfish

Stockfish
Development Versions


aktuellste Versionen von Stockfish

Interne Links:


PGN-Engine-Analyzer

Analyseprogramm zur Erzeugung von PGN-Dateien mit Engine-Varianten und deren Auswertung mittels umfangreicher Daten


Modifikation von TCEC-PGN-Dateien

in Notepad++ für Aquarium und Scid vs. PC

Tastaturlayout zur Schach-Kommentierung

mit Sonderzeichen in Windows-Programmen per AutoHotkey-Skript

Behting-Studie

eine für fast alle Schachprogramme unlösbare Studie

Artikel-Links:
















Update vom Dezember 2023:
neues Eingabefeld „minimalste Bewertung > 0 für Gewinn Weiß = 100 %
zur Berechnung der WDL-Auswertungen #(,##)“:
dieser Wert dürfte bei Verwendung der Stockfish-Engine empirisch bei circa 2,35 liegen; ab dieser Bewertung gelten Stellungen statistisch zu 100 % als gewonnen und ab dem Negativbetrag dieser Bewertung zu 100 % als verloren; fast alle WDL-Auswertungen im Programm basieren auf diesem Wert und gewinnen durch ihn wesentlich an Präzision.


Hinweise zum Formular:

Nicht alle 13 Eingabefelder sind mit Parametern auszufüllen. Sofern das Programm Angaben vermisst, werden diverse Fehlermeldungen in roter Farbe und blinkend ausgegeben.


Die Anzeige der Resultate setzt die Erlaubnis zur Ausführung von Javascript-Code im Browser voraus.






Parameter laden Felder leeren Parameter speichern






 Eingaben 
 Zugbewertungen und Engine-WDL-Daten 
 hohe Zugbewertung 

 suboptimale Zugbewertung - schlechter als hohe Zugbewertung 




 Parameter der Anwender-Bewertungs-Relevanz-Reduktion 
 0,75-Partieresultat-Probabilität: Bewertung > 0 


 0,75-plus-Partieresultat-Probabilität: Bewertung und 0,75-plus 






Resultate:



Daten der Engine-WDL-Statistik
Bewertung Farbe Quelle Gewinn-% Remis-% Verlust-% Halbzug ⇐ -N ⇔ 0 ⇔ N ⇒

Bewertungs-Vergleich Anwender/Engine-BRR
probabilistisches Partieresultat = 0,75
Bewertungs-Relevanz = 0,50
probabilistisches Partieresultat = ?
Bewertungs-Relevanz = ?
Anwender-BRR Engine-WDL-BRR Engine-WDL-BRR ∅ Anwender-BRR Engine-WDL-BRR Engine-WDL-BRR ∅

Bewertungsdifferenzen
absolute Bewertungsdifferenz
relevante Bewertungsdifferenz bei Anwender-BRR
relevante Bewertungsdifferenz bei Engine-WDL-BRR

Probabilistische Partieresultate
hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
aus Sicht von Weiß
aus Sicht von Schwarz

Optimumquote der suboptimalen Zugbewertung
Anwender-BRR
Engine-WDL-BRR

Zugbewertungssymbole (‼ ! !? ?! ? ??) und Grenzwerte
extensives Schema: 1/7 1/7 1/7 1/14 1/14 1/7 1/7 1/7
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
Zugbewertungssymbol
Grenzwert ! ⇒ ‼
Grenzwert !? ⇒ !
Grenzwert ./. ⇒ !?
Grenzwert ?! ⇐ ./.
Grenzwert ? ⇐ ?!
Grenzwert ?? ⇐ ?

Zugbewertungssymbole (‼ ! !? ?! ? ??) und Grenzwerte
restriktives Schema: 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
Zugbewertungssymbol
Grenzwert ! ⇒ ‼
Grenzwert !? ⇒ !
Grenzwert ./. ⇒ !?
Grenzwert ?! ⇐ ./.
Grenzwert ? ⇐ ?!
Grenzwert ?? ⇐ ?

Stellungsbewertungssymbole und Grenzwerte bei Anwender/Engine-WDL-BRR
Grenzwert-Justierung an identischen Stellungsbewertungssektoren
9 Sektoren: 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
Stellungsbewertungssymbole
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR Engine-WDL-BRR
klarer/extremer Vorteil Weiß (+– ⇒ ++–)
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)
klarer/extremer Vorteil Schwarz (––+ ⇐ –+)

Stellungsbewertungssymbole und Grenzwerte bei Anwender/Engine-WDL-BRR
Grenzwert-Justierung an identischen Stellungsbewertungssektoren
7 Sektoren: 1/7 1/7 1/7 1/7 1/7 1/7 1/7
Stellungsbewertungssymbole
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR Engine-WDL-BRR
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)

Stellungsbewertungssymbole und Grenzwerte
bei Anwender-BRR: Grenzwert-Justierung an probabilistischen Partieresultaten
bei Engine-WDL-BRR: Grenzwert-Justierung an beiden Bewertungen
9 Sektoren
Stellungsbewertungssymbole
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR Engine-WDL-BRR
klarer/extremer Vorteil Weiß (+– ⇒ ++–)
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)
klarer/extremer Vorteil Schwarz (––+ ⇐ –+)

Stellungsbewertungssymbole und Grenzwerte
bei Anwender-BRR: Grenzwert-Justierung an probabilistischen Partieresultaten
bei Engine-WDL-BRR: Grenzwert-Justierung an beiden Bewertungen
7 Sektoren
Stellungsbewertungssymbole
Farbe hohe Bewertung suboptimale Bewertung
Anwender-
BRR
Engine-
WDL-BRR
Anwender-
BRR
Engine-
WDL-BRR
für Bewertung(en) — Weiß/Schwarz irrelevant
Grenzwerte
Anwender-BRR Engine-WDL-BRR
moderater/klarer Vorteil Weiß (± ⇒ +–)
leichter/moderater Vorteil Weiß (⩲ ⇒ ±)
Ausgleich/leichter Vorteil Weiß (= ⇒ ⩲)
Ausgleich/leichter Vorteil Schwarz (⩱ ⇐ =)
leichter/moderater Vorteil Schwarz (∓ ⇐ ⩱)
moderater/klarer Vorteil Schwarz (–+ ⇐ ∓)

Extrem‑Bewertungen im positiven/negativen Bereich
Anwender-BRR Irrelevanz-Start-Bewertungen
Engine-WDL-BRR Start-Bewertungen mit Bewertungs-Relevanz = 0


Graph der Anwender-BRR:



Flot 0.8.3 – Copyright © 2007 - 2014 IOLA and Ole Laursen



Graph der Engine-WDL-BRR:



Flot 0.8.3 – Copyright © 2007 - 2014 IOLA and Ole Laursen



Zug- und Stellungsbewertungen
nebst NAG- und Informator-Symbolen


Schachspieler pflegen Züge und Stellungen auf dem Brett unter Verwendung derartiger Symbole wie folgt zu taxieren:

brillanter Zug (‼) – NAG $3,
beeindruckender Zug (!) – NAG $1,
ansprechender Zug (!?) – NAG $5,
fragwürdiger Zug (?!) – NAG $6,
schwacher Zug (?) – NAG $2,
miserabler Zug (??) – NAG $4,

ausgeglichene Stellung oder Remis (=) – NAG $10,
leichter Vorteil für Weiß (⩲ oder +/=) – NAG $14,
leichter Vorteil für Schwarz (⩱ oder =/+) – NAG $15,
moderater Vorteil für Weiß (± oder +/-) – NAG $16,
moderater Vorteil für Schwarz (∓ oder -/+) – NAG $17,
klarer Vorteil für Weiß (+-) – NAG $18,
klarer Vorteil für Schwarz (-+) – NAG $19,
extremer Vorteil für Weiß (++-) – NAG $20,
extremer Vorteil für Schwarz (--+) – NAG $21.

Ergänzend sei noch erwähnt die unklare Stellung (∝) – NAG $13. Sie gehört eigentlich nicht hierher, da sie gerade zum Ausdruck bringt, dass eine Stellungsbewertung (angeblich) nicht möglich ist.

Vorbehalt: Die obigen deutschen Umschreibungen für all diese Symbole sind Eigenkreationen und selbstredend keineswegs verbindlich. Näheres ist hier zu finden.

„NAG“ bedeutet übrigens „Numeric Annotation Glyphs“.

Solche Zug- und Stellungseinschätzungen sind durchaus praktisch: Sie verschwenden wenig Raum und mit einem Blick lassen sie einen Bewertungsbereich erkennen. Nur stellt sich die Frage, wie solche Bewertungen zustande kommen. Pi mal Daumen? Oder geht es auch etwas genauer? Es würde schon einen Fortschritt darstellen, wenn sie definiert würden von irgendwelchen Schachprogrammbewertungen in Bauerneinheiten, mit denen Schachengines Stellungsungleichgewichte, also Stellungsvorteile oder ‑nachteile zahlenmäßig ausdrücken. Aber woher solche Definitionen nehmen, wenn nicht stehlen? Ab welcher Stellungsbewertung einer Schachengine lässt sich zum Beispiel von einem leichten Vorteil für Weiß sprechen, ab 0,10 Bauerneinheiten oder ab 0,20 – wenn man einmal von individuellen Über- oder Untertreibungen der Engines bei der Höhe ihrer Bewertungen absieht? Und wie lässt sich hier ein objektiver Maßstab finden?

Im weiteren Verlauf dieses Artikels werden hierzu etliche mathematisch abgeleitete Vorschläge mit entsprechenden Formeln unterbreitet werden. Zuvor sind jedoch diverse statistische und mathematische Grundlagen zu erarbeiten.

Patzerrelevanz oder höflicher: Bewertungs-Relevanz


Schachprogramme bewerten Stellungen gewöhnlich in Hundertstel von Bauerneinheiten und wenn man vom Rechenknecht ausgespuckte Varianten in einer Stellung vergleicht, erkennt man die Bewertungsdifferenz bzw. Fehlermarge zwischen der besten und einer minderwertigen Variante.

Wie relevant sind aber eigentlich Fehlzüge und deren Bewertung? Beispiel: In einer verlorenen Stellung nach kompensationslosem Verlust der Dame stellt man ohne Not zusätzlich noch eine weitere Figur ein. Das Schachprogramm wird dieses Malheur mit einer deutlich höheren Bewertung zugunsten des Gegners quittieren. Wie relevant ist aber nun eine solche Differenz zwischen der neuen und der vorherigen Stellungsbewertung in einer praktisch schon verlorenen Partie? Objektiv – also von subjektiven Fehlzügen des Gegners mal abgesehen – eigentlich gar nicht! Der Patzer wird die Partie nach menschlichem Ermessen auch ohne den neuerlichen Fehlzug bei beiderseits bestem Spiel nicht mehr retten können.

Um es auf die Spitze zu treiben: Ab welcher Bewertung kann denn eine Partie objektiv als gewonnen oder verloren gelten? Kommt darauf an. Man könnte ironisch sagen: Je Stümper desto höher. Je höher die Bewertung, desto eher kann man darauf bauen, dass selbst von einem Amateur der Vorsprung nicht mehr vermasselt wird, wobei man bei heutigen Schachcomputerprogrammen mehr Vertrauen investieren darf, als beim Homo sapiens. Und wenn man es mit einem potentiellen Patzer zu tun hat, sollte man zum Beispiel in einer scheinbaren Verluststellung nicht vorzeitig die Flinte ins Korn werfen, wie etwa weiland Kasparov in der 2. Wettkampfpartie gegen Deep Blue im Jahr 1997.

Computerschachstatistiken


Was also tun? Man nehme Abschied vom Menschen-Stümper-Schach und wende sich den stärksten Schachengines zu. Nun kann man prinzipiell zwei Wege beschreiten:

Stockfish-WDL-BRR:

Seit Mitte 2020 stellt Stockfish neben den eigentlichen Bewertungen Gewinn/Remis/Verlust-Abschätzungsquoten („WDL“ für win-draw-loss) zur Verfügung. Um mit den Worten des Stockfish-Entwicklereams zu sprechen:

„UCI_ShowWDL
If enabled, show approximate WDL statistics as part of the engine output. These WDL numbers model expected game outcomes for a given evaluation and game ply for engine self-play at fishtest LTC conditions (60+0.6s per game).“

„UCI_ShowWDL
Wenn aktiviert, werden ungefähre WDL-Statistiken als Teil der Engine-Ausgabe angezeigt. Diese WDL-Zahlen modellieren die erwarteten Spielergebnisse für eine gegebene Bewertung und einen gegebenen Spielverlauf für das Selbstspiel der Engine unter Fishtest-LTC-Bedingungen (60+0,6s pro Spiel).“

Diese WDL-Statistiken bzw. -Wahrscheinlichkeiten berücksichtigen insofern den Spielverlauf, als sie den bewerteten Halbzug in Rechnung stellen. Die ihnen zugrundeliegenden Formeln finden sich im Stockfish-Programmcode („win rate model“). Die Verwendung dieser Statistiken muss nicht zwangsläufig auf Spielanalysen beschränkt werden, die mit Stockfish erfolgen, denn diese Engine ist das Nonplusultra der Stellungsanalyse und setzt daher den Bewertungsstandard.

Der Clou der Stockfish-WDL-Statistiken ist nicht nur die Ableitung der in diesem Artikel besprochenen Bewertungsrelevanzen und -differenzen, Optimumquoten, probabilistischen Partieresultate, Zug- und Stellungsbewertungssymbole inklusive Grenzwerte in ähnlicher Weise wie bei der nachfolgend dargestellten Anwender-BRR. Die aus ihr resultierenden Durchschnittswerte (vgl. „Bewertungs-Vergleich Anwender/Engine-BRR“, Zeile 3, Spalten 3 und 6 im Programm) können wertvolle Anhaltspunkte für die Justierung der Parameter der Anwender-BRR liefern.

Hierzu übrigens ein kleiner Programmtrick: Eingabe von „0“ (Null) in die beiden Zugbewertungsfelder und das „Halbzug“-Feld löscht den programminternen Speicher für diese beiden Durchschnittswerte, die beim Laden und Speichern der Parameter erhalten bleiben.

Experimente nach dem Stockfish-Update vom 22. Juni 2023 legen nahe, dass bei Stockfish-Bewertungen von circa ±2,35 eine absolute Gewinn/Verlust-Wahrscheinlichkeit von 100 % besteht. Dieser Wert wurde bei der Kalkulation der WDL-Werte im obigen Formular als absolute Relevanzgrenze herangezogen. Darüber hinausgehende Werte spielen für relevante WDL-Bewertungsdifferenzen, WDL-Zugbewertungssymbole, WDL-Positionsbewertungssymbole etc. keine Rolle. Ferner wurde experimentell festgestellt, dass bei Bewertungen in Höhe von circa 0,98 das probabilistische Partieresultat für Weiß bei circa 0,75 und bei Bewertungen in Höhe von circa 1,18 das probabilistische Partieresultat für Weiß bei circa 0,875 liegt.

Eine kleine Einschränkung darf nicht unerwähnt bleiben. Die automatische Ermittlung der Gewinn-, Remis- und Verlust-Prozentsätze für eine Bewertung mittels Eingabe des Halbzuges führt zu Resultaten, die leicht von denjenigen abweichen, die Stockfish selbst errechnet. Der Stockfish-Code im Unterprogramm „win_rate_model“ zeitigt außerhalb von Stockfish bizarre Ergebnisse. Die dortige Variable „v“, die mit der Bewertung zusammenhängt, muss mit einem unbekannten Faktor multipliziert werden. Einige wenige Vergleiche der vom „win_rate_model“-Code stammenden Prozentsätze mit den unmittelbar von Stockfish produzierten Werte legen nahe, dass dieser Faktor etwa im Bereich 328 liegen dürfte. Diese Zahl 328 kommt übrigens im Stockfish-Code an anderer Stelle als „NormalizeToPawnValue“ ausdrücklich vor. Die im aktuellsten Update des „win_rate_models“ vom 22. Juni 2023 enthaltenen Kalkulations-Parameter zeitigen Resultate, die mit den von der Stockfish-Engine erzeugten Werten einigermaßen in Einklang gebracht werden können, wenn der zu multiplizierende Faktor auf 330,3 angehoben wird.

Anwender-BRR:

Die traditionelle, in diesem Artikel vorgestellte Variante ist die Analyse der Engine-Partien unter der Fragestellung, ab welcher Bewertung diese Programme ihre Partien gewonnen haben – oder auch nicht. Die aussagekräftigsten Partien finden sich vermutlich im Internet unter „TCEC“ („Top Chess Engine Championship“) jeweils in den „Superfinals". Gründe: Hohe Bedenkzeit, Gegner waren jeweils die beiden scheinbar besten Schachengines und alle Stellungsbewertungen sind Zug für Zug nachvollziehbar.

Gibt es statistisch betrachtet eine Art "point of no return", eine Bewertung – natürlich abgesehen von einer konkreten Mattansage – ab der der Sieg ohne jegliche Zweifel unter Dach und Fach gebracht ist und eine Remisabwicklung nicht mehr in Betracht kommt? Theoretisch Nein. Die nachfolgende TCEC-Superfinal-Tabelle zeigt, dass Schachengines Bewertungen von bis zu 5,01 nicht in Siege umzumünzen vermochten. Und niemand vermag zu sagen, wo die absolute Bewertungsgrenze für derartige Bewertungsirrtümer – bestes Spiel in den nachfolgenden Zügen unterstellt – zu liegen vermag, da es niemandem vergönnt ist, diese Grenze mit einer unendlichen Anzahl von Testpartien zu ermitteln.

Auch wenn solche Ausreißer höchst selten vorkommen, verbieten sie die Gleichsetzung irgendeiner Bewertung (selbst von 5,01 – wie man sehen konnte) mit Sieg oder Niederlage. Anders ausgedrückt: Es gibt bewertungstechnisch keinen "point of no return".

Nun muss man sich noch der Frage zuwenden, bei welchen Bewertungen denn bestimmte durchschnittliche Partieresultate zu verorten sind. Von besonderem Interesse erscheinen Bewertungen, bei denen, einmal erreicht, sich das durchschnittliche Resultat aller betroffenen Partien auf 0,75 (aus Sicht von Weiß) beläuft. Ein solcher Wert kann etwa zustandekommen durch eine gleiche Anzahl von Siegen und Remisen oder auch durch eine Anzahl von Niederlagen und einer dreifachen Anzahl von Siegen. Verlustpartien werden hier der Vollständigkeit halber auch erwähnt, obwohl sie bei Erreichen dieser speziellen Gleichgewichtsbewertung selten vorkommen.

Zur Verdeutlichung erst einmal tabellarisch die Resultate der Superfinals in den Seasons 9 ff. sowie des FIDE-Kandidatenturnier 2018 mit den auf „www.chessbomb.com“ zu findenden Bewertungen von Stockfish bei einer Bedenkzeit von 30 Sekunden.

Turnier Analyse-
Engine
Siege Bewertung e=0.75
bei durch-
schnittlichem
Partieresultat
0,75(:0,25)
maximale
Bewertung e>0.75
ohne Sieg
durchschnittliches
Partieresultat
bei maximaler
Bewertung e>0.75
ohne Sieg
alternatives
Wertepaar:
Bewertung e>0.75 /
durchschnittliches
Partieresultat ≅ 0,875
9 Stockfish 16 1,75 0,62
10 Houdini 15 2,00 0,66
12 Stockfish 29 1,48 0,52
13 Stockfish 16 2,79 1,14
14 Stockfish 10 2,42 1,45
FIDE-
Kandidaten-
turnier 2018
Stockfish 8 20 0,67 16,68 0,9762 2,39 / 0,8800
Superfinal
TCEC Nr. 16
Stockfish
19092522
14 1,24 3,33 0,9667 1,65 / 0,8684
Superfinal
TCEC Nr. 16
AllieStein
v0.5-dev_7b41f8c-n11
5 3,96 8,18 0,9167 8,03 / 0,8571
Superfinal
TCEC Nr. 17
LCZero
v0.24-sv-t60-3010
17 1,34 5,01 0,9722 1,89 / 0,8810
Superfinal
TCEC Nr. 17
Stockfish
20200407DC
12 1,49 2,76 0,9615 1,89 / 0,8750
Superfinal
TCEC Nr. 18
Stockfish
202006170741
23 0,87 3,74 0,9792 1,41 / 0,8710
Superfinal
TCEC Nr. 18
LCZero
v0.25.1-svjio-t60-3972-mlh
16 0,69 2,12 0,9706 1,57 / 0,8636


Die obige Auswertung am Beispiel des Superfinals Nr. 17 und der Siegerengine LCZero v0.24-sv-t60-3010 erklärt:

LCZero gewann 17 Partien.. 83 Partien endeten demnach mit Remis oder Verlust für LCZero. Und in all diesen Partien ist nun die siebzehntniedrigste Bewertung zu suchen, die LCZero zu seinen Gunsten angab. Wohlgemerkt eine für ihn positive Bewertung, die nicht zum Sieg verwertet werden konnte. Man zählt also die 17 höchsten Bewertungen ab und die niedigste hiervon ist 1,26. Es existieren also 17 Remis- oder Verlustpartien, in denen jeweils mindestens eine Bewertung von 1,26 anzutreffen ist. Anders ausgedrückt: In 34 Partien wurde von LCZero eine Bewertung von 1,26 erreicht und in jeweils 17 Partien war das Ergebnis entweder Remis/Verlust oder aber 1-0.

Nun steckt aber in diesen Zahlen eine kleine Komplikation: LCZero musste in der 16. Partie eine Niederlage quittieren, obwohl es zuvor bereits eine Bewertung von 1,89 ausgespuckt hatte und 1,89 liegt über dem zuvor ermittelten Bewertungsgrenzwert von 1,26. Wegen diesem „0“-Resultat gelingt es nicht, anhand der faktischen Resultate ein durchschnittliches Partieresultat von 0,75 zu ermitteln. Denn dieses beträgt ja

( 17 1 ) + ( 16 0,5 ) + ( 1 0 ) 34 = 0,7353 {(17 cdot 1) + (16 cdot 0,5) + (1 cdot 0)} over {34} = 0,7353


anstatt 0,75. Wenn die realen Zahlen störrisch sind, muss die Mathematik eingreifen. Die Formel für die durchschnittlichen Partieresultate zwischen 0,5 und 0,75 auf der y-Koordinatenachse ist eine lineare Funktion und lautet:

durchschnittliches Partieresultat = ( 2 e =0.75 ) + Bewertung 4 e =0.75 durchschnittliches Partieresultat = {(2 cdot e_"=0.75") + Bewertung} over {4 cdot e_"=0.75"}


Gesucht ist die ominöse 0,75-Partieresultat-Bewertung (abgekürzt „e=0.75“). Also muss umgeformt werden:

e =0.75 = Bewertung ( 4 durchschnittliches Partieresultat ) 2 e_"=0.75" = Bewertung over {(4 cdot durchschnittliches Partieresultat) - 2}


Im vorliegenden LCZero-Fall ist also zu rechnen:

e =0.75 = 1,26 ( 4 0,7353 ) 2 = 1,3387 e_"=0.75" = 1,26 over {(4 cdot 0,7353) - 2} = 1,3387


Das Ergebnis liegt also etwas über der faktisch ermittelten e=0.75, was zu erwarten war.

Im September 2017 erschien die Engine Houdini 6 über die auf dieser Webseite folgendes zu lesen ist:

„The evaluations have again been calibrated to correlate directly with the win expectancy in the position. A +1.00 pawn advantage gives a 75% chance of winning the game against an equal opponent at blitz time control. At +1.50 the engine will win 90% of the time, and at +2.50 about 99% of the time. To win nearly 50% of the time, you need and advantage of about +0.60 pawn.“

Zu Deutsch:

„Die Bewertungen sind wieder so kalibriert worden, dass sie direkt mit der Gewinnwahrscheinlichkeit in der Position korrelieren. Ein +1,00 Vorteil in Bauerneinheiten ergibt eine 75 %-Wahrscheinlichkeit gegen einen gleichwertigen Gegner im Blitzspiel zu gewinnen. Bei +1,50 gewinnt die Engine zu 90 % und bei +2,50 etwa zu 99 %. Um fast zu 50% zu gewinnen, wird ein Vorteil von etwa +0,60 Bauerneinheiten benötigt.“

Houdini hielt Wort. Im TCEC-Superfinal Season 10 gegen Komodo errang Houdini 15 Siege und in den 15 Remis- bzw. Verlustpartien mit den höchsten Bewertungen von Houdini war die Mindestbewertung 0,66. Eine fast punktgenaue Landung.

Die obige Tabelle lässt den vorsichtigen Schluss zu, dass die seit dem TCEC-Superfinal 13 verwendeten Stockfish-Versionen deutlich höhere Bewertungen auswerfen als ihre Vorgängerversionen. Eines darf bei der Interpretation dieser Ergebnisse nicht unter den Tisch fallen: Stockfish 10 wurde ein "contempt" von 0,24 (Stockfish 9: 0,20) spendiert, der die jeweilige Bewertung anheben dürfte. Es scheint daher nahezuliegen, für eigene Analysezwecke diese Geringschätzungsmarge von den in der Tabelle aufgeführten Bewertungsgrenzwerten zu subtrahieren. Ein Tipp sei allerdings gestattet: Analysen mit Stockfish sollten nur mit ausgeschaltetem "contempt" erfolgen, um die Bewertungen nicht künstlich in die Höhe zu treiben.

Und zuletzt sei noch erwähnt, dass die TCEC-Webseite neuerdings mit der Anzeige von Gewinn-Remis-Wahrscheinlichkeiten aufwartet und die e=0.75 für die Engine Stockfish bei circa 1,56 (Superfinal 17) bzw. sogar 1,91 (Superfinal 18) verortet. Angesichts der vorhergehenden Tabelle ein durchaus plausibler Wert. Kritikabel ist allerdings, dass dort nur Prozentsätze für „W“ (win?) und „D“ (draw? – 100 % - „W“-Prozentsatz) angegeben werden, die Verlust-Wahrscheinlichkeit aber unter den Tisch fällt. Die oben vermutete TCEC-e=0.75 von 1,56 basiert notgedrungen auf der Annahme, dass unter „D“ auch die Verlust-Wahrscheinlichkeit zu subsumieren ist.

Mathematische Bewertungs-Relevanz-Reduktion


Halten wir fest: Auf dem Weg der Bewertung zwischen 0,00 und Unendlich (∞) nimmt deren Relevanz kontinuierlich ab. Beginnend mit 100 % im Fall einer Bewertung von 0,00 über 50 % bei der e=0.75-Bewertung (nachfolgend wird zur Verdeutlichung der TCEC-Wert von 1,56 beispielhaft unterstellt) endet sie im Unendlichen mit 0 %.

Ein Beispiel:
Die Bewertung für den besten Zug beträgt 2,00. Nun passiert ein Missgeschick: ein Fehlzug wegen Figurenverlust mit einer Bewertung von -3,00. Die absolute Bewertungsdifferenz beträgt -5,00. Wie relevant ist dieser Figurenverlust? Offensichtlich weniger als -5,00.
Im Einzelnen:
Zwischen den Bewertungen 2,00 und 1,56 wächst die Relevanz kontinuierlich;
bei 1,56 soll sie 50 % betragen; denn dies ist der Mittelwert zwischen 100 % und 0 %; ferner ist das probabilistische Partieresultat von 0.75 bei der Bewertung 1.56 der Mittelwert zwischen 0.5 bei der 0.00-Bewertung und 1 bei einer maximalen Enginebewertung;
bei 0,00 erreicht die Relevanz ihren Höchstwert mit 100 %;
-1,56 schlägt dann wieder mit 50 % zu Buche und
bei -3,00 endet sie mit einem Wert von deutlich unter 50 %.

Von Interesse wäre jetzt die Summe dieser Prozentwerte. Rechnerisch machbar, aber etwas kompliziert. Die mathematisch Versierten haben sicherlich längst erkannt, dass dieses Auf und Ab mit einer mathematischen Funktion ausgedrückt werden müsste, für die gilt: Je mehr man sich von der y-Achse beiderseits entfernt, desto kleiner werden die Ordinaten, die jeweiligen Bewertungs-Relevanz-Beträge entlang dieser Punkte auf der x-Achse, bis sie sich schließlich beiderseits im Unendlichen der x-Achse als Asymptote annähern. Die x-Achse repräsentiert demnach die Bewertungen (seitens einer Engine), die y-Achse die Bewertungs-Relevanz-Beträge.

An dieser Stelle wurde in der ersten Artikelversion eine Exponentialfunktion der allgemeinen Form f(x) = a^(x*b) vorgeschlagen. Solche Exponentialfunktionen haben den Vorteil, dass immer der Punkt P(0;1) erfüllt ist und sie sich im (positiven) Unendlichen der x-Achse annähern. Der Nachteil einer solchen Funktion besteht allerdings darin, dass mit ihr nur 2 Punkte bestimmt werden können, der bereits erwähnte Punkt P(0;1) und der Punkt P(e=0.75;0,5). Ein weiterer Definitionspunkt P(e>0.75;r>0.75) wäre aber zwecks besserer Präzision dringend nötig, um beispielsweise die höchsten TCEC-Engine-Bewertungen ohne Sieg und die damit korrespondierenden und weit über 0,75 liegenden Partieresultate erfassen zu können.

Lösung: 3 Gleichungen für 3 negative und 3 positive Sektoren entlang der x-Achse (x steht für Enginebewertung):

1. positiver und negativer Sektor:

y Rel = 1 | x | 2 e =0.75 y_Rel = 1 - lline x rline over {2 cdot e_"=0.75"} lineare Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
 


2. positiver und negativer Sektor:

y Rel = 2 e =0.75 r >0.75 2 | x | r >0.75 e >0.75 + | x | 2 ( e >0.75 e =0.75 ) y_Rel = -{{2 cdot e_"=0.75" cdot r_">0.75" - 2 cdot lline x rline cdot r_">0.75" - e_">0.75" + lline x rline} over {2 cdot left(e_">0.75" - e_"=0.75" right)}} lineare Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75 oder e=0.75 ≤ x ≤ e>0.75}
 


3. positiver Sektor und negativer Sektor:

y Rel = r >0.75 | x | e >0.75 y_Rel = {r_">0.75"}^{lline x rline over e_">0.75"} Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75 oder e>0.75 ≤ x < ∞}
 


Die Bewertungs-Relevanz-Funktionen stehen. Wie errechnet sich nun aber die wirklich relevante Bewertungsdifferenz über eine bestimmte Strecke auf der x-Achse, zum Beispiel zwischen 2,00 und -3,00? Die Bewertungs-Relevanz-Funktion ergibt ja nur den jeweiligen y-Wert eines speziellen Punkts entlang der x-Achse. So genial wie einfach: per Integralfunktion. Alle Werte zwischen der x-Achse und der Funktionskurve summiert, also der dortige Flächeninhalt zwischen der besten Bewertung (zum Beispiel 2,00) und der minderwertigen Bewertung (zum Beispiel -3,00), stellen das bestimmte Integral – sprich die relevante Bewertungsdifferenz – dieser Funktion dar.

Zur Berechnung des Integrals werden die Stammfunktionen der Bewertungs-Relevanz-Funktionen benötigt. Sie lauten:

1. positiver und negativer Sektor:

y Int = x x | x | 4 e =0.75 y_"Int" = x-{x cdot lline x rline}over {4 cdot e_"=0.75"} quadratische Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
 


2. positiver und negativer Sektor:

y Int = x ( 4 e =0.75 r >0.75 2 | x | r >0.75 2 e >0.75 + | x | ) 4 ( e >0.75 e =0.75 ) y_"Int" = -{x cdot left (4 cdot e_"=0.75" cdot r_">0.75" - 2 cdot lline x rline cdot r_">0.75" - 2 cdot e_">0.75" + lline x rline right ) over {4 cdot left (e_">0.75" - e_"=0.75" right)}} quadratische Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75 oder e=0.75 ≤ x ≤ e>0.75}
 


3. positiver Sektor:

y Int = e >0.75 r >0.75 x e >0.75 ln ( r >0.75 ) y_"Int" = e_">0.75" cdot {r_">0.75"}^{x over e_">0.75"} over {ln(r_">0.75")} Exponentialgleichung mit 𝔻 {x | e>0.75 ≤ x < ∞}
 


3. negativer Sektor:

y Int = e >0.75 r >0.75 x e >0.75 ln ( r >0.75 ) y_"Int" = -{e_">0.75" over {{r_">0.75"}^{x over e_">0.75"} cdot ln(r_">0.75")}} Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75}
 


Zu beachten ist bei obigen Gleichungen, dass das Computerprogramm Maxima statt der üblichen Schreibweise ln(x) für den natürlichen Logarithmus die Schreibweise log(x) verwendet. Übrigens auch Javascript („Math.log()“). Sollte man also die obigen Gleichungen mit „ln“ in derartigen Programmen verwenden, wäre „ln“ durch „log“ zu ersetzen.

Wer mit dem obigen interaktiven Formular experimentiert, wird bald feststellen, dass sich bei extremen Bewertungen die relevante Bewertungsdifferenz kaum mehr ändert, wenn diese Bewertungen noch extremer eingegeben werden. Beispiel für Weiß:
hohe Bewertung = 15
suboptimale Bewertung = 0
e=0.75 = 2
e>0.75 = 3
probabilistisches Partieresultat bei e>0.75 = 0,85 (entspricht einem r>0.75 = 0,3)
Resultat der relevanten Bewertungsdifferenz = 2,64

Erhöht man die hohe Bewertung auf 18, beträgt die relevante Bewertungsdifferenz 2,65. Und eine hohe Bewertung von 1000 führt wiederum zu einer relevanten Bewertungsdifferenz von 2,65. Die gleichen Resultate ergeben sich, wenn die suboptimale Bewertung -15, -18 oder -1000 und die hohe Bewertung 0 beträgt.

Die relevanten Bewertungsdifferenzen werden im Formular auf 2 Dezimalstellen auf- oder abgerundet. Wenn man nun diejenige hohe oder suboptimale Bewertung (künftig „Irrelevanz-Start-Bewertung“ genannt) berechnen möchte, ab der jede weitere Erhöhung bzw. Reduzierung bis ins Unendliche maximal mit 50-prozentiger Wahrscheinlichkeit irgendwann einmal zu einer Erhöhung der relevanten Bewertungsdifferenz (mit 2 Dezimalstellen) um 0,01 führen wird, benötigt man folgende Formel:

e >0.75 r >0.75 Irrelevanz-Start-Bewertung e >0.75 ln ( r >0.75 ) = 0,005 -{e_">0.75" cdot {r_">0.75"}^{"Irrelevanz-Start-Bewertung" over e_">0.75"} over {ln(r_">0.75")}} = 0,005


aufgelöst nach Irrelevanz-Start-Bewertung und unter Berücksichtigung hoher und suboptimaler Resultate („±“):

Irrelevanz-Start-Bewertung = ± e >0.75 ln ( ln ( r >0.75 ) 200 e >0.75 ) ln ( r >0.75 ) "Irrelevanz-Start-Bewertung" = +- {{e_">0.75" cdot ln left (-{{ln(r_">0.75")} over {200 cdot e_">0.75"}} right)} over {ln(r_">0.75")}}


Das Resultat mit den obigen Parametern beträgt ±15,477.

Die Formel zeigt, dass die Irrelevanz-Start-Bewertung von der 2. Bewertung (im obigen Fall 0) sowie von e=0.75 (im obigen Fall 2) unabhängig ist.

Diese Formel gilt im Normalfall der Lokalisation der Irrelevanz-Start-Bewertung im 3. positiven und negativen Sektor. Bei ungewöhnlichen Werten von e>0.75 und r>0.75 rutscht die Irrelevanz-Start-Bewertung in den 2. positiven und negativen Sektor, sodass weit kompliziertere Formeln benötigt werden. Dies passiert, wenn gilt:

e >0.75 < 0,005 ln ( r >0.75 ) r >0.75 e_">0.75" < -{{0,005 cdot ln(r_">0.75")} over r_">0.75"}


Zum Beispiel, wenn e>0.75 < 0,978 und das probabilistische Partieresultat bei e>0.75 = 0,99. Oder wenn e>0.75 < 0,0277 und das probabilistische Partieresultat bei e>0.75 = 0,875. Höchst unrealistisch!

Realisiert sind die Bewertungs-Relevanz-Reduktion und all die in diesem Artikel erwähnten Schmankerl (automatische Zug- und Stellungsbewertungssymbole sowie die probabilistischen Partieresultate)
im Programm ScpcPGN, kostenlos erhältlich auf dieser Webseite
und im Programm AquaPGN (neuestes Update 12. August 2020), kostenlos erhältlich auf dieser Webseite.

Probabilistische Partieresultate


Warum ist die Rede von „probabilistischen“ Partieresultaten? Weil sie abgeleitet werden aus einer Enginebewertung sowie weiteren Parametern und damit eine stochastische Aussage über den mutmaßlichen durchschnittlichen Partieausgang beinhalten. Anders verhielt es sich im Rahmen der Besprechung der TCEC-Resultate, bei denen nur von den „durchschnittlichen“ Partieresultaten die Rede war, weil dort Partiematerial vorlag, anhand dessen faktische durchschnittliche Partieresultate berechnet werden konnten.

Das probabilistische Partieresultat wird hier immer aus der Sicht von Weiß dargestellt. Wenn Weiß gewinnt lautet das Resultat 1-0, umgekehrt 0-1 und bei Remis ½-½. Nimmt man jeweils die führende Zahl, hat man das hier verwendete probabilistisches Partieresultat.

Es lässt sich unmittelbar aus der Bewertungs-Relevanz ableiten:

bei positiven Bewertungen:

probabilistisches Partieresultat = 1 Bewertungs-Relevanz 2 probabilistisches Partieresultat = 1 - "Bewertungs-Relevanz" over 2


bei negativen Bewertungen:

probabilistisches Partieresultat = Bewertungs-Relevanz 2 probabilistisches Partieresultat = {"Bewertungs-Relevanz"} over 2


Eine Enginebewertung von exakt 0,00 hat bei einer Bewertungs-Relevanz von 1,00 ein probabilistisches Partieresultat von 0,50, also ein mutmaßliches Remis zur Folge. Ein probabilistisches Partieresultat von annähernd 1,00 wäre ein fast sicherer Gewinn für Weiß, ein solches von annähernd 0,00 ein fast sicherer Gewinn für Schwarz. 1,00 und 0,00 werden mathematisch niemals exakt erreicht. Und eine Enginebewertung von genau e=0.75 führt zum Resultat 0,75, also einem Wert, der exakt zwischen Gewinn für Weiß und Remis liegt. Die Resultate sind somit besser interpretierbar aus der Sicht von Weiß.

Klarstellung: das probabilistische Partieresultat ist keineswegs mit einer Gewinnwahrscheinlichkeit gleichzusetzen.

Diesen Fehler machen viele. So schafft es das Programm Nibbler, das – in Wirklichkeit – probabilistische Partieresultat mit der „Winrate“ (Gewinnquote) zu verwechseln, obwohl etwa in der Ausgangsstellung nach 1. e4 diese „Winrate“ 50 % überschreitet, während die tatsächliche Gewinnquote im Rahmen der „WDL“-Anzeige nur bei bescheidenen 15 % liegt. Fällt dem Programmautor aber anscheinend nicht auf.

Es gilt lapidar:

Gewinnwahrscheinlichkeit = probabilistisches Partieresultat Remiswahrscheinlichkeit 2 Gewinnwahrscheinlichkeit = probabilistisches Partieresultat - Remiswahrscheinlichkeit over 2


Um der Chronistenpflicht nachzukommen auch noch die Partieresultat-Gleichungen:

1. positiver und negativer Sektor:

y pPr = 1 2 + x 4 e =0.75 y_pPr = 1 over 2 + x over {4 cdot e_"=0.75"} lineare Gleichung mit 𝔻 {x | -e=0.75 ≤ x ≤ e=0.75}
 


2. positiver Sektor:

y pPr = 2 e =0.75 r >0.75 2 x r >0.75 + 3 e >0.75 4 e =0.75 + x 4 ( e >0.75 e =0.75 ) y_pPr = {2 cdot e_"=0.75" cdot r_">0.75" -2 cdot x cdot r_">0.75" + 3 cdot e_">0.75" - 4 cdot e_"=0.75" + x} over {4 cdot (e_">0.75" - e_"=0.75")} lineare Gleichung mit 𝔻 {x | e=0.75 ≤ x ≤ e>0.75}
 


2. negativer Sektor:

y pPr = 2 e =0.75 r >0.75 + 2 x r >0.75 e >0.75 x 4 ( e >0.75 e =0.75 ) y_pPr = -{{2 cdot e_"=0.75" cdot r_">0.75" +2 cdot x cdot r_">0.75" - e_">0.75" - x} over {4 cdot (e_">0.75" - e_"=0.75")}} lineare Gleichung mit 𝔻 {x | -e>0.75 ≤ x ≤ -e=0.75}
 


3. positiver Sektor:

y pPr = r >0.75 x e >0.75 2 2 y_pPr = -{{{r_">0.75"}^ {x over e_">0.75"} -2} over 2} Exponentialgleichung mit 𝔻 {x | e>0.75 ≤ x < ∞}
 


3. negativer Sektor:

y pPr = 1 2 r >0.75 x e >0.75 y_pPr = 1 over {2 cdot {r_">0.75"}^{x over e_">0.75"}} Exponentialgleichung mit 𝔻 {x | -∞ < x ≤ -e>0.75}
 


Selbstredend finden sich die probabilistischen Partieresultate auch im interaktiven Formular.

Wie man es allerdings nicht machen sollte:

Sune Fischer und Pradu Kannan haben im Artikel „Pawn Advantage, Win Percentage, and Elo“ („Bauernvorteil, Gewinnprozentsatz und Elo“) die mathematische Relation zwischen „winning probability W and the pawn advantage P“ („Gewinnwahrscheinlichkeit W und Bauernvorteil P“) untersucht. Ob mit „winning probability“ wirklich die echte (niedrigere) Gewinnwahrscheinlichkeit oder vielleicht nur das (höhere, da Remisen berücksichtigende) probabilistische Partieresultat gemeint ist, ist aus dem Artikel an anderer Stelle zu erschließen:

„When applying the condition that the win probability is 0.5 if there is no pawn advantage …“

„Bei Anwendung der Bedingung, dass die Gewinnwahrscheinlichkeit 0,5 beträgt, wenn es keinen Bauernvorteil gibt …“

Wenn „die Gewinnwahrscheinlichkeit 0,5 beträgt“ und der „Bauernvorteil“ gleich Null ist, müsste die Verlustwahrscheinlichkeit zwangsläufig ebenfalls 0,5 betragen, um die Stellung als ausgeglichen beurteilen zu können. Wo bleiben dann aber die Remisen, die sich bei einer Gewinnwahrscheinlichkeit von 50 % dieser Marke annähern sollten, bei geringer Verlustwahrscheinlichkeit?! Es scheint, die Kenntnis der Autoren vom Schachspiel ist durchaus begrenzt. Dieser Unsinn muss also dahingehend richtiggestellt werden, dass die Autoren nicht die „Gewinnwahrscheinlichkeit“, sondern das im hiesigen Artikel besprochene probabilistische Partieresultat, das Remisen und Verluste inkludiert, meinen. So geht die Rechnung auf: Ein probabilistisches Partieresultat von 0,5 ist gleichbedeutend mit einer Bewertung – oder wenn man so will, einem „Bauernvorteil“ – von 0,00.

„Data was taken from a collection of 405,460 computer games in PGN format. Whenever exactly 5 plys in a game had gone by without captures, the game result was accumulated twice in a table indexed by the material configuration. … Only data pertaining to the material configuration was taken. This was considered reasonable because the material configuration is the most important quantity that affects the result of a game.“

„Die Daten wurden einer Sammlung von 405.460 Computerspielen im PGN-Format entnommen. Wann immer genau 5 Halbzüge in einem Spiel ohne Schlagzüge verstrichen waren, wurde das Spielergebnis zweimal in einer Tabelle akkumuliert, die nach der Materialkonfiguration indexiert war. … Es wurden nur Daten genommen, die sich auf die Materialkonfiguration bezogen. Dies wurde als sinnvoll erachtet, da die Materialkonfiguration die wichtigste Größe ist, die das Ergebnis eines Spiels beeinflusst.“

Ob mit „Materialkonfiguration“ die Materialbilanz als Differenz der beiderseitigen Figurenwerte gemeint ist, ist zu vermuten, weil es an anderer Stelle heißt:

„For each material configuration, a pawn value was computed using conventional pawn-normalized material ratios that are close to those used in strong chess programs (P=1, N=4, B=4.1, R=6, Q=12).“

„Für jede Materialkonfiguration wurde ein Bauernwert unter Verwendung konventioneller bauernnormalisierter Materialkennzahlen berechnet, die den in starken Schachprogrammen verwendeten nahe kommen (B=1, S=4, L=4,1, T=6, D=12).“

Abgesehen davon, dass diese Figurenwerte recht großzügig bemessen erscheinen, ist die Materialbilanz verglichen mit den Bewertungen von Schachengines, die auf wesentlich diffizileren Kriterien und nicht zuletzt auf beträchtlichen Suchtiefen gründen, höchst grobschlächtig. Aber all dies wäre noch zu verkraften, wäre die von den Autoren vorgestellte Relation zwischen Gewinnwahrscheinlichkeit und Figurenbilanz stringent. Indes taucht in ihrer ultimativen Formel ein ominöser Parameter „K“ auf:

W = 1 1 + 10 P K bzw. y pPr = 1 1 + 10 x K W = 1 over {1 + 10^{-P over K}} ~ "bzw." ~ y_pPr = 1 over {1 + 10^{-x over K}}


Und diesen Parameter „K“ schätzen sie auf „4“ – Pi mal Daumen.

Löst man diese Formel nach K auf, erhält man:

K = ln ( 10 ) P ln ( W W 1 ) bzw . K = ln ( 10 ) x ln ( y pPr y pPr 1 ) K = {ln(10) cdot P} over {ln(-{W over {W - 1}})} ~ bzw. ~ K = {ln(10) cdot x} over {ln(-{y_pPr over {y_pPr - 1}})}


Und setzt man in diese Formel beispielsweise die oben für die Siegerengines von TCEC 17 (LCZero) und 18 (Stockfish) ermittelten Ps und Ws ein, errechnen sich höchst unterschiedliche Ks zwischen 1,7 und 3,2.

Umgekehrt würde ein K von satten 4 etwa bei einem probabilistischen Partieresultat von 0,75 auf eine Bewertung von 1,91 hinauslaufen, ein laut obiger Tabellenwerte wenig realistisches Ergebnis. Bestätigt wird diese Einschätzung durch folgenden Test: Man ermittle im Rahmen der Stockfish-WDL-Kalkulation die Bewertungen für verschiedene Halbzüge jeweils bei einem probabilistischen Partieresultat von 0,75. Man erhält
im Halbzug 1 eine Bewertung von 1,50,
im Halbzug 10 eine Bewertung von 1,40,
im Halbzug 100 eine Bewertung von 1,15
und niemals eine Bewertung von 1,91.

Umgekehrt würde ein K von satten 4 etwa bei einem probabilistischen Partieresultat von 0,75 auf eine Bewertung von 1,91 hinauslaufen, ein laut obiger Tabellenwerte wenig realistisches Ergebnis. Offensichtlich erweist es sich als illusorisch, die gesuchte Relation mathematisch in eine einzige Sigmoid-Funktion mit nur einem Parameter („K“) zwängen zu wollen. Das eingangs dieses Artikels vorgestellte Formular „Interaktive Bewertungs-Relevanz-Reduktion“ arbeitet hingegen zur Berechnung der probabilistischen Partieresultate bei der Anwender-BRR mit insgesamt 5 Formeln sowie 3 Parametern und bei der Stockfish-WDL mit sehr genauen Gewinn-, Remis- und Verlustwahrscheinlichkeiten. Präzision anstatt Simplifikation!

Konkretisierung der Zugbewertungssektoren


Es mag abgeschmackt erscheinen, diese Zugbewertungssymbole im Folgenden quasi automatisiert aus Enginebewertungen abzuleiten, da sie häufig anhand eines tieferen Verständnisses der Stellung gewählt werden und sich nicht an Enginebewertungen orientieren. Beispiel: In einer Stellung gibt es ganz offensichtlich nur einen einzigen vernünftigen Zug, den jedes Kind zu finden vermag, alle anderen Züge wären miserabel. Diesem einen Zug nun das Qualitätsmerkmal „‼“ zu attestieren, wäre mehr als dämlich. Oder etwas subtiler: In verlorener Position stellt ein objektiv schwacher, also theoretisch widerlegbarer Zug eine Falle, die die Chance zur Wiederbelebung birgt. Ein typischer „interessanter Zug (!?) – NAG $5“, der vielleicht nicht mit „?“ oder dergleichen charakterisiert werden sollte. Gleichwohl kann es durchaus in vielen Fällen sinnvoll sein, aus einem Vergleich der Enginebewertungen für zwei alternative Züge derartige Zugbewertungssymbole zu bestimmen, vor allem dann, wenn keine Gelegenheit besteht, eine Stellung genauer unter die Lupe zu nehmen, etwa bei automatischen Partieanalysen.

Der Intention von Großmeister Robert Hübner kann auf diese Weise nicht gefolgt werden. In der englischsprachigen Wikipedia wird er wie folgt zitiert:

„German grandmaster Robert Hübner prefers an even more specific and restrained use of move evaluation symbols: ‚I have attached question marks to the moves which change a winning position into a drawn game, or a drawn position into a losing one, according to my judgment; a move which changes a winning game into a losing one deserves two question marks ...‘“

Unbestimmte Einschätzungen wie „winning position“, „drawn game“, „drawn position“ oder „losing one“ werden durch die Ergänzung „according to my judgment“ nicht programmtauglicher.

Ausgangspunkt für die Bestimmung des Zugbewertungssymbols ist einmal natürlich der reale ausgeführte Zug, zum anderen bei schlechten Zügen der beste Alternativzug, bei guten Zügen der zweitbeste Alternativzug. Für diese beiden Züge ist – wie oben dargelegt – die relevanzreduzierte Bewertungsdifferenz zu ermitteln und diese wiederum in das Zugbewertungssymbol zu übersetzen. Dabei wird das bestimmte Integral des gesamten Bewertungsbereichs von -∞ bis +∞ in nicht nur 6, sondern 7 oder gar 8 Sektoren gleicher Fläche unterteilt. Es gibt ja nicht nur die 6 Sektoren, für die ein Zugbewertungssymbol zu vergeben ist, sondern auch den neutralen Sektor eines Zuges, der in etwa gleichwertig mit dem besten oder zweitbesten Zug ist. Dieser neutrale Sektor geht zur Hälfte in die positive Bewertungsrichtung und zur Hälfte in die negative. Man kann nun entweder einen neutralen Sektor mit derselben Integralgröße wie die übrigen Sektoren verwenden oder einen doppelt so großen neutralen Sektor, der aus 2 Sektoren mit üblicher Integralgröße bestünde, einen für jede Bewertungsrichtung. Entweder wären es dann insgesamt 7 oder aber 8 gleiche Integralsektoren (bei letzterer Variante 2 Integralsektoren für den neutralen Sektor).

Wohlgemerkt: Wir sprechen hier von Integralsektoren bzw. ‑größen im Sinne von bestimmten Integralen, also den relevanten Bewertungsdifferenzen, nicht zu verwechseln mit den absoluten Differenzen zwischen 2 Zugbewertungen auf der x-Achse. Letztere fallen bei gegebener relevanter Bewertungsdifferenz ganz unterschiedlich aus, je nachdem, an welcher Stelle sich die Zugbewertungen auf der x-Achse befinden. Je weiter sich diese von der y-Achse, also von der Zugbewertung 0,00 entfernen, desto mehr wächst bei gegebener relevanter Bewertungsdifferenz ihre Distanz zueinander.

Mathematisch ist es sogar möglich, unter Heranziehung von e=0.75, e>0.75, r>0.75 sowie einer gegebenen Zugbewertung denjenigen Grenzwert einer neuen Zugbewertung zu berechnen, der sich im Fall eines Zuges mit irgendeinem speziellen Zugbewertungssymbol ergäbe. Schwer zu verstehen, also ein Beispiel: Gegeben ist ein fehlerhafter Zug von Weiß mit einer Bewertung von -0,30 und ein e=0.75 von 1,50, ein e>0.75 von 3,00 und ein probabilistisches Partieresultat bei e>0.75 von 0,875. Ab welcher Bewertung würde sich ein alternativer guter Zug von Weiß gegenüber diesem schwachen und zugleich nächstbesten Zug das Zugbewertungssymbol „‼“ verdienen? Je nach dem angewendeten Schema wird die Antwort zum Beispiel 1,52 oder 1,62 lauten.

Natürlich kommen solche Zugbewertungssymbole nur zum Tragen, wenn überhaupt entsprechend hohe bestimmte Integrale – pardon: relevante Bewertungsdifferenzen – zur Verfügung stehen. Ein korrekter Zug von Weiß mit einer Enginebewertung von 100,00 wird sich kaum ein „!?“, „!“ oder gar „‼“ verdienen, selbst wenn der zweitbeste Zug bei nur 10,00 liegt. Diese positive Bewertungsdifferenz ist schlicht irrelevant und daher wird sie mit einer relevanten Bewertungsdifferenz von annähernd 0,00 quittiert. Eine gewonnene Stellung ist zumeist mit den zweitbesten Zügen nicht mehr zu verderben. Das ist eben der Effekt der Bewertungs-Relevanz-Reduktion.

Wie groß sollen nun diese relevanten Bewertungsdifferenzen für die Zugbewertungssymbole ausfallen? Man könnte – eventuell mit Ausnahme des neutralen Sektors – die gesamte Integralfläche in gleiche Teile partitionieren oder die Unterteilung danach ausrichten, dass etwa ein brillanter Zug bereits zu konstatieren ist, wenn er die Gewinn-Remis-Balance überschreitet und der nächstbeste Zug mit der Bewertung 0,00 Vorlieb nehmen muss. Die erste Alternative geht mit den Zugbewertungssymbolen eher sparsam um, die zweite ist generöser.

Extensives Zugbewertungssymbol-Schema
1/7 1/7 1/7 1/14 1/14 1/7 1/7 1/7:


Hier beträgt die relevante Bewertungsdifferenz zwischen der Ausgangsbewertung und dem Grenzwert für das Erreichen des Zugbewertungssymbols:

brillanter Zug (‼) – 1/14 + 1/7 + 1/7 = 5/14 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
beeindruckender Zug (!) – 1/14 + 1/7 = 3/14 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
ansprechender Zug (!?) – 1/14 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
fragwürdiger Zug (?!) – 1/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung,
schwacher Zug (?) – 1/14 + 1/7 = 3/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung und miserabler Zug (??) – 1/14 + 1/7 + 1/7 = 5/14 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung.

Daraus lassen sich nun für Weiß und Schwarz die Grenzwerte der Zugbewertungen errechnen mit Formeln, die hier nicht wiedergegeben werden, jedoch in einem Browser-Inspektor per Javascript-Code zur Verfügung stehen.

Generell werden hier Zugbewertungssymbole generöser vergeben, als im nachfolgenden Schema „1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8“.

Restriktives Zugbewertungssymbol-Schema
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8:


Hier beträgt die relevante Bewertungsdifferenz zwischen der Ausgangsbewertung und dem Grenzwert für das Erreichen des Zugbewertungssymbols:

brillanter Zug (‼) – 1/8 + 1/8 + 1/8 = 3/8 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
beeindruckender Zug (!) – 1/8 + 1/8 = 1/4 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
ansprechender Zug (!?) – 1/8 des Gesamtintegrals in Richtung auf eine bessere Bewertung,
fragwürdiger Zug (?!) – 1/8 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung,
schwacher Zug (?) – 1/8 + 1/8 = 1/4 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung und
miserabler Zug (??) – 1/8 + 1/8 + 1/8 = 3/8 des Gesamtintegrals in Richtung auf eine suboptimale Bewertung.

Generell werden hier Zugbewertungssymbole weniger generös vergeben, als im vorhergehenden Schema „1/7 1/7 1/7 1/14 1/14 1/7 1/7 1/7“.
Im interaktiven Formular werden die Grenzwerte zwischen den Symbolen in beiden Schema-Tabellen aufgeführt, sofern es die Algebra hergibt, sofern also der nach der Ausgangsbewertung noch verbleibende Spielraum an relevanter Bewertungsdifferenz eine Prämierung erlaubt. Falls nicht, wird die Zeichenfolge „-----“ ausgegeben.

Optimumquote:

In den Resultaten unter dem Formular „Interaktive Bewertungs-Relevanz-Reduktion“ findet sich auch die „Optimumquote der suboptimalen Zugbewertung“. Diese beinhaltet den präzisen numerischen Ausdruck für das Zugbewertungssymbol der suboptimalen Zugbewertung (Nichts, ?!, ?, ??).

Sie errechnet sich wie folgt:

1 – (relevante Bewertungsdifferenz / Gesamtintegral)

Das Gesamtintegral ist das bestimmte Integral über die gesamte x-Achse mit den Bewertungen von -∞ bis +∞.

Die Optimumquote liegt also regelmäßig unter 100 % und erreicht nur ausnahmsweise bei 2 Zugbewertungen ohne relevante Bewertungsdifferenz das Optimum von 100 %.

Konkretisierung der Stellungsbewertungssektoren


Mit den erarbeiteten mathematischen Grundlagen lassen sich nun die eingangs des Artikels angeführten 9 Bewertungssektoren näher beschreiben. Jeweils 4 Bewertungssektoren liegen im positiven und negativen Bereich. Die ausgeglichene Stellung gilt bei minimalen Vorteilen für Weiß und Schwarz um den Wert Null herum. Der Sektor des minimalen Vorteils jeweils für Weiß oder Schwarz beträgt 50 % des gesamten ausgeglichenen Sektors.

9 Stellungsbewertungssektoren mit Grenzwert-Justierung an den probabilistischen Partieresultaten:

Hier erfolgt eine Annahme, die zwar nicht zwingend, jedoch sehr plausibel ist: Das Ende des Sektors „moderater Vorteil für Weiß“ und der Beginn des Sektors „klarer Vorteil für Weiß“ sollte exakt mit der Bewertung e=0.75 zusammenfallen, für die das probabilistisches Partieresultat 0.75 beträgt. Umgekehrt für Schwarz: Das Ende des Sektors „moderater Vorteil für Schwarz“ und der Beginn des Sektors „klarer Vorteil für Schwarz“ sollte exakt mit der Bewertung -e=0.75 zusammenfallen, für die die das probabilistische Partieresultat aus Sicht von Weiß 0.25 beträgt. Mit dieser Grundannahme geht einher, dass leichter oder moderater Vorteil probabilistisch für eine Tendenz zum Remis und klarer oder extremer Vorteil probabilistisch für eine Tendenz zum Gewinn steht.

Weitere Annahme: Das Ende des Sektors „klarer Vorteil für Weiß“ und der Beginn des Sektors „extremer Vorteil für Weiß“ sollte exakt mit der Bewertung e>0.75 zusammenfallen. Umgekehrt für Schwarz: Das Ende des Sektors „klarer Vorteil für Schwarz“ und der Beginn des Sektors „extremer Vorteil für Schwarz“ sollte exakt mit der Bewertung -e>0.75 zusammenfallen.

Es wäre wohl zweckmäßig, bei Verwendung dieses Schemas das probabilistische Partieresultat bei e>0.75 auf 0,875 zu justieren, um so exakt in der Mitte zwischen 0.75 und 1.00 zu liegen.

Nun wieder etwas Mathematik:

Die Aufgabe besteht nun darin, diese einzelnen Vorteilssektoren zu quantifizieren. Würde man etwa einen Weiß-Zug mit einem überwältigenden Vorteil von 100,00 vergleichen mit einem Patzerzug, der zum Remis (0,00) führt, wäre die absolute Bewertungsdifferenz 100,00, die relevante Bewertungsdifferenz jedoch nur das praktisch komplette bestimmte Integral aller 3 Funktionen im ausschließlich positiven Bereich der x-Achse (welches wiederum identisch ist mit dem bestimmten Integral im ausschließlich negativen Bereich der x-Achse).

Die mathematische Formel für das komplette Integral von -∞ bis +∞ lautet übrigens:

2 e >0.75 r >0.75 ln ( r >0.75 ) 2 e =0.75 r >0.75 ln ( r >0.75 ) + e >0.75 ln ( r >0.75 ) + 2 e =0.75 ln ( r >0.75 ) 4 e >0.75 r >0.75 2 ln ( r >0.75 ) {2 cdot e_">0.75" cdot r_">0.75" cdot ln(r_">0.75")- 2 cdot e_"=0.75" cdot r_">0.75" cdot ln(r_">0.75") + e_">0.75" cdot ln(r_">0.75") + 2 cdot e_"=0.75" cdot ln(r_">0.75") - 4 cdot e_">0.75" cdot r_">0.75"} over {2 cdot ln(r_">0.75")}


Nächstes Gedankenexperiment: Würde man jetzt einen Weiß-Zug mit einem Vorteil von e=0.75 exakt an der Grenze zwischen moderatem und klarem Vorteil vergleichen mit einem Patzerzug, der zum Remis (0,00) führt, wäre die absolute Bewertungsdifferenz e=0.75, die relevante Bewertungsdifferenz jedoch nur das komplette bestimmte Integral im 1. positiven Sektor der x-Achse. Als mathematische Formel: 0,75 * e=0.75.

Wenn man sich nun daranmacht, die bestimmten Integrale zwischen x = 0 und Beginn des leichten Vorteils, zwischen Letzterem und Beginn des moderaten Vorteils und wiederum zwischen Letzterem und Beginn des klaren Vorteils jeweils für Weiß/Schwarz zu quantifizieren, müsste man den Integralwert von 0,75 * e=0.75 in 3 Sektoren unterteilen:

20 % = 0,15 * e=0.75 für den Sektor ausgeglichene Stellung ab 0,00,
40 % = 0,30 * e=0.75 für den Sektor leichter Vorteil für Weiß/Schwarz und
40 % = 0,30 * e=0.75 für den Sektor moderater Vorteil für Weiß/Schwarz.

Daraus lassen sich nun für Weiß und Schwarz die Grenzwerte der Stellungsbewertungen errechnen mit Formeln, die hier nicht wiedergegeben werden, jedoch in einem Browser-Inspektor per Javascript-Code zur Verfügung stehen.

7 Stellungsbewertungssektoren mit Grenzwert-Justierung an den probabilistischen Partieresultaten:

„Extremer Vorteil für Weiß (+--) oder Schwarz (-++) – NAG $20/$21“ mag nicht jedermanns Sache sein. Für diese Zeitgenossen nun eine Wiederholung des vorherigen Vorschlags, diesmal aber mit nur 7 Bewertungssektoren ohne Extremes.

Hier fällt nun das Ende des Sektors „leichter Vorteil für Weiß“ und der Beginn des Sektors „moderater Vorteil für Weiß“ exakt mit e=0.75, für das das probabilistische Partieresultat 0,75 beträgt, und das Ende des Sektors „moderater Vorteil für Weiß“ und der Beginn des Sektors „klarer Vorteil für Weiß“ exakt mit e>0.75 zusammen. Umgekehrt für Schwarz: Das Ende des Sektors „leichter Vorteil für Schwarz“ und der Beginn des Sektors „moderater Vorteil für Schwarz“ fällt exakt mit der Bewertung -e=0.75 zusammen, für das das probabilistische Partieresultat aus Sicht von Weiß 0,25 beträgt, und das Ende des Sektors „moderater Vorteil für Schwarz“ und der Beginn des Sektors „klarer Vorteil für Schwarz“ fällt exakt mit der Bewertung -e>0.75 zusammen. Mit dieser Grundannahme geht einher, dass leichter oder moderater Vorteil probabilistisch für eine Tendenz zum Remis und klarer Vorteil probabilistisch für eine Tendenz zum Gewinn steht.

Es wäre wohl wiederum zweckmäßig, bei Verwendung dieses Schemas das probabilistische Partieresultat bei >0.75 auf 0,875 zu justieren, um so exakt in der Mitte zwischen 0,75 und 1,00 zu liegen.

Wenn man sich hier daranmacht, die bestimmten Integrale zwischen x = 0 und Beginn des leichten Vorteils sowie zwischen Letzterem und Beginn des moderaten Vorteils jeweils für Weiß/Schwarz zu quantifizieren, müsste man den Integralwert von 0,75 * e=0.75 in 2 Sektoren unterteilen:

1/3 = 0,25 * e=0.75 für den Sektor ausgeglichene Stellung ab 0,00 und
2/3 = 0,50 * e=0.75 für den Sektor leichter Vorteil für Weiß/Schwarz.

9 Stellungsbewertungssektoren mit Grenzwert-Justierung an identischen Bewertungssektoren
1/9 1/9 1/9 1/9 1/18 1/18 1/9 1/9 1/9 1/9 des Gesamtintegrals:


Sollte man die obige Leitlinie der Grenzwert-Justierung an probabilistischen Partieresultaten verwerfen und wiederum 4,5 positive bzw. negative Stellungsbewertungssektoren diesmal jedoch gleicher Quantität präferieren, würden die Bewertungssektoren als Anteile des Gesamtintegrals wie folgt ausfallen:

1/18 für den Sektor ausgeglichene Stellung ab 0,00,
1/9 für den Sektor leichter Vorteil für Weiß/Schwarz,
1/9 für den Sektor moderater Vorteil für Weiß/Schwarz,
1/9 für den Sektor klarer Vorteil für Weiß/Schwarz und
1/9 für den Sektor extremer Vorteil für Weiß/Schwarz.

7 Stellungsbewertungssektoren mit Grenzwert-Justierung an identischen Bewertungssektoren
1/7 1/7 1/7 1/14 1/14 1/7 1/7 1/7 des Gesamtintegrals:


Sollte man die obige Leitlinie der Grenzwert-Justierung an probabilistischen Partieresultaten verwerfen und auch kein Freund von 4,5 positiven bzw. negativen Stellungsbewertungssektoren mit Extrema sein, verbleibt dieses Schema mit Sektoren gleicher Quantität:

1/14 für den Sektor ausgeglichene Stellung ab 0,00,
1/7 für den Sektor leichter Vorteil für Weiß/Schwarz,
1/7 für den Sektor moderater Vorteil für Weiß/Schwarz und
1/7 für den Sektor klarer Vorteil für Weiß/Schwarz.

Im interaktiven Formular werden die Stellungsbewertungssymbole und die Grenzwerte zwischen den Symbolen aufgeführt, letztere jeweils in einer eigenen Zeile für jedes der 4 Schemata.

Am Rande noch ein Tipp: Sofern der geneigte Leser die Stellungsbewertungssymbole zu verwenden trachten, ihrer indes nicht habhaft werden sollte, könnte folgender Link auf den AqChessUnicode-Font hilfreich sein. Dieser liegt übrigens auch der Schach-GUI Aquarium bei.

Und wer nicht abgeneigt wäre, diese Schachsonderzeichen zwecks Kommentierung in Texten direkt mit der Tastatur einzugeben und ein Windows-Betriebssystem sein Eigen nennt, mag sich über das „Tastaturlayout zur Schachkommentierung mit Sonderzeichen in Windows-Programmen per AutoHotkey-Skript“ kundig machen.

Der Faktor Mensch


Eine Bewertung mit einem durchschnittlichem Partieresultat von 0,75 in Höhe von circa 1,50 gilt für weitgehend optimales Schachspiel, wie es die besten Schachengines in Partien mit ihresgleichen heutzutage praktizieren, nicht jedoch zwangsläufig auch für Schachspieler, nicht einmal für Großmeister, die auch viel zu häufig Bockmist spielen und daher theoretisch mit einem deutlich höheren e=0.75 Vorlieb nehmen sollten. Grund dafür wäre ihre Fehlerneigung, die sie bereits gewonnen geglaubte Partien noch remisieren oder gar verlustig gehen lassen. Ein Einwand hiergegen ist aber der Umstand, dass diese Maßzahl durch die Patzer ihrer Gegner der Gattung Homo sapiens wieder gedrückt würde, weil deren Fehlgriffe häufiger zu Siege führen, die nicht unbedingt zwangsläufig waren und für gute Schachengines solche gedrückten Stellungen eventuell noch verteidigungsfähig gewesen wären. Auf diese Weise könnten viele eigentliche Remisen mit vorübergehend hohen Bewertungen statistisch in die Anzahl der Siege eingehen, ohne das e=0.75 in die Höhe zu treiben bzw. umgekehrt es sogar zu minimieren, da ja mit jedem zusätzlichen Sieg eine niedrigere Bewertung in der Warteliste zum neuen e=0.75 aufsteigt. Insofern würde eine suboptimale Schachkunst durch das suboptimale gegnerische Spiel aufgewertet werden. Welcher Effekt für das e=0.75 nun beim Schach spielenden Homo sapiens mehr zum Tragen kommt, ist ungewiss.

Hätten Schachgroßmeister noch den Mumm, sich den besten Schachengines stellen, ließe sich ihr wahres e=0.75 womöglich auch nicht bestimmen. Denn wann würden sie in solchen Partien schon in deutlichen Vorteil kommen oder gar Gewinne davontragen? Vielleicht in extremen Vorgabepartien? Mit ihnen ließe sich austesten, wie viele Bauern dem Computergegner in der Anfangsstellung weggenommen werden müssten, um dem ungeschoren davongekommenen Meister Gewinne und Remisen in nennenswertem Umfang zuzuschanzen. Oder wie eine vorgegebene Eröffnung konstruiert werden müsste, um die Schachengine in eine fragwürdige Stellung zu entlassen. So ließe sich dann doch noch das großmeisterliche e=0.75 bestimmen. Da die zeitgenössischen Schachkoryphäen solchen Vergleichen jedoch schon seit langem mehr und mehr aus dem Wege gehen, um Blamagen zu entgehen, stellt sich eine solche Frage kaum mehr.

Da nun einmal derartiges Partiematerial aus Begegnungen zwischen Mensch und Maschine kaum zur Verfügung steht, verbleibt gegenwärtig und vermutlich auch auf ewige Zeiten nur die halbgare Möglichkeit, Partien zwischen Menschen auszuwerten. Wobei man immer im Auge behalten sollte, dass die daraus resultierenden Ergebnisse durch die zweifelhafte Spielweise des Gegners verwässert wurden. Schwamm drüber.

Gesagt, getan per Analyse von 144 Weltmeisterschaftskämpfen zwischen Karpov und Kasparov in den Jahren 1984 bis 1990. Die allerletzte Partie bleibt unberücksichtigt, da Kasparov dort bei deutlichem Vorteil mit Karpov ein Remis vereinbarte, obwohl der Gewinn – wie es im Schachslang heißt – nur eine Frage der Technik war. Ihm genügte halt ein Remis zum Gewinn des Weltmeisterschaftstitels. Alle Partien wurden von Stockfish bei kurzer Bedenkzeit mit einer Tiefe von durchschnittlich knapp über 20 Halbzügen oberflächlich analysiert.

Um es kurz zu machen: Kasparov gewann 21 Mal, Karpov 19 Mal. Die 21 bzw. 19 höchsten Bewertungen in Remispartien lagen bei Kasparov zwischen 3,67 und 1,00, bei Karpov zwischen 7,80 und 1,04. Wer mag, kann daraus eine Gewinn-Remis-Balance von mindestens 1,00 ablesen …

In 5 Partien wurde trotz einer positiven Bewertung von mindestens 1,26 die Partie noch in den Sand gesetzt. Kasparov vergeigte die 18. Partie im WM-Kampf 1986 sogar trotz eines deutlichen 3,67!

Exkurs: „Remisbreite“


Der immer wieder herumgeisternde Begriff „Remisbreite“ soll hiermit ein wenig unter die kritische Lupe genommen werden. Denn mit ihm wird ja suggeriert, dass er mit dem Bewertungssektor „ausgeglichene Stellung oder Remis (=) – NAG $10“ zusammenfallen würde. Zum Leidwesen des Lesers tritt jedoch ein reichlich verschiedenartiges Verständnis dieses Begriffs zu Tage.

1. Variante:

„Houdini beharrt auf Txc6 und gibt in Tiefe 25 eine Bewertung 0.76 + an, womit die Remisbreite vermutlich noch nicht überschritten ist.“ (Thema "Endspielkönnen gefragt" von Joe Boden Datum 2013-02-09 13:03)

„Man glaubt also bei Houdini, ein (gewonnenes) Endspiel sei noch in der Remisbreite, wenn er +0.80 anzeigt ...“ (Schachfeld).

Damit wird suggeriert, anhand einer Stellungsbewertung einer Schachengine im niedrigen Bereich ließe sich eine Aussage über den Remisausgang der Partie treffen. Nun fängt ja jeder Partiegewinn mal klein an, nämlich mit einem minimalen Vorteil, selbst vielleicht schon nach dem ersten Zug. Und wenn man dann nach einer solchermaßen gewonnenen Partie die Schachengine auf die ersten Züge ansetzt und sich von ihr überzeugen lässt, dass die Partie keineswegs mit einem Anzugsvorteil von deutlich mehr als +0,80 startete, wird man vielleicht ins Grübeln kommen. Und der Konter per späterer Fehlzüge, die das Desaster ausgelöst haben sollen, verfängt da wenig, wenn der Patzer z. B. Stockfish heißt und eine ELO von annähernd 3500 hat. Man führe sich die TCEC-Verlustpartien von Stockfish zu Gemüte. Dort wird man jede Menge von Partien finden, die für diese Engine trotz einer negativen „Remisbreite“ von circa -0,76 oder -0,80 im Desaster endeten, obwohl sie ja nicht gerade dafür bekannt ist, mit ihren Stellungen innerhalb der angeblichen „Remisbreite“ fahrlässig umzugehen. Wer sonst außer Stockfish sollte in der Lage sein, solche Stellungen Remis zu halten?

2. Variante:

„Wenn während einer Partie keine Seite gewinnbringenden Vorteil hat, dann sagt man auch, „die Partie befindet sich innerhalb der Remisbreite“.“ (Wikipedia).

„Remisbreite
Spielraum für eine Stellungsbewertung, die bei bestem Spiel auf beiden Seiten letztendlich zum Remis führen wird. Im Beispiel steht Weiß schlechter, befindet sich allerdings noch in der Remisbreite, da er mit seinem König die Umwandlung des Bauern verhindern kann. Käme er aber auf die Idee 1.Kh1 zu spielen, z.B. in der Hoffnung auf 1...f2 und Patt, hätte er die Remisbreite verlassen und Schwarz könnte nun bei bestem Spiel den Sieg erzwingen, und zwar durch 1...Kg4 samt Gewinn der Opposition. Ob sich die Grundstellung des Schachspiels in der Remisbreite befindet, oder ob vielleicht Weiß den Sieg erzwingen könnte, ist zu komplex, um beantwortet werden zu können.“ (www.schwachspieler.de).

Hier wird mit „Remisbreite“ ein ominöser „Spielraum für eine Stellungsbewertung“ in Verbindung gebracht bei einem erzwungenen Remis durch bestimmte Züge bei bestem Spiel, das sich anscheinend beweisen lässt. Im Zusammenhang mit einem nachweislichen Remis jedoch das Wort „Breite“ auch nur in den Mund zu nehmen, zeugt von verquerer Logik. Remis ist 0,00, nichts anderes. In diesem Fall müsste ein Schachprogramm nicht nur eine Stellungsbewertung von 0,00, sondern auch eine oder mehrere Remisvarianten abliefern, die nach den Denkgesetzen oder nach Endspiel-Tablebases zwingend sind. Sowas geht nur in speziellen Stellungen, insbesondere in allen maximal 7-Steiner-Stellungen, die komplett ausanalysiert sind, alle anderen sind eben so komplex, dass man sich mit einer Stellungsbewertung zwischen Null und Matt begnügen muss, ohne daraus irgendwelche zwingenden Schlüsse auf den Partieausgang ziehen zu können. Und wenn ein Schachprogramm in einer wirklichen Remisstellung eine von 0,00 abweichende Larifari-Bewertung zeigen würde, hätte das Programm ein Code-Problem und würde dies nicht den alogischen Begriff „Remisbreite“ rechtfertigen.

Wäre ein Remis wie üblich nicht nachweisbar, sollte man schon gleich gar nicht mit dem Begriff „Remisbreite“ eine angebliche Kenntnis vorgaukeln, die man angesichts der Komplexität einer Schachpartie gar nicht haben kann. Dann regiert hinsichtlich aller Erwägungen über den Partieausgang nur noch die Statistik/Probabilistik (das eigentliche Thema dieses Artikels) und Eröffnungssammlungen mit Gewinn-, Remis- und Verlustquoten ein und derselben Stellung können davon ein Lied singen.

Kontakt: mail@konrod.info






 

Ende Gelände ♦ Aus die Maus ♦ Schicht im Schacht ♦ Klappe zu - Affe tot

So long ♦ See You Later, Alligator - In A While, Crocodile ♦ Over And Out