Aleph Alpha GmbH

Artificial Intelligence Blog 21. Aug. 2020

Zug 37 für Kampfpiloten Move 37 for Dogfighting

Vor einem Jahr lernte KI fliegen. In Physik Simulationen und in Computerspiel-Umgebungen konnten Deep Reinforcement Learning Algorithmen (DRL) nur durch die Interaktion mit der Umgebung Navigation und Flugmanöver stabilisieren und lernten die Beherrschung von verschiedensten Flugzeug- und Hubschrauber Designs und Umgebungen. Gestern hat diese Entwicklung zu einem weiteren Meilenstein geführt: Die Dogfightiung KI von Heron gewann in den DARPA AlphaDogfight Trials gegen Banger - einen menschlichen Top-Piloten 5-0.

In der Vergangenheit haben wir Autopilot- und Assistenzsystemen beigebracht unseren Regeln und Verhaltensmustern zu folgen. das bestmögliche Ergebnis war dabei immer ein erfolgreiches Befolgen aller Spezifikationen.
Für ein autonomes Auto bedeutet das z.B. beim Wechseln der Fahrspur, dass die Entwickler ein Regel-Set aufstellen, dass so aussehe könnte:
AI learned to fly a year ago. In physics simulations and in computer game environments Deep Reinforcement Learning (DRL) algorithms could only be implemented by Interaction with the environment Navigation and flight maneuvers stabilize and learned to master various Aircraft and helicopter designs and environments. Yesterday, this development led to another milestone: Heron's Dogfightiung AI won in the DARPA AlphaDogfight Trials against Banger - a human top pilot 5-0.

In the past, we have taught autopilot and assistance systems to follow our rules and behavior patterns. the best possible result was always a successful compliance with all specifications.
For an autonomous car, for example, when changing lanes, this means that the developers set up a rule set that could look like this:

  • Prüfen der Fahrzeuge und deren Geschwindigkeit auf der Ziel-Fahrspur und Suchen nach einer Lücke mit einer vordefinierten Größe Check the vehicles and their speed on the target lane and search for a gap with a predefined size
  • Prüfen anderer möglichen Gefahreneinflüsse, z.B. nicht sichtbare Bereiche, andere Verkehrsteilnehmer Check other possible hazard influences, e.g. non-visible areas, other road users
  • Blinken und nach einer definierten Wartezeit Wechseln der Fahrspur mit definierter Geschwindigkeit Turn signal and after a defined waiting time changing lanes at a defined speed

Das besondere an Deep Reinforcement Learning ist, dass hier der KI nicht der Lösungsweg sondern nur das Ziel vorgegeben wird. Das lässt der KI viel Raum zum Lernen von innovativen Ansätzen mit dem Potential zur Überraschung selbst bei einfachen Problemen über die Menschen seit Jahrtausenden nachdenken konnten:
AlphaGo, eine DRL KI die das Spiel Go gelernt hat gewann in 2017 gegen einer der weltbesten Go Spieler Lee Sedol. Der Sieg war dabei so unerwartet und entscheidend, dass - vor allem in China - einen Sputnik-Moment ausgelöst wurde resultierend u.A. in dem 150 Mrd. "New Generation Artificial Intelligenc Development Plan" im selben Jahr.
The special thing about Deep Reinforcement Learning is that here the AI is not the solution but only the goal. This leaves the AI a lot of room to learn innovative approaches with the potential to surprise even simple problems about people since thousands of years:
AlphaGo, a DRL AI who learned the game of Go, won in 2017 against one of the world's best Go players Lee Sedol. The victory was so unexpected and decisive that - especially in China - a Sputnik-moment was triggered resulting in, among other things the 150 billion "New Generation Artificial Intelligence Development Plan" in the same year.

Jonas Andrulis


Founder & CEO
Former Apple Senior AI R&D

Dabei machte AlphaGo einige Spielzüge, die besondere Aufmerksamkeit unter Go Experten erregt haben, besonders heiß diskutiert wurde Zug 37 in Spiel 2, der „war so überraschend, dass er Hunderte von Jahren der Weisheit umwarf. Spieler aller Stufen haben diese Züge seither intensiv untersucht.“ „[Der Zug] veranlasste Sedol dazu, wegen der Eigentümlichkeit für volle 15 Minuten vom Brett zurückzutreten, und dann das Spiel zu verlieren“

Mit OpenAI Five setzt das Team dann noch einen drauf was Fähigkeiten und Komplexität angeht. 5 KIs spielen dort gemeinsam DOTA2, eines der größten e-sports Computerspiele der Welt gegen 5 Menschen. Im Gegensatz zu Go ist Teamkoordination hier essentiell, Spieler haben unvollständige Information, müssen Ressourcen verwalten und können die Karte verändern. 170.000 mögliche Aktionen werden bis zu 80.000 Schritte in die Zukunft geplant.

Nach Spiel und Niederlage gegen die KI meinte dann einer der weltbesten Spieler William Le: „Die KI hat Dinge getan, die wir noch nie jemanden haben tun sehen, und hat eine Art von Spielstil festgelegt, den wir jetzt so ziemlich nur kopieren. Wenn ich sehe, wie der Bot ein Zug macht, klickt es in meinem Kopf. Ich frage mich: ‚Warum machen wir das nicht so?‘“

Die DARPA AlphaDogfight Trials zeigen, dass diese Fähigkeiten nicht auf Brettspiele oder Computerspiele beschränkt bleiben müssen. Gestern spielte die KI noch in einer realistischen Simulation mit vollständiger Information, dabei wird es nicht bleiben.

Wir müssen uns in allen kritischen Bereichen des Lebens in die Lage versetzen Zug 37 von einer KI zu lernen zu können. Und uns darauf vorbereiten, dass unsere Gegenspieler uns ihrerseits mit überlegener Innovation überraschen werden. KI wird uns nicht nur helfen Dinge effizienter und schneller zu machen sondern überlegene Ansätze für komplexe Probleme aufzeigen, die wir uns aktuell nicht einmal vorstellen können.
AlphaGo made some moves that have attracted special attention among Go experts, especially hotly discussed was move 37 in game 2, which "was so astonishing that it knocked over hundreds of years of wisdom. Players of all levels have studied these moves in depth ever since." " [The train] prompted Sedol to take action because of the peculiarity of withdraw from the board for a full 15 minutes and then lose the game"

With OpenAI Five the team then goes one better in terms of skills and complexity. 5 KIs play DOTA2, one of the biggest e-sports computer games in the world against 5 people. In contrast to Go, team coordination is essential here, players have incomplete information, have to manage resources and can change the map. 170.000 possible actions are planned up to 80.000 steps into the future.

After the game and defeat against the AI, one of the world's best players William Le: "The AI did things that we've never seen anyone do else do, and has established a kind of playing style that we are now pretty much just copying now. When I see the bot make a move, it clicks in my head. I'm like, "Why aren't we doing this?""

The DARPA AlphaDogfight Trials show that these skills need not be limited to board games or computer games. Yesterday the AI played in a realistic simulation with complete information, it will not stay that way.

We must be able to learn move 37 from an AI in all critical areas of life. And prepare ourselves for the fact that our opponents will surprise us with superior innovation. AI will not only help us to make things faster and more efficient, but will also show us superior approaches to complex problems, that we can't even imagine right now.