So, es gibt etwas Ärger in den sozialen Netzwerken über die Bilder, welche aus dem Video als Frame extrahiert wurden und dann von KI "nachbearbeitet". Auf dem einen Bild, was da sehr groß die Runde auf Twitter macht, fehlt der Kopf des Beamten der auf der rechten Seite neben Alex kniet.
Auch wurde das iPhone, welches Alex in seiner rechten Hand hält so schlecht nachbearbeitet, dass von MAGAs nun behauptet wird, er würde da seine Pistole halten.
Das ist faktisch falsch, es ist belegt, dass zum Zeitpunkt dieses Frames seine Waffe schon von einem Beamten aus dem Halfter gezogen wurde und dieser sich gerade entfernt. Es ist also nicht möglich, dass Alex hier in der rechten Hand seine Waffe hält.
Das originale Bild zeigt Alex wohl auch nach dem dritten Schuss, wodrauf er dann zusammenbricht.
Ich habe aus dem originalen Frame mir seine Hand als Ausschnitt genommen und zum Vergleich mal eine KI drüber gejagt, was es sein könnte, ob es ein Smartphone sein kann und wie das so aussehen würde.
Dann habe ich mal eine Gif-Animation erstellt, welches den originalen Ausschnitt und das überarbeitete Bild im Wechsel zeigt.
Ja, es ist kein Beweis, aber wenn man sich das Video Frame für Frame anschaut, dann hält Alex die ganze Zeit sein Handy in der rechten Hand. Sie verschwindet einen ganz kurzen Augenblick hinter seinem Rücken, aber auch da ist seine Waffe schon gesichert worden.
Hier mal mein Animation:

Ganz deutlich, das Bild mit dem Smartphone ist von der KI aus dem originalen Ausschnitt erstellt worden, das ist also kein "forensischer" Beleg, dass er hier sein Smartphone in der Hand hält. Es zeigt aber meiner Meinung nach schon, dass es möglich wäre, man kann so auch den Daumen auf dem originalem Frame erahnen.
Ich habe schon geschaut, es gibt sicher auch forensische Bildbearbeitung mit KI, nur nicht für lau so im Netz, die erstmal viele Bilder aus dem Video berücksichtigt und auch rückwärts rechnet. Das heißt, es wird ein komplex 3D Modell der Szene erstellt, Licht, Kamera, all diese Dinge. Dann werden Objekte simuliert, man könnte also eine Waffe in die Hand geben oder eben ein Smartphone und dann die Bilder von scharf, wieder auf unscharf rendern.
Es müsste dann etwas nahe bei dem rauskommen, wie im originalen Video. Ähnliches wird in der Astronomie gemacht um Rauschen zu entfernen, man stackt viele Bilder.
Die Idee für die Forensik ist so, man betrachtet jedes einzelne Frame also Messung, wo man bestimmte Messwerte für bestimmte Positionen bei einem Objekt hat, könnte auch ein Nummernschild sein, was auf dem Video aber auf keinen Frame auch nur irgendwie lesbar ist. Wenn man nun aber 1000 schlechte Frames nimmt, hat man einen Vorteil durch die Bewegung. Da sich das Auto bewegt, fällt das Licht des Nummernschilds in jedem Frame minimal anders auf das Pixel-Gitter des Sensors.
In Frame 1 liegt die Kante eines Buchstabens genau auf der Mitte eines Pixels.
In Frame 2 ist sie um einen Bruchteil eines Pixels verschoben.
Der Clou, durch die Akkumulation vieler Frames erhält man Informationen über "Zwischenräume", die ein einzelnes Standbild gar nicht erfassen kann.
Nun zum Ansatz: "Analysis-by-Synthesis", hier ist die Idee, alle möglichen Zeichen zu simulieren und mit dem Video abzugleichen, nennt man in der Fachwelt Analysis-by-Synthesis. Anstatt zu versuchen, das Bild "scharf zu zeichnen", fragt man: "Welches scharfe Zeichen hätte – durch diese schlechte Linse und Bewegung aufgenommen – genau diesen Pixelsalat ergeben?"
So würde die KI dabei vorgehen, erst Tracking und Stabilisierung. Zuerst muss die KI das Nummernschild über alle 1000 Frames exakt verfolgen und die perspektivische Verzerrung (Homographie) herausrechnen, sodass das Schild "flach" vor uns liegt.
Dann generative Priors, moderne KIs (wie Diffusionsmodelle oder GANs) wissen bereits, wie Nummernschilder und Buchstaben grundsätzlich aussehen. Sie raten nicht blind, sondern nutzen dieses Vorwissen.
Zum Abschluss die Optimierung, die KI erstellt einen Entwurf (z. B. ein "E"), jagt diesen durch ein mathematisches Modell, das die schlechte Kamera simuliert, und vergleicht das Ergebnis mit dem echten Video-Frame. Weicht es zu stark ab, probiert sie ein "F", ein "B" usw., bis die Übereinstimmung maximal ist.
So etwas geht natürlich nicht nur bei Nummernschildern, sondern auch mit Gesichtern und Gegenständen. Aber auch wenn ich das weiß, hab ich bisher keine KI und kein Tool gefunden, dass mir das mal eben so umsetzt.
Ich schreibe das hier aber auch, weil ich mir recht sicher bin, dass die Experten in den USA vom FBI und CSI und NSA und wie sie alle heißen, über solche Möglichkeiten verfügen.