Die Gesichtserkennung von Amazon ordnet fälschlicherweise 105 US- und britische Politiker Fahndungsfotos der Polizei zu, aber kann man den Angaben zur Genauigkeit vertrauen?
Im Juli 2018 führte die American Civil Liberties Union eine prüfen Verwendung des Gesichtserkennungstools „Rekognition“ von Amazon, um Fotos von US-Kongressmitgliedern mit Fahndungsfotos von Personen abzugleichen, die wegen eines Verbrechens verhaftet wurden. Die ACLU fand 28 falsche Übereinstimmungen, was die Mängel der Gesichtserkennungstechnologie verdeutlicht, die landesweit an Strafverfolgungsbehörden weitergegeben wird.
Ist es also besser geworden?
Laut unserem neuesten Experiment nicht viel.
Comparitech war neugierig, ob und wie schnell sich die Gesichtserkennung verbessert, und beschloss fast zwei Jahre später, eine ähnliche Studie durchzuführen. Wir haben auch britische Politiker in die Mischung aufgenommen, also insgesamt 1.959 Gesetzgeber.
Ergebnisse
Wir haben die Ergebnisse zwischen US-amerikanischen und britischen Politikern aufgeteilt. Aber bevor wir die Ergebnisse diskutieren, werfen wir zunächst einen Blick auf den Dreh- und Angelpunkt all dieser Tests: Konfidenzschwellen.
Vertrauensschwellen
Wenn Amazons Rekognition zwei Bilder vergleicht, gibt es nicht einfach eine Ja- oder Nein-Antwort zurück. Stattdessen werden die Ergebnisse als Prozentsätze angegeben. Je höher der Prozentsatz, desto sicherer ist die Erkennung, dass es sich bei den beiden Bildern um dieselbe Person handelt.
Die ACLU verwendete die Standardeinstellungen von Rekognition, die den Konfidenzschwellenwert auf 80 Prozent festlegten.
Amazon wies die Ergebnisse der ACLU zurück und sagte, der Schwellenwert sei zu niedrig. Ein Amazon-Sprecher sagte GCN er sollte für Strafverfolgungszwecke auf mindestens 95 Prozent festgelegt werden, und a Blogeintrag Auf der Website von Amazon Web Services wurde angegeben, dass es 99 Prozent sein sollten. Allerdings a Bericht von Gizmodo stellte fest, dass es im Ermessen der Polizei liegt, diese Schwellenwerte festzulegen, und dass sie nicht immer die Empfehlungen von Amazon berücksichtigt.
Eine Anhebung der Konfidenzschwelle führt unweigerlich zu weniger falsch-positiven Ergebnissen (falsche Übereinstimmung zweier Fotos verschiedener Personen), aber auch zu mehr falsch-negativen Ergebnissen (fehlende Übereinstimmung zweier Fotos derselben Person). Letzteres können wir in diesem Experiment leider nicht messen. Mehr dazu später.
Wir haben sowohl die ACLU als auch Amazon um einen Kommentar gebeten und werden diesen Artikel aktualisieren, wenn wir eine entsprechende Antwort erhalten.
UNS
Der US-Datensatz bestand aus Fotos von 430 Abgeordneten und 100 Senatoren.
Bei einer Konfidenzschwelle von 80 ProzentDie Anerkennung stimmte fälschlicherweise mit dem Durchschnitt von 32 US-Kongressabgeordneten übereinzu Fahndungsfotos in der Verhaftungsdatenbank. Das sind vier mehr als beim ACLU-Experiment vor zwei Jahren.
Nach diesen Maßstäben hat sich die Gesichtserkennung von Amazon nicht verbessert und schneidet sogar schlechter ab als die Angaben der ACLU vor zwei Jahren.
Wenn wir jedoch den Schwellenwert auf das erhöhen, was Amazon für die Strafverfolgung empfiehlt,Wir haben keine falschen Übereinstimmungen mit einer Konfidenz von 95 Prozent oder mehr gefunden.Die ACLU hat im Jahr 2018 keine Ergebnisse für diesen Schwellenwert vorgelegt, sodass wir keine früheren Ergebnisse haben, mit denen wir vergleichen können.
Vereinigtes Königreich
Unser britischer Datensatz besteht aus 1.429 Politikern: 632 Parlamentsmitgliedern und 797 Mitgliedern des House of Lords. Wir haben sie mit denselben Verhaftungsfotos verglichen wie die US-Politiker.
Bei einer Konfidenzschwelle von 80 Prozent hat Rekognition durchschnittlich 73 Politiker aufgrund von Fahndungsfotos in der Verhaftungsdatenbank falsch identifiziert.
Die Rate falsch positiver Ergebnisse war bei britischen Politikern (5 Prozent) niedriger als bei US-Politikern (13 Prozent), was zumindest laut Rekognition darauf hindeuten könnte, dass britische Politiker deutlich anders aussehen als ihre US-Kollegen.
Als wir den Konfidenzschwellenwert auf 95 Prozent erhöhten, gab es keine falschen Übereinstimmungen.
Rassistische Vorurteile
Die ACLU behauptete, dass die Gesichtserkennungstechnologie von Amazon bei einer Konfidenzschwelle von 80 Prozent rassistisch voreingenommen sei und Nicht-Weiße häufiger falsch identifizierte als Weiße.
Unsere Ergebnisse stützen diesen Befund. Von den 12 Politikern, die bei einer Konfidenzschwelle von 90 Prozent oder höher fälschlicherweise identifiziert wurden, waren sechs nicht weiß (wie im Bild oben in diesem Artikel gezeigt). Das bedeutet, dass die Hälfte der fälschlicherweise identifizierten Personen farbige Menschen waren, obwohl Nicht-Weiße nur etwa ein Fünftel des US-Kongresses und ein Zehntel des britischen Parlaments ausmachen.
Methodik
Wir haben öffentlich zugängliche Fotos von 430 US-Repräsentanten, 100 US-Senatoren, 632 Mitgliedern des britischen Parlaments und 797 Mitgliedern des House of Lords verwendet.
Diese wurden mithilfe von Amazon Rekognition mit vier Sätzen von 25.000 zufällig ausgewählten Verhaftungsfotos von Jailbase.com abgeglichen. Das Experiment wurde für jeden Satz einmal wiederholt und die Ergebnisse gemittelt. Da die ACLU ihre Testdaten nicht veröffentlichte, konnten wir nicht genau dieselbe Datenbank mit Verhaftungsfotos verwenden.
In einigen Fällen wurde ein einzelner Politiker auf mehreren Fahndungsfotos mehr als einmal falsch identifiziert. Dies zählt als ein einziges falsch positives Ergebnis.
Diese Tabelle enthält alle Politiker, die eine Übereinstimmung von 70 Prozent oder mehr erreicht haben, ihre Fotos und die Zuverlässigkeit, mit der Rekognition sie erreicht hat.
Warum Sie Statistiken zur Genauigkeit der Gesichtserkennung nicht vertrauen sollten
Seien Sie immer skeptisch, wenn ein Unternehmen, das in die Gesichtserkennung investiert, Kennzahlen darüber preisgibt, wie gut es funktioniert. Die Statistiken sind oft undurchsichtig und manchmal geradezu irreführend.
Hier ist ein Beispiel dafür, wie Statistiken über die Genauigkeit der Gesichtserkennung verdreht werden können. Im Vereinigten Königreich behauptete die Met-Polizei, dass ihre Gesichtserkennungstechnologie nur in einem von 1.000 Fällen einen Fehler mache. Sie erreichten diese Zahl, indem sie die Anzahl der falschen Übereinstimmungen durch die Gesamtzahl der Personen dividierten, deren Gesichter gescannt wurden. Dadurch wird die Genauigkeitsbewertung erhöht, da echte Negative einbezogen werden – die überwiegende Mehrheit der Bilder, die überhaupt nicht übereinstimmen.
Im Gegensatz dazu stellten unabhängige Forscher der University of Essex fest, dass die Technologie erfolgreich war eine Fehlerquote von 81 Prozent indem sie die Anzahl der falschen Übereinstimmungen durch die Gesamtzahl der gemeldeten Übereinstimmungen dividierten. Der Bericht der Universität entspricht viel mehr der Art und Weise, wie die meisten Menschen die Genauigkeit vernünftigerweise beurteilen würden, indem sie echte Negative außer Acht lässt und sich auf die Rate konzentriert, mit der gemeldete Übereinstimmungen korrekt sind.
Eine spätere Bericht fanden heraus, dass die Met-Polizei in London mithilfe der Live-Gesichtserkennung die Gesichter von 8.600 Menschen ohne Zustimmung scannte. Die Ergebnisse stimmten mit den Erkenntnissen der University of Essex überein: eine richtige Übereinstimmung führte zu einer Festnahme und sieben falsch positive Ergebnisse.
Falsche Negative
Noch seltener wird über die Rate falsch-negativer Ergebnisse berichtet: zwei Bilder derselben Person, die hätten übereinstimmen sollen, dies aber nicht der Fall war. Ein hypothetisches Beispiel für diesen Fehler in der Praxis: Eine mit Gesichtserkennung ausgestattete Kamera an einem Flughafen würde keinen Alarm auslösen, wenn sie eine Person sieht, die sie hätte erkennen sollen. Eine andere Form des falschen Negativs wäre, nicht zu erkennen, dass auf einem Bild überhaupt ein Gesicht vorhanden ist.
Um die Rate falsch negativer Ergebnisse zu messen, müssten wir unsere Fahndungsfotodatenbank mit einigen echten – aber nicht identischen – Fotos der Politiker füllen. Da unser Ziel darin bestand, den ACLU-Test nachzubilden, sprengte dies den Rahmen unseres Experiments.
Anwendungsfälle aus der Praxis
Betrachten wir auch, was wir vergleichen: zwei Sätze Kopfschüsse. Eines enthält Fahndungsfotos der Polizei und das andere manipulierte Porträts, aber beide bieten klare Ansichten der Gesichter jeder Person auf Augenhöhe, mit Blick auf die Kamera.
Anwendungsfälle in der realen Welt sind ganz anders. Nehmen wir als Beispiel die Videoüberwachung. Die Polizei möchte Gesichter an einer Kreuzung scannen und sie mit einer Datenbank mit kriminellen Fahndungsfotos abgleichen. Hier sind nur einige Faktoren, die die Behauptungen darüber, wie gut die Gesichtserkennung in einer solchen realen Umgebung funktioniert, noch unklarer machen:
- Wie weit ist die Kamera vom Motiv entfernt?
- In welchem Winkel ist die Kamera auf das Motiv gerichtet?
- In welche Richtung blickt das Motiv?
- Wird das Motiv durch andere Menschen, Objekte oder das Wetter verdeckt?
- Trägt die Person Make-up, einen Hut oder eine Brille oder hat sie sich kürzlich rasiert?
- Wie gut sind Kamera und Objektiv? Ist es sauber?
- Wie schnell bewegt sich das Motiv? Sind sie verschwommen?
Alle diese und weitere Faktoren wirken sich auf die Genauigkeit und Leistung der Gesichtserkennung aus. Selbst die fortschrittlichste verfügbare Gesichtserkennungssoftware kann schlechte Bildqualität oder unscharfe Bilder nicht ausgleichen.
Zu großes Vertrauen in die Gesichtserkennung kann zu falschen Festnahmen führen. Im April 2019 beispielsweise verklagte ein Student Apple, nachdem das Unternehmen dies getan hatte Eine Gesichtserkennungssoftware brachte ihn fälschlicherweise mit Diebstählen in Verbindung in mehreren Apple Stores, was zu seiner Verhaftung führte.
Die Verwendung eines Schwellenwerts von mehr als 80 % verbessert sicherlich die Ergebnisse. Aber ob Sie mit dem Einsatz der Gesichtserkennung durch die Polizei einverstanden sind oder nicht, eines ist sicher: Sie ist nicht für den Einsatz zur Identifizierung ohne menschliche Aufsicht geeignet. Amazon erklärt in seinem Blogbeitrag: „In realen Szenarien der öffentlichen Sicherheit und Strafverfolgung wird Amazon Rekognition fast ausschließlich verwendet, um das Feld einzugrenzen und es Menschen zu ermöglichen, Optionen anhand ihres Urteilsvermögens schnell zu prüfen und zu erwägen (und nicht, um völlig autonome Entscheidungen zu treffen). ).“