Anmelden / Registrieren

Mehrschichtiger Namensabgleich

Mehr als Stichwortsuche.
Jede Bewertung ist rückverfolgbar bis zum exakten Zeichenvergleich, der sie erzeugt hat.

Early Access. Sanktionslisten können von den ausstellenden Behörden geändert werden.

Warum Stichwortsuche scheitert

Die Compliance-Lücke, die exakter Abgleich nicht schließen kann

Die Stichwortsuche liefert exakte Übereinstimmungen. Sanktionslisten enthalten jedoch keine exakten Übereinstimmungen. „Владимир Путин“ wird je nach Transkriptionsstandard zu „Vladimir Putin“ oder „Wladimir Putin“. „Kulazhin“ und „Kulagin“ unterscheiden sich um zwei Zeichen — und sind zwei verschiedene sanktionierte Personen.

Ein Compliance-System, das damit nicht umgehen kann, ist kein Compliance-System. Die Namen auf der Liste sind nicht unbedingt die Namen in Ihren Unterlagen. In der Lücke dazwischen findet Sanktionsumgehung statt.

Die mehrschichtige Bewertungskette

Jeder Vergleich durchläuft dieselbe Bewertungskette. Nichts wird übersprungen, nichts wird approximiert.

Eine Namensabfrage durchläuft elf aufeinanderfolgende Stufen, jede erfasst eine andere Klasse von Namensvariationen. Die Stufen interagieren — Bonusse können eine Bewertung nur anheben, Schutzregeln können sie nur begrenzen — und erzeugen eine finale Bewertung von 0 bis 100.

Alle elf Stufen
  • Vier String-Metriken: Token Set Ratio erfasst Wortumstellungen. Partial Ratio erkennt Abkürzungen. Token Sort Ratio behandelt Umordnung von Namensbestandteilen. Character Ratio misst die zeichenbasierte Gesamtähnlichkeit. Jede erfasst eine andere Klasse von Namensvariationen.
  • Gewichtete Kombination: Metriken kombiniert mit abgestimmten Gewichten. Wenn Query und Kandidat sich in der Länge stark unterscheiden, verschieben sich die Gewichte automatisch — das verhindert, dass ein kurzer Name als Teilzeichenkette eines langen künstlich hoch bewertet wird.
  • Schutzregeln für Organisationen: Die Allgemeinwort-Schutzregel begrenzt die Bewertung, wenn die Überschneidung nur aus generischen Begriffen besteht (Bank, Group, Holdings, International). Die Wortüberlappungs-Schutzregel begrenzt die Bewertung (für Organisationen und Unternehmen), wenn weniger als 40 % der Query-Wörter im Kandidaten vorkommen. Beide verhindern Fehlalarme bei generischen Organisationsnamen.
  • Teilmenge-Bonus: Wenn ein Name eine echte Teilmenge des anderen ist, wird die Bewertung proportional zur Abdeckung erhöht. „Putin“ ⊂ „Wladimir Putin“ wird belohnt. „Bank“ ⊂ „Deutsche Bank AG“ wird nicht belohnt — es scheitert an der Allgemeinwort-Schutzregel.
  • Jaro-Winkler Bonus: Belohnt gemeinsame Präfixe. Erkennt Transliterationen, die den Namensanfang bewahren. Reduziert bei Namen unter 6 Zeichen, wo Präfixvergleiche weniger trennscharf sind.
  • Phonetischer Bonus: Soundex und Metaphone erkennen Namen, die trotz unterschiedlicher Schreibweise gleich klingen. Erhöht die Bewertung um bis zu 5 Punkte. Erkennt Transliterationsvarianten, die String-Metriken allein übersehen können.
  • Nachnamen-Bonus: Bei Personennamen werden übereinstimmende Nachnamen und Vornamen unabhängig belohnt — denn eine Nachnamen-Übereinstimmung ist stärkere Evidenz als eine zufällige Zeichenkettenüberlappung.
  • Tertiäre Abzüge: Wenn biografische Daten verfügbar sind, werden sie verglichen. Abweichendes Geburtsdatum reduziert die Bewertung. Abweichender Geburtsort reduziert die Bewertung. Abweichende Nationalität reduziert die Bewertung. Abweichendes Geschlecht reduziert die Bewertung bei Personeneinträgen. Ein übereinstimmender Legal Entity Identifier (LEI) unterdrückt alle anderen tertiären Prüfungen — er ist definitiver Identitätsnachweis. Ein exakt übereinstimmendes Geburtsdatum unterdrückt sekundäre Abweichungen — es wird als Identitätsbestätigung behandelt. Maximaler kombinierter Abzug: begrenzt, um Überbestrafung bei spärlichen Daten zu vermeiden.
  • Kennungs-Übereinstimmungsbonus: Wenn sowohl die Abfrage als auch der Kandidat denselben Legal Entity Identifier (LEI) teilen und mindestens ein Namens-Token übereinstimmt, erhält die Bewertung einen deutlichen Zuschlag. Dieses Kennungssignal belohnt aktiv bestätigte Identität, anstatt lediglich Abzüge zu unterdrücken.
  • Kurznamenbegrenzung: Einwort-Organisationsnamen werden nach Zeichenlänge begrenzt. Ein dreistelliges Akronym kann maximal 70 erreichen. Ein siebenstelliger Name maximal 95. Verhindert überhöhte Konfidenz bei Fragmenten.
  • Maschinelles Lernen als Korrekturstufe: Mehrere LightGBM-Modelle, eines pro Entitätstyp, bewerten jede Übereinstimmung anhand von 27 Merkmalen — darunter Zeichenkettenmetriken, Schrifterkennung und Rechtsformäquivalenz. Maschinelles Lernen kann eine Bewertung nur anheben, nie senken. Das ist eine bewusste Designentscheidung: Die heuristische Bewertungskette ist die Untergrenze, nicht die Obergrenze.

Schwellenwerte nach Entitätstyp

Ein einziger Schwellenwert für alle Entitätstypen erzeugt Rauschen. Separate Schwellenwerte sorgen für Präzision.

Unterhalb des Schwellenwerts wird ein Ergebnis verworfen. Oberhalb des Schwellenwerts erscheint es in der Prüfkette. Schwellenwerte sind nicht universell — generische Organisationsnamen erfordern eine höhere Messlatte, um Störsignale zu vermeiden.

Schwellenwertbänder nach Entitätstyp
  • Person/Unbekannt: Niedrigerer Schwellenwert. Namen sind je nach Transliteration und Jurisdiktion sehr unterschiedlich. Die Engine muss ein breiteres Netz auswerfen.
  • Organisation/Unternehmen/Sicherheit: Höherer Schwellenwert. Generische Wortüberschneidungen sind häufig. Die Allgemeinwort-Schutzregel und die Wortüberlappungs-Schutzregel reduzieren Störsignale, aber ein höherer Basis-Schwellenwert fügt eine zweite Verteidigungsebene hinzu.
  • Schiff/Flugzeug: Mittlerer Schwellenwert. Namen sind oft unverwechselbar, können aber in verschiedenen Registern übersetzt oder abgekürzt werden.

Schwellenwerte sind pro Projekt konfigurierbar. Die Standardeinstellungen werden anhand der nächtlichen Selbstverifikationsergebnisse aller aktiven Quellen angepasst.

Zonenklassifizierung

Ergebnisse sortiert nach Konfidenz des maschinellen Lernens. Die höchsten Risiken erscheinen zuerst.

Ergebnisse oberhalb des Schwellenwerts werden nach Konfidenz des maschinellen Lernens in Zonen klassifiziert. Die Zonenzuweisung bestimmt die Prüfreihenfolge — nicht ob ein Ergebnis angezeigt wird.

Zonendefinitionen
  • Zone A — Priorität: Hohe Konfidenz des maschinellen Lernens — wahrscheinlich echter Treffer. Zuerst prüfen. Das sind die Fälle, die zählen.
  • Zone B — Prüfung: Oberhalb des Entscheidungsschwellenwerts oder starke heuristische Bewertung. Manuelle Prüfung empfohlen. Die Konfidenz des maschinellen Lernens ist niedriger oder fehlt.
  • Zone C — Arbeitsvorrat: Unterhalb beider Schwellenwerte. Kann mit konfigurierbarer automatischer Löschung in großen Mengen gelöscht werden, mit Sicherheitsschwellen bei 50 (Personen) und 72 (Organisationen), um ein versehentliches Löschen von echten Treffern zu verhindern.

Die heuristische Untergrenze ist ein Sicherheitsnetz. Selbst wenn das maschinelle Lernmodell unsicher ist, bleibt ein Ergebnis mit einer hohen heuristischen Bewertung in der Überprüfungswarteschlange. Maschinelles Lernen kann eine starke Namensübereinstimmung nicht unterdrücken.

MehrschichtigeBewertungskette
4ML-Modelle
27ML-Merkmale pro Vergleich
<50 mspro Name
Live-Abgleichsergebnisse ansehen →

Sanktionsprüfung — Für Audits konzipiert.

Der Early-Access-Zugang ist kostenlos und umfasst die vollständige Überprüfungsfunktionalität für alle offiziellen Quellen, den kompletten Überprüfungs-Workflow und audit-fertige Exporte.

Anmelden / Registrieren