Multi-Algorithmus Name Matching
Mehr als Keyword Search.
Jeder Score ist rückverfolgbar bis zum exakten Zeichenvergleich, der ihn erzeugt hat.
Beta-Version. Sanktionslisten können von den ausstellenden Behörden geändert werden.
Warum Keyword Search scheitert
Die Compliance-Lücke, die Exact Matching nicht schließen kann
Die Keyword Search liefert exakte Matchen. Sanktionslisten enthalten jedoch keine exakten Matchen. „Владимир Путин“ wird je nach Transkriptionsstandard zu „Vladimir Putin“ oder „Wladimir Putin“. „Kulazhin“ und „Kulagin“ unterscheiden sich um zwei Zeichen — und sind zwei verschiedene sanktionierte Personen.
Ein Compliance-System, das damit nicht umgehen kann, ist kein Compliance-System. Die Namen auf der Liste sind nicht unbedingt die Namen in Ihren Unterlagen. In der Lücke dazwischen findet Sanktionsumgehung statt.
Die Multi-Layer Pipeline
Jeder Vergleich durchläuft dieselbe Pipeline. Nichts wird übersprungen, nichts wird approximiert.
Eine Namensabfrage durchläuft zwölf aufeinanderfolgende Layer, jeder erfasst eine andere Klasse von Namensvariationen. Die Layer interagieren — Bonusse können einen Score nur anheben, Guards können ihn nur begrenzen — und erzeugen einen finalen Score von 0 bis 100.
Alle zwölf Layer
- Vier String-Metriken: Token Set Ratio erfasst Wortumstellungen. Partial Ratio erkennt Abkürzungen. Token Sort Ratio behandelt Umordnung von Namensbestandteilen. Character Ratio misst die Gesamt-Edit-Distanz. Jede erfasst eine andere Klasse von Namensvariationen.
- Gewichtete Kombination: Metriken kombiniert mit abgestimmten Gewichten. Wenn Query und Kandidat sich in der Länge stark unterscheiden, verschieben sich die Gewichte automatisch — das verhindert, dass ein kurzer Name als Substring eines langen künstlich hoch scored.
- Organisation Guards: Der Common-Word Guard begrenzt den Score, wenn die Überschneidung nur aus generischen Begriffen besteht (Bank, Group, Holdings, International). Der Token-Overlap Guard begrenzt den Score, wenn weniger als 40 % der Query-Wörter im Kandidaten vorkommen. Beide verhindern False Positives bei generischen Organisationsnamen.
- Teilmenge-Bonus: Wenn ein Name eine echte Teilmenge des anderen ist, wird die Score proportional zur Abdeckung erhöht. „Putin“ ⊂ „Wladimir Putin“ wird belohnt. „Bank“ ⊂ „Deutsche Bank AG“ wird nicht belohnt — es scheitert am Common-Word Guard.
- Jaro-Winkler Bonus: Belohnt gemeinsame Präfixe. Erkennt Transliterationen, die den Namensanfang bewahren. Reduziert bei Namen unter 6 Zeichen, wo Prefix Matching weniger trennscharf ist.
- Phonetischer Bonus: Belohnt Aussprache-Ähnlichkeit, die zeichenbasierte Metriken nicht erfassen. Soundex erkennt Konsonantengerüst-Äquivalenzen (Mueller und Müller werden beide zu M460). Metaphone erfasst feinere phonetische Regeln (Mohammad und Muhammad). Wird nur oberhalb eines Mindest-Basisscores angewandt, um Zufallstreffer nicht zu verstärken.
- Surname Boost: Bei Personennamen werden übereinstimmende Nachnamen und Vornamen unabhängig belohnt — denn ein Nachnamen-Match ist stärkere Evidenz als ein zufälliger String-Overlap.
- Tertiary Penalty: Wenn biografische Daten verfügbar sind, werden sie verglichen. Geburtsdatum-Mismatch reduziert den Score. Geburtsort-Mismatch reduziert den Score. Nationalitäts-Mismatch reduziert den Score. Geschlechts-Mismatch reduziert den Score bei Personenentitäten. Ein übereinstimmender Legal Entity Identifier unterdrückt alle anderen tertiären Checks — er ist definitiver Identitätsnachweis. Ein exakter Geburtsdatum-Match unterdrückt sekundäre Mismatches — er wird als Identitätsbestätigung behandelt. Maximale kombinierte Penalty: begrenzt, um Überbestrafung bei spärlichen Daten zu vermeiden.
- Identifier Match Bonus: Wenn sowohl die Abfrage als auch der Kandidat denselben Legal Entity Identifier (LEI) teilen und mindestens ein Namens-Token übereinstimmt, erhält der Score einen Hard-Positive-Boost. Dieses Identifier-Graph-Signal belohnt aktiv bestätigte Identität, anstatt lediglich Penalties zu unterdrücken.
- Short-Name Cap: Einwort-Organisationsnamen werden nach Zeichenlänge begrenzt. Ein dreistelliges Akronym kann maximal 70 scoren. Ein siebenstelliger Name maximal 95. Verhindert überhöhte Konfidenz bei Fragmenten.
- Machine Learning Override: Mehrere LightGBM-Modelle, eines pro Entity-Typ, scoren jeden Match anhand von 27 Features — darunter String-Metriken, Soundex- und Metaphone-Codes, Schrifterkennung und Legal-Suffix-Äquivalenz. Machine Learning kann einen Score nur anheben, nie senken. Das ist eine bewusste Designentscheidung: Die heuristische Pipeline ist der Floor, nicht die Ceiling.
Schwellenwerte nach Entitätstyp
Ein einziger Schwellenwert für alle Entitätstypen erzeugt Rauschen. Separate Schwellenwerte sorgen für Präzision.
Unterhalb des Schwellenwerts wird ein Ergebnis verworfen. Oberhalb des Schwellenwerts erscheint es in der Review-Pipeline. Schwellenwerte sind nicht universell — generische Organisationsnamen erfordern eine höhere Messlatte, um Störsignale zu vermeiden.
Schwellenwertbänder nach Entitätstyp
- Person/Unbekannt: Niedrigerer Schwellenwert. Namen sind je nach Transliteration und Jurisdiktion sehr unterschiedlich. Die Engine muss ein breiteres Netz auswerfen.
- Organisation/Unternehmen/Sicherheit: Höherer Schwellenwert. Generische Wortüberschneidungen sind häufig. Der Common-Word Guard und der Token-Overlap Guard reduzieren Störsignale, aber ein höherer Basis-Schwellenwert fügt eine zweite Verteidigungsebene hinzu.
- Schiff/Flugzeug: Mittlerer Schwellenwert. Namen sind oft unverwechselbar, können aber in verschiedenen Registern übersetzt oder abgekürzt werden.
Schwellenwerte sind pro Projekt konfigurierbar. Die Standardeinstellungen werden anhand der nächtlichen Selbstverifikationsergebnisse aller aktiven Quellen angepasst.
Zonenklassifizierung
Ergebnisse sortiert nach Machine-Learning-Konfidenz. Die höchsten Risiken erscheinen zuerst.
Ergebnisse oberhalb des Schwellenwerts werden nach Machine-Learning-Konfidenz in Zonen klassifiziert. Die Zonenzuweisung bestimmt die Review-Reihenfolge — nicht ob ein Ergebnis angezeigt wird.
Zonendefinitionen
- Zone A — Priorität: Hohe Machine-Learning-Konfidenz — wahrscheinlich True Positive. Zuerst reviewen. Das sind die Fälle, die zählen.
- Zone B — Review: Oberhalb des Entscheidungsschwellenwerts oder starker heuristischer Score. Manuelle Prüfung empfohlen. Machine-Learning-Konfidenz ist niedriger oder fehlt.
- Zone C — Arbeitsvorrat: Unterhalb beider Schwellenwerte. Kann mit konfigurierbarer automatischer Löschung in großen Mengen gelöscht werden, begrenzt auf 85, um ein versehentliches Löschen von echten Treffern zu verhindern.
Die heuristische Untergrenze ist ein Sicherheitsnetz. Selbst wenn das maschinelle Lernmodell unsicher ist, bleibt ein Ergebnis mit einer hohen heuristischen Bewertung in der Überprüfungswarteschlange. Machine Learning kann eine starke Namensübereinstimmung nicht unterdrücken.
Sanktionsprüfung — Für Audits konzipiert.
Der Beta-Zugang ist kostenlos und umfasst die vollständige Überprüfungsfunktionalität für alle offiziellen Quellen, den kompletten Überprüfungs-Workflow und audit-fertige Exporte.
Anmelden / Registrieren