Warum ist eine einheitliche Locale "deutsch" nicht ausreichend?

Nach Statistischem Bundesamt 2024 leben in Deutschland rund 26 % Menschen mit Migrationshintergrund, deren Namen sich in Schreibweise, Sortierung und Häufigkeitsverteilung deutlich von rein deutschen Namen unterscheiden. Eine Test-Suite ohne türkische, polnische oder arabische Namen verfehlt einen Großteil der Nutzerrealität.

Welche Locales sind in Deutschland am relevantesten?

Nach Anteil der ausländischen Bevölkerung: türkisch (1.5 Mio), polnisch (870 Tsd), syrisch (920 Tsd), rumänisch (900 Tsd), italienisch (660 Tsd), kroatisch (430 Tsd), russisch (260 Tsd), griechisch (350 Tsd). fake-name.de deckt aktuell die ersten beiden plus französisch, italienisch und englisch ab.

Müssen wir UTF-8 für Tests aktivieren?

UTF-8 ist seit 2010 in praktisch jeder Datenbank Default. Aber: Indizes auf Namensfeldern sind oft mit collations versehen (z.B. utf8mb4_german2_ci in MySQL), die ungewollt Akzente oder polnische Diakritika zusammenführen. Tests sollten gezielt prüfen, ob ein Index "Müller" und "Muller" als gleich oder verschieden behandelt.

Wie wichtig sind Bindestrich-Doppelnamen in Tests?

Sehr wichtig. Rund 4 % der deutschen Nachnamen sind heute Doppelnamen (Schmidt-Müller, Hoffmann-Becker). Form-Validierungen, die Bindestriche in Nachnamen-Feldern ablehnen, schließen einen substanziellen Teil der Nutzer aus.

Was muss bei türkischen Namen technisch beachtet werden?

Türkische Schreibung kennt dotted/dotless I (i/ı, İ/I), Cedille (ç), Umlaut-ü und ş. Falsches Case-Folding ("İSTANBUL" → "istanbul" statt "i̇stanbul") ist ein klassischer Bug, der in Logging, Suche und Sortierung Schaden anrichtet.

Locale-Unterschiede: deutsche, türkische, polnische und französische Namen

Was sich strukturell zwischen Locales unterscheidet

Wer “Namen testen” sagt und nur deutsche Namen einsetzt, vergibt drei strukturelle Test-Dimensionen, die in jeder Produktivumgebung auftreten.

Erstens Zeichensatz. Deutsche Namen haben ä, ö, ü, ß. Polnische Namen haben ą, ę, ł, ń, ó, ś, ź, ż. Türkische Namen haben ç, ğ, ı, ö, ş, ü und die berühmte Unterscheidung zwischen dotted i (i/İ) und dotless i (ı/I). Französische Namen haben é, è, ê, à, ç sowie Apostrophe (d’Espagnac). Italienische Namen haben Akzente in unterwarteten Positionen (Niccolò).

Zweitens Reihenfolge. In Deutschland ist die Reihenfolge Vorname Nachname, im polnischen Telefonbuch häufig Nachname Vorname (mit Komma getrennt). Bei türkischen Nachnamen kommt es vor, dass Frauen ihren Mädchennamen behalten und in Klammern führen (“Ayşe Yılmaz (Demir)”). Französische und italienische Adlige tragen Partikel (de, di, von), die je nach Sortierung mit- oder gegen-sortiert werden.

Drittens Häufigkeitsverteilung. Die deutsche Vornamen-Statistik hat einen langen Schwanz: Die häufigsten 1000 Vornamen decken 81 % der Bevölkerung ab. Bei türkischen Vornamen sind es nur 64 %, bei polnischen 71 %. Wer den Test-Datensatz aus den Top-50-Namen jeder Locale zieht, bekommt ein deutlich unrealistischeres Profil als jemand, der die Verteilung respektiert.

Deutsche Locale: was die meisten Tests übersehen

Deutsche Namen wirken einfach. Sind sie aber nicht.

Die Top-10 der deutschen Nachnamen sind seit Jahrzehnten stabil: Müller, Schmidt, Schneider, Fischer, Weber, Meyer, Wagner, Becker, Schulz, Hoffmann. Diese 10 Namen decken 4,3 % der Bevölkerung ab. Wer Test-Datensätze nur aus dieser Top-10 zieht, bekommt einen statistisch unrealistischen Cluster, und übersieht zugleich Edge-Cases bei langen oder ungewöhnlichen Namen.

Die durchschnittliche Länge eines deutschen Nachnamens ist 7,2 Zeichen. Die häufigste Länge ist 6 Zeichen (Müller, Becker, Wagner). Der längste in den Top-1000 ist “Kowalewski-Heimermann” mit 22 Zeichen, der kürzeste “Au” mit 2 Zeichen. Wer Form-Validierungen mit maxLength={20} baut, schließt einen Teil der Nutzer aus.

Bei Vornamen liegt die durchschnittliche Länge bei 6,1 Zeichen. Doppelnamen mit Bindestrich (Anna-Lena, Klaus-Dieter) machen rund 7 % der Erwachsenen-Vornamen aus. Bei Kindern unter 10 Jahren sinkt der Anteil auf 3 %, weil moderne Eltern Doppelnamen seltener wählen.

Die deutschsprachige Schreibung kennt einen Sonderfall: das ß. Es kommt in etwa 0,3 % der deutschen Nachnamen vor (Heß, Strauß, Weiß). In der Schweiz wird “ss” geschrieben, in Österreich beides. Wenn Ihre Form Schweizer Nutzer erlaubt, sollte “Hess” und “Heß” als gleicher Name behandelt werden.

Türkische Locale: das I-Problem

Türkische Namen sind die häufigste nicht-deutsche Locale in Deutschland und liefern den klassischen Locale-Bug-Klassiker: das Punkt-i.

Türkisch unterscheidet vier Zeichen: kleines dotted i (i), kleines dotless i (ı), großes dotted İ und großes dotless I. Die Konvention ist: Kleinbuchstabe i wird beim Großbuchstaben zu İ (mit Punkt), Kleinbuchstabe ı wird zu I (ohne Punkt). Wenn JavaScript Default-Case-Folding macht, geht das schief: "İstanbul".toLowerCase() ergibt in vielen Browsern “i̇stanbul” mit Combining-Dot statt einfach “istanbul”.

In der Praxis bedeutet das: Wenn ein türkischer Nutzer “İlhan” eingibt und Ihr Backend die Eingabe per toLowerCase() normalisiert, bekommt der Index einen anderen Wert als bei “Ilhan”. Folge: Login geht nicht, Suche findet nichts, E-Mail-Deduplication schlägt fehl.

Die Lösung ist Locale-bewusstes Case-Folding mit String.toLowerCase("tr-TR") in JavaScript oder dem entsprechenden Locale-Argument in anderen Sprachen. Tests mit fake-name.de in der türkischen Locale sind die zuverlässigste Methode, solche Bugs zu finden.

Häufige türkische Nachnamen in Deutschland sind Yılmaz (häufigster), Demir, Şahin, Kaya und Çelik. Beachten Sie: ç und ş kommen nicht im deutschen Tastatur-Layout vor. Wenn Ihre Form deutsche Tastaturen erwartet, werden viele Nutzer zu “Sahin” und “Celik” ausweichen. Die Form sollte beide Schreibweisen als gleichwertig erkennen.

Polnische Locale: Diakritika und Verkleinerung

Polnische Vornamen kennen Vollformen und Verkleinerungsformen, die in offiziellen Dokumenten oft beide vorkommen. “Aleksander” ist die Vollform, “Olek” die Verkleinerung, beide stehen als Vorname im Personalausweis bei verschiedenen Menschen. Wer Vollform-Suche macht, übersieht Verkleinerungs-Treffer.

Polnische Nachnamen sind häufig geschlechtsabhängig in der Endung: ein Herr Kowalski hat eine Tochter Kowalska. In der zweiten Generation in Deutschland verschwindet diese Differenzierung oft, der Familienname wird zu “Kowalski” für alle. Aber: in offiziellen polnischen Dokumenten und bei kürzlich eingebürgerten Personen ist die Endung weiter geschlechtsabhängig.

Diakritika: ą, ę, ł, ń, ó, ś, ź, ż. Häufig macht “ł” Probleme, weil es kein Standardzeichen ist und in vielen Encodings als “l” verflacht. Aus “Wałęsa” wird “Walesa”, das ist ein anderer Name, und Suche findet ihn nicht zurück.

Die Top-5-Nachnamen in Polen sind Nowak, Kowalski, Wiśniewski, Wójcik, Kowalczyk. Die ersten beiden sind in Deutschland verbreitet, die anderen seltener.

UTF-8-Unterstützung allein reicht nicht, Indizes, Suche und Case-Folding brauchen Locale-Bewusstsein.

Tabelle: Anteile in deutschen Wohnbevölkerung

Herkunft	Anteil 2024	fake-name.de unterstützt	typische Test-Edge-Cases
deutsch (ohne MH)	73,5 %	ja	ß, Doppelnamen, Adlige
türkisch	1,8 %	ja	I-Problem, Şç-Tasten
polnisch	1,1 %	ja	Diakritika, Geschlechts-Endungen
syrisch	1,1 %	nein (geplant Q3)	Transliteration arabisch→latein
rumänisch	1,1 %	nein	ă, â, î, ș, ț
italienisch	0,8 %	ja	Akzent-Stellung, Apostroph
französisch	0,3 %	ja	Apostroph, Doppelvorname
russisch	0,3 %	nein (geplant Q3)	Transliteration kyrillisch

Tipp: Wenn Ihre Form ein optionales “second name”-Feld hat, befüllen Sie es in Tests gezielt mit Locale-spezifischen Doppel- oder Vatersnamen. Polen tragen häufig ein Patronym (“syn Jana”), Türken einen zweiten Vornamen, Franzosen einen Mädchennamen in Klammern.

Konkrete Test-Verteilung für ein deutsches B2C-Tool

Für ein B2C-Tool mit nationaler deutscher Zielgruppe empfehlen wir folgende Locale-Verteilung in Ihrem Test-Datensatz:

70 % deutsche Namen (Verteilung gemäß Bundes-Statistik)
8 % türkische Namen (überproportional gegenüber 1,8 %, weil häufig betroffen)
5 % polnische Namen
3 % arabisch transliteriert (auch wenn fake-name.de das noch nicht generiert, manuell ergänzen)
3 % französisch
3 % italienisch
8 % “international” gemischt (für UI-Belastungstests)

Diese Verteilung ist statistisch nicht ganz repräsentativ, aber sie deckt die wichtigsten Bug-Kategorien ab. Eine rein proportional zur deutschen Wohnbevölkerung gewählte Verteilung würde 73 % deutsche Namen enthalten und damit die seltenen Edge-Cases unterrepräsentieren.

Was zu tun ist

Locales sind kein Detail, sie sind ein eigener Test-Pfad mit eigenen Bug-Kategorien. Wer mit fake-name.de in mehreren Locales generiert, deckt strukturell ab, was sonst nur über echte Produktionsausfälle sichtbar wird. Drei Locales (deutsch + türkisch + polnisch) reichen für die meisten deutschen B2C-Anwendungen. Wer international skaliert, sollte vor jedem Launch in das neue Marktgebiet zusätzlich die entsprechende Locale durchtesten, vor allem auf Suche, Sortierung und Case-Folding.