Zum Inhalt springen

Ratgeber · Sprache & Locale

Locale-Unterschiede: deutsche, türkische, polnische und französische Namen

Ein guter Test-Datensatz spiegelt die echte Realität der Nutzerbasis, und die ist in Deutschland längst nicht mehr nur deutsch. Wer ohne Locale-Differenzierung testet, übersieht Edge-Cases, die in Produktion täglich auftreten. Dieser Ratgeber zeigt die strukturellen Unterschiede zwischen den vier auf fake-name.de unterstützten Locales und welche Tech-Stack-Anpassungen sich daraus ergeben.

6 Min Lesezeit 1.285 Wörter 5 FAQs
Mateusz Viola
Mateusz ViolaBetreiber & Redakteur
Geprüft am

Was sich strukturell zwischen Locales unterscheidet

Wer “Namen testen” sagt und nur deutsche Namen einsetzt, vergibt drei strukturelle Test-Dimensionen, die in jeder Produktivumgebung auftreten.

Erstens Zeichensatz. Deutsche Namen haben ä, ö, ü, ß. Polnische Namen haben ą, ę, ł, ń, ó, ś, ź, ż. Türkische Namen haben ç, ğ, ı, ö, ş, ü und die berühmte Unterscheidung zwischen dotted i (i/İ) und dotless i (ı/I). Französische Namen haben é, è, ê, à, ç sowie Apostrophe (d’Espagnac). Italienische Namen haben Akzente in unterwarteten Positionen (Niccolò).

Zweitens Reihenfolge. In Deutschland ist die Reihenfolge Vorname Nachname, im polnischen Telefonbuch häufig Nachname Vorname (mit Komma getrennt). Bei türkischen Nachnamen kommt es vor, dass Frauen ihren Mädchennamen behalten und in Klammern führen (“Ayşe Yılmaz (Demir)”). Französische und italienische Adlige tragen Partikel (de, di, von), die je nach Sortierung mit- oder gegen-sortiert werden.

Drittens Häufigkeitsverteilung. Die deutsche Vornamen-Statistik hat einen langen Schwanz: Die häufigsten 1000 Vornamen decken 81 % der Bevölkerung ab. Bei türkischen Vornamen sind es nur 64 %, bei polnischen 71 %. Wer den Test-Datensatz aus den Top-50-Namen jeder Locale zieht, bekommt ein deutlich unrealistischeres Profil als jemand, der die Verteilung respektiert.

Deutsche Locale: was die meisten Tests übersehen

Deutsche Namen wirken einfach. Sind sie aber nicht.

Die Top-10 der deutschen Nachnamen sind seit Jahrzehnten stabil: Müller, Schmidt, Schneider, Fischer, Weber, Meyer, Wagner, Becker, Schulz, Hoffmann. Diese 10 Namen decken 4,3 % der Bevölkerung ab. Wer Test-Datensätze nur aus dieser Top-10 zieht, bekommt einen statistisch unrealistischen Cluster, und übersieht zugleich Edge-Cases bei langen oder ungewöhnlichen Namen.

Die durchschnittliche Länge eines deutschen Nachnamens ist 7,2 Zeichen. Die häufigste Länge ist 6 Zeichen (Müller, Becker, Wagner). Der längste in den Top-1000 ist “Kowalewski-Heimermann” mit 22 Zeichen, der kürzeste “Au” mit 2 Zeichen. Wer Form-Validierungen mit maxLength={20} baut, schließt einen Teil der Nutzer aus.

Bei Vornamen liegt die durchschnittliche Länge bei 6,1 Zeichen. Doppelnamen mit Bindestrich (Anna-Lena, Klaus-Dieter) machen rund 7 % der Erwachsenen-Vornamen aus. Bei Kindern unter 10 Jahren sinkt der Anteil auf 3 %, weil moderne Eltern Doppelnamen seltener wählen.

Die deutschsprachige Schreibung kennt einen Sonderfall: das ß. Es kommt in etwa 0,3 % der deutschen Nachnamen vor (Heß, Strauß, Weiß). In der Schweiz wird “ss” geschrieben, in Österreich beides. Wenn Ihre Form Schweizer Nutzer erlaubt, sollte “Hess” und “Heß” als gleicher Name behandelt werden.

Türkische Locale: das I-Problem

Türkische Namen sind die häufigste nicht-deutsche Locale in Deutschland und liefern den klassischen Locale-Bug-Klassiker: das Punkt-i.

Türkisch unterscheidet vier Zeichen: kleines dotted i (i), kleines dotless i (ı), großes dotted İ und großes dotless I. Die Konvention ist: Kleinbuchstabe i wird beim Großbuchstaben zu İ (mit Punkt), Kleinbuchstabe ı wird zu I (ohne Punkt). Wenn JavaScript Default-Case-Folding macht, geht das schief: "İstanbul".toLowerCase() ergibt in vielen Browsern “i̇stanbul” mit Combining-Dot statt einfach “istanbul”.

In der Praxis bedeutet das: Wenn ein türkischer Nutzer “İlhan” eingibt und Ihr Backend die Eingabe per toLowerCase() normalisiert, bekommt der Index einen anderen Wert als bei “Ilhan”. Folge: Login geht nicht, Suche findet nichts, E-Mail-Deduplication schlägt fehl.

Die Lösung ist Locale-bewusstes Case-Folding mit String.toLowerCase("tr-TR") in JavaScript oder dem entsprechenden Locale-Argument in anderen Sprachen. Tests mit fake-name.de in der türkischen Locale sind die zuverlässigste Methode, solche Bugs zu finden.

Häufige türkische Nachnamen in Deutschland sind Yılmaz (häufigster), Demir, Şahin, Kaya und Çelik. Beachten Sie: ç und ş kommen nicht im deutschen Tastatur-Layout vor. Wenn Ihre Form deutsche Tastaturen erwartet, werden viele Nutzer zu “Sahin” und “Celik” ausweichen. Die Form sollte beide Schreibweisen als gleichwertig erkennen.

Polnische Locale: Diakritika und Verkleinerung

Polnische Vornamen kennen Vollformen und Verkleinerungsformen, die in offiziellen Dokumenten oft beide vorkommen. “Aleksander” ist die Vollform, “Olek” die Verkleinerung, beide stehen als Vorname im Personalausweis bei verschiedenen Menschen. Wer Vollform-Suche macht, übersieht Verkleinerungs-Treffer.

Polnische Nachnamen sind häufig geschlechtsabhängig in der Endung: ein Herr Kowalski hat eine Tochter Kowalska. In der zweiten Generation in Deutschland verschwindet diese Differenzierung oft, der Familienname wird zu “Kowalski” für alle. Aber: in offiziellen polnischen Dokumenten und bei kürzlich eingebürgerten Personen ist die Endung weiter geschlechtsabhängig.

Diakritika: ą, ę, ł, ń, ó, ś, ź, ż. Häufig macht “ł” Probleme, weil es kein Standardzeichen ist und in vielen Encodings als “l” verflacht. Aus “Wałęsa” wird “Walesa”, das ist ein anderer Name, und Suche findet ihn nicht zurück.

Die Top-5-Nachnamen in Polen sind Nowak, Kowalski, Wiśniewski, Wójcik, Kowalczyk. Die ersten beiden sind in Deutschland verbreitet, die anderen seltener.

Locale-spezifische Sonderzeichen im Vergleich Sonderzeichen pro Locale Deutsch ä ö ü ß 4 Zeichen, gut unterstützt Türkisch ç ğ ı i İ I ö ş ü 9 Zeichen, I-Problem Polnisch ą ę ł ń ó ś ź ż 8 Zeichen, Ł=L? Französisch é è ê à â ç ô ' 7 Zeichen + Apostroph Italienisch à è é ì ò ù 6 Zeichen, Akzent-Position Jede Locale, die Sie unterstützen wollen, sollte mit mindestens 50 Test-Datensätzen abgedeckt sein.
UTF-8-Unterstützung allein reicht nicht, Indizes, Suche und Case-Folding brauchen Locale-Bewusstsein.

Tabelle: Anteile in deutschen Wohnbevölkerung

HerkunftAnteil 2024fake-name.de unterstützttypische Test-Edge-Cases
deutsch (ohne MH)73,5 %jaß, Doppelnamen, Adlige
türkisch1,8 %jaI-Problem, Şç-Tasten
polnisch1,1 %jaDiakritika, Geschlechts-Endungen
syrisch1,1 %nein (geplant Q3)Transliteration arabisch→latein
rumänisch1,1 %neină, â, î, ș, ț
italienisch0,8 %jaAkzent-Stellung, Apostroph
französisch0,3 %jaApostroph, Doppelvorname
russisch0,3 %nein (geplant Q3)Transliteration kyrillisch

Tipp: Wenn Ihre Form ein optionales “second name”-Feld hat, befüllen Sie es in Tests gezielt mit Locale-spezifischen Doppel- oder Vatersnamen. Polen tragen häufig ein Patronym (“syn Jana”), Türken einen zweiten Vornamen, Franzosen einen Mädchennamen in Klammern.

Konkrete Test-Verteilung für ein deutsches B2C-Tool

Für ein B2C-Tool mit nationaler deutscher Zielgruppe empfehlen wir folgende Locale-Verteilung in Ihrem Test-Datensatz:

  • 70 % deutsche Namen (Verteilung gemäß Bundes-Statistik)
  • 8 % türkische Namen (überproportional gegenüber 1,8 %, weil häufig betroffen)
  • 5 % polnische Namen
  • 3 % arabisch transliteriert (auch wenn fake-name.de das noch nicht generiert, manuell ergänzen)
  • 3 % französisch
  • 3 % italienisch
  • 8 % “international” gemischt (für UI-Belastungstests)

Diese Verteilung ist statistisch nicht ganz repräsentativ, aber sie deckt die wichtigsten Bug-Kategorien ab. Eine rein proportional zur deutschen Wohnbevölkerung gewählte Verteilung würde 73 % deutsche Namen enthalten und damit die seltenen Edge-Cases unterrepräsentieren.

Was zu tun ist

Locales sind kein Detail, sie sind ein eigener Test-Pfad mit eigenen Bug-Kategorien. Wer mit fake-name.de in mehreren Locales generiert, deckt strukturell ab, was sonst nur über echte Produktionsausfälle sichtbar wird. Drei Locales (deutsch + türkisch + polnisch) reichen für die meisten deutschen B2C-Anwendungen. Wer international skaliert, sollte vor jedem Launch in das neue Marktgebiet zusätzlich die entsprechende Locale durchtesten, vor allem auf Suche, Sortierung und Case-Folding.

FAQ

Häufige Fragen

Warum ist eine einheitliche Locale "deutsch" nicht ausreichend?

Nach Statistischem Bundesamt 2024 leben in Deutschland rund 26 % Menschen mit Migrationshintergrund, deren Namen sich in Schreibweise, Sortierung und Häufigkeitsverteilung deutlich von rein deutschen Namen unterscheiden. Eine Test-Suite ohne türkische, polnische oder arabische Namen verfehlt einen Großteil der Nutzerrealität.

Welche Locales sind in Deutschland am relevantesten?

Nach Anteil der ausländischen Bevölkerung: türkisch (1.5 Mio), polnisch (870 Tsd), syrisch (920 Tsd), rumänisch (900 Tsd), italienisch (660 Tsd), kroatisch (430 Tsd), russisch (260 Tsd), griechisch (350 Tsd). fake-name.de deckt aktuell die ersten beiden plus französisch, italienisch und englisch ab.

Müssen wir UTF-8 für Tests aktivieren?

UTF-8 ist seit 2010 in praktisch jeder Datenbank Default. Aber: Indizes auf Namensfeldern sind oft mit collations versehen (z.B. utf8mb4_german2_ci in MySQL), die ungewollt Akzente oder polnische Diakritika zusammenführen. Tests sollten gezielt prüfen, ob ein Index "Müller" und "Muller" als gleich oder verschieden behandelt.

Wie wichtig sind Bindestrich-Doppelnamen in Tests?

Sehr wichtig. Rund 4 % der deutschen Nachnamen sind heute Doppelnamen (Schmidt-Müller, Hoffmann-Becker). Form-Validierungen, die Bindestriche in Nachnamen-Feldern ablehnen, schließen einen substanziellen Teil der Nutzer aus.

Was muss bei türkischen Namen technisch beachtet werden?

Türkische Schreibung kennt dotted/dotless I (i/ı, İ/I), Cedille (ç), Umlaut-ü und ş. Falsches Case-Folding ("İSTANBUL" → "istanbul" statt "i̇stanbul") ist ein klassischer Bug, der in Logging, Suche und Sortierung Schaden anrichtet.

Quellen

Worauf dieser Ratgeber sich stützt

Veröffentlicht · zuletzt geprüft
Verantwortlich: Mateusz Viola