Comment UTF-8 a été conçu pour être rétrocompatible avec ASCII et ses 128 caractères seulement. L'idée est de représenter les caractères ASCII sur 1 octet, et les autres sur 2, 3 ou 4 octets.
Passionnant !
L'API JavaScript Intl.Segmenter
peut être utilisée pour compter le nombre de caractères visibles dans une chaîne de caractères, et non pas le nombre de caractères unicode comme ce que fait String.length
.
Faites attention lorsque vous découpez une chaîne de caractères avec .slice()
, elle risque de découper certains emojis en différentes code units, ce qui n'est probablement pas ce que vous voulez.
Une article passionnant sur Unicode, sa genèse, ses faiblesses, mais surtout le fait qu'il est totalement universel et que ça, c'est un petit miracle.
Convertir des fichiers texte d'un encodage de caractères à l'autre. Très pratique si votre éditeur de texte favori ne le permet pas.
Exemple:
$ iconv -f UTF-8 -t ISO-8859-1 values.utf8.csv > values.iso88591.csv
Leçons à retenir :
- Database systems have subtle bugs and oddities, and you can avoid a lot of bugs by avoiding database systems.
- If you need a database, don’t use MySQL or MariaDB. Use PostgreSQL.
- If you need to use MySQL or MariaDB, never use “utf8”. Always use “utf8mb4” when you want UTF-8. Convert your database now to avoid headaches later.
Dessinez un symbole et le site vous le retrouve. Pratique quand on ne connait pas le code ALT d'un caractère et qu'on a la flemme de passer par la charmap.