UTF-8 vs ASCII

11 sujets de 1 à 11 (sur un total de 11)

serge
30 avril 2013 à 9h49 #183194
Connaissez vous un site qui possèderait une tableau montrant les correspondances entre l’UTF-8 et l’ASCII?

En gros, lorsqu’on tape une lettre en UTF-8 dans un document texte et qu’on souhaite relire ce document dans un logiciel interprétant seulement l’ASCII, il faudrait créer un filtre de correspondances à l’import. C’est un hypothétique tableau que j’imagine. On sait jamais, sur un malentendu … 😀

/me n’a pas envie de se taper la liste entière à la main si ça existe déjà tout prêt. Question d’optimisation du temps 😉

RyZen Rulez 😉
modulo
30 avril 2013 à 10h26 #183201
Tu ne devrais pas avoir de mal à relire de l’UTF-8 qui ne contient que des caractères ASCII.
Ceux-ci seront encodés sur un octet en UTF-8, avec une bijection ASCII<->UTF-8.

Attention, ASCII = encodage sur 7 bits, l’utilisation du 8ème bit pour les caractères spéciaux n’est pas standardisée, et dépend des implémentations. Donc à partir de 128, l’encodage se fait sur 2 octets (ou plus) en UTF-8.

~$ echo « héhé » | hexdump -C
68 c3 a9 68 c3 a9 0a |h..h…|

Si tu as des accents, tu peux faire des conversions avec un éditeur de texte comme Vim (les versions disponibles sous Amiga devraient suffire) ou Emacs. Ou encore utiliser un utilitaire comme recode ou iconv.
serge
30 avril 2013 à 10h39 #183203
Merci modulo pur ces précisions.

C’est bien pour les accents que et autres caractères spéciaux que je cherche a faire la correspondance. 😉

RyZen Rulez 😉
Gilloo
30 avril 2013 à 11h14 #183206
UTF-8 = unicode !

pour les caractères ASCII entre 0 et 127, il y a correspondance exacte avec le jeu de caractères Amiga, au delà, cela se complique un peu car les caractères peuvent se coder sur 2, 3, voire 4 octets.
La table de correspondance que tu cherches est donc unicode.
http://fr.wikipedia.org/wiki/Table_des_caract%C3%A8res_Unicode

Et plus précisément celle là:
http://fr.wikipedia.org/wiki/Table_des_caract%C3%A8res_Unicode/U0080

Jette aussi un coup d’oeil dans ce code là:

http://aminet.net/package/dev/c/UReader

il y a une routine qui décode UTF-8 en clair.
Mod
Tcheko
30 avril 2013 à 12h04 #183207
Jette un oeil du côte de la codeset library dispo sur la minette.

Sur MorphOS, la voie officielle supportée est la charsets.library pour la conversion des encodages de chaînes de caractères.

Inutile de réinventer la roue, des bibliothèques existent déjà pour réaliser les conversions.

Aussi, inutile de linker avec des bibliothèques statiques genre iconv qui vont faire grossir pour rien ton exécutable.
Gilloo
30 avril 2013 à 16h19 #183227
http://www.utf8-chartable.de/
serge
1 mai 2013 à 9h24 #183273
Merci beaucoup.

RyZen Rulez 😉
Foul
17 juillet 2014 à 17h56 #214656
Modération demandé !

Y’en à de plus en plus en ce moment de ces merdes :/

EDIT : spam retiré…
Zalex
21 juillet 2014 à 19h16 #214797
Bienvenu ThomasPiRH,

J’aime bien ton intervention … Vraiment classieuse et claire en plus.

Des informations aussi pertinentes que cruciales 😉

Une CD32 ... Sinon rien 🙂
Zalex
21 juillet 2014 à 23h29 #214805
Deuxième couche …

C’est vrai que je n’avais pas tout compris lors de la première lecture !

Là, c’est largement plus clair 🙂

Une CD32 ... Sinon rien 🙂
b0ris747
22 juillet 2014 à 0h32 #214809
Ouais, il y a du spam sur mot clé….

Enfin la solution semble avoir été suggérée, j’espère que la poursuite de backlink ne continuera pas 🙂

35m2 == 35m3 de matos - Membre de l'ART