UTF-8 vs ASCII

11 sujets de 1 à 11 (sur un total de 11)

  • serge

    • Messages : 4427
    #183194

    Connaissez vous un site qui possèderait une tableau montrant les correspondances entre l’UTF-8 et l’ASCII?

    En gros, lorsqu’on tape une lettre en UTF-8 dans un document texte et qu’on souhaite relire ce document dans un logiciel interprétant seulement l’ASCII, il faudrait créer un filtre de correspondances à l’import. C’est un hypothétique tableau que j’imagine. On sait jamais, sur un malentendu … 😀

    /me n’a pas envie de se taper la liste entière à la main si ça existe déjà tout prêt. Question d’optimisation du temps 😉

     

    RyZen Rulez 😉

    modulo

    • Messages : 291
    #183201

    Tu ne devrais pas avoir de mal à relire de l’UTF-8 qui ne contient que des caractères ASCII.
    Ceux-ci seront encodés sur un octet en UTF-8, avec une bijection ASCII<->UTF-8.

    Attention, ASCII = encodage sur 7 bits, l’utilisation du 8ème bit pour les caractères spéciaux n’est pas standardisée, et dépend des implémentations. Donc à partir de 128, l’encodage se fait sur 2 octets (ou plus) en UTF-8.

    ~$ echo « héhé » | hexdump -C
    68 c3 a9 68 c3 a9 0a |h..h…|

    Si tu as des accents, tu peux faire des conversions avec un éditeur de texte comme Vim (les versions disponibles sous Amiga devraient suffire) ou Emacs. Ou encore utiliser un utilitaire comme recode ou iconv.

    serge

    • Messages : 4427
    #183203

    Merci modulo pur ces précisions.

     

    C’est bien pour les accents que et autres caractères spéciaux que je cherche a faire la correspondance. 😉

    RyZen Rulez 😉

    Gilloo

    • Messages : 831
    #183206

    UTF-8 = unicode !

    pour les caractères ASCII entre 0 et 127, il y a correspondance exacte avec le jeu de caractères Amiga, au delà, cela se complique un peu car les caractères peuvent se coder sur 2, 3, voire 4 octets.
    La table de correspondance que tu cherches est donc unicode.
    http://fr.wikipedia.org/wiki/Table_des_caract%C3%A8res_Unicode

    Et plus précisément celle là:
    http://fr.wikipedia.org/wiki/Table_des_caract%C3%A8res_Unicode/U0080

    Jette aussi un coup d’oeil dans ce code là:

    http://aminet.net/package/dev/c/UReader

    il y a une routine qui décode UTF-8 en clair.

    Mod

    Tcheko

    • Messages : 1022
    #183207

    Jette un oeil du côte de la codeset library dispo sur la minette.

    Sur MorphOS, la voie officielle supportée est la charsets.library pour la conversion des encodages de chaînes de caractères.

    Inutile de réinventer la roue, des bibliothèques existent déjà pour réaliser les conversions.

    Aussi, inutile de linker avec des bibliothèques statiques genre iconv qui vont faire grossir pour rien ton exécutable.

    Gilloo

    • Messages : 831
    #183227

    serge

    • Messages : 4427
    #183273

    Merci beaucoup.

    RyZen Rulez 😉

    Foul

    • Messages : 722
    #214656

    Modération demandé !

     

    Y’en à  de plus en plus en ce moment de ces merdes :/

    EDIT : spam retiré…

    Zalex

    • Messages : 3508
    #214797

    Bienvenu ThomasPiRH,

    J’aime bien ton intervention … Vraiment classieuse et claire en plus.

    Des informations aussi pertinentes que cruciales 😉

    Une CD32 ... Sinon rien 🙂

    Zalex

    • Messages : 3508
    #214805

    Deuxième couche …

    C’est vrai que je n’avais pas tout compris lors de la première lecture !

    Là, c’est largement plus clair 🙂

    Une CD32 ... Sinon rien 🙂

    b0ris747

    • Messages : 1049
    #214809

    Ouais, il y a du spam sur mot clé….

    Enfin la solution semble avoir été suggérée, j’espère que la poursuite de backlink ne continuera pas 🙂

    35m2 == 35m3 de matos - Membre de l'ART

11 sujets de 1 à 11 (sur un total de 11)

  • Vous devez être connecté pour répondre à ce sujet.

Forums AmigaOS, MorphOS et AROS Développement UTF-8 vs ASCII

Amiga Impact