Eiväthän ääkköset enää ole ongelma
Muistiinpanoja sen varalta jos kuitenkin ovat, lähinnä Mac OS X:n komentorivin ja suomenkielisen tekstin yhteydessä.Oleelliset merkistöt suomenkielisessä ympäristössä
- UTF-8 : Unicoden vaihtelevanpituinen koodaustapa (1-4 tavua per merkki)
- ISO 8859-1 (aka. Latin1) : 8-bittinen, eli 8 bittiä (1 tavu) per merkki -> 256 merkkipaikkaa
Tekstitiedoston merkistön tunnistaminen
Lähtökohtaisesti merkistöä ei voi päätellä tekstistä, vaan merkistön tulee olla sovittuna / etukäteen tiedossa. Kun tuntemattomalla merkistöllä koodattu tiedosto kuitenkin tulee vastaan, voidaan (varsinkin jos kielikonteksti on tuttu) tehdä erilaisia akateemisia arvauksia.Tiedoston tavujen tarkastelu heksadumpista
Tiedostosta voidaan ottaa heksadumppi (jolloin nähdään tiedoston kukin tavu)$ hexdump -C aeaekkoset-utf8.txt 00000000 c3 84 c3 a4 6b 6b c3 b6 73 74 65 73 74 69 0a |....kk..stesti.| 0000000fOlettaen että sana on "Ääkköstesti", on kyse UTF-8:stä. Sama sisältö Latin1-koodauksella:
$ hexdump -C aeaekkoset-latin1.txt 00000000 c4 e4 6b 6b f6 73 74 65 73 74 69 0a |..kk.stesti.| 0000000cOleelliset ääkköset
Kirjain | UTF-8 | Latin-1 |
ä | c3 a4 | e4 (228) |
ö | c3 b6 | f6 (246) |
Ä | c3 84 | c4 (196) |
Ö | c3 96 | d6 (214) |
Automaattinen päättely (file-komento)
Hyvän akateemisen arvauksen saa myös komennolla file$ file aeaekkoset-utf8.txt aeaekkoset-utf8.txt: UTF-8 Unicode textJa
$ file aeaekkoset-latin1.txt aeaekkoset-latin1.txt: ISO-8859 text
Merkistön vaihtaminen
Tekstitiedoston merkistön vaihtaminen onnistuu komennolla iconv.
Latin-1 -> UTF-8$ iconv -f LATIN1 -t UTF-8 input_file > output_fileUTF-8 -> Latin-1
$ iconv -f UTF-8 -t LATIN1 input_file > output_file
No comments:
Post a Comment