Muistiinpanoja sen varalta jos kuitenkin ovat, lähinnä Mac OS X:n komentorivin ja suomenkielisen tekstin yhteydessä.
Oleelliset merkistöt suomenkielisessä ympäristössä
- UTF-8 : Unicoden vaihtelevanpituinen koodaustapa (1-4 tavua per merkki)
- ISO 8859-1 (aka. Latin1) : 8-bittinen, eli 8 bittiä (1 tavu) per merkki -> 256 merkkipaikkaa
Tekstitiedoston merkistön tunnistaminen
Lähtökohtaisesti merkistöä ei voi päätellä tekstistä, vaan
merkistön tulee olla sovittuna / etukäteen tiedossa.
Kun tuntemattomalla merkistöllä koodattu tiedosto kuitenkin tulee vastaan, voidaan (varsinkin jos kielikonteksti on tuttu) tehdä erilaisia akateemisia arvauksia.
Tiedoston tavujen tarkastelu heksadumpista
Tiedostosta voidaan ottaa heksadumppi (jolloin nähdään tiedoston kukin tavu)
$ hexdump -C aeaekkoset-utf8.txt
00000000 c3 84 c3 a4 6b 6b c3 b6 73 74 65 73 74 69 0a |....kk..stesti.|
0000000f
Olettaen että sana on "Ääkköstesti", on kyse UTF-8:stä.
Sama sisältö Latin1-koodauksella:
$ hexdump -C aeaekkoset-latin1.txt
00000000 c4 e4 6b 6b f6 73 74 65 73 74 69 0a |..kk.stesti.|
0000000c
Oleelliset ääkköset
Kirjain |
UTF-8 |
Latin-1 |
ä |
c3 a4 |
e4 (228) |
ö |
c3 b6 |
f6 (246) |
Ä |
c3 84 |
c4 (196) |
Ö |
c3 96 |
d6 (214) |
Automaattinen päättely (file-komento)
Hyvän akateemisen arvauksen saa myös komennolla file
$ file aeaekkoset-utf8.txt
aeaekkoset-utf8.txt: UTF-8 Unicode text
Ja
$ file aeaekkoset-latin1.txt
aeaekkoset-latin1.txt: ISO-8859 text
Merkistön vaihtaminen
Tekstitiedoston merkistön vaihtaminen onnistuu komennolla iconv.
Latin-1 -> UTF-8
$ iconv -f LATIN1 -t UTF-8 input_file > output_file
UTF-8 -> Latin-1
$ iconv -f UTF-8 -t LATIN1 input_file > output_file
Linkkejä