Informatika és informatika

3. fejezet
Kódolási szöveg

Ebben a fejezetben megismétlik a szöveg kódolását a számítógépeken.

Már tudja, hogyan kódolhat. Nincsenek problémák más olyan adatok kódolásával, amelyeket korlátozott karakterkészlet - az ábécé - képvisel. Ehhez elegendő az ábécé összes karakterének számozása, majd írja le a megfelelő számokat a számítógép memóriájába (és természetesen a folyamatba is).

Amikor a szimbólumok szimbólumait kódolják, általában 1 bájt. Ez lehetővé teszi, hogy 2 8 = 256 különböző karaktert használjon. Általánosságban elmondható, hogy a szimbólum és annak kódja közötti megfelelés önkényesen választható. A gyakorlatban azonban az szükséges, hogy képes olvasni a szöveget ugyanazon a számítógépen létrehozott a másikon. Ezért a kódolási táblák megpróbálnak szabványosítani. Szinte az összes jelenleg használt táblázatok alapján az ASCII „amerikai szabvány információcsere kód” 5. A szabvány definiálja az értékeket az alsó felét a kód táblázat - az első 127-kódok (32 vezérlő kódokat, az alapvető számtani és írásjelek, számok és betűk). Ennek eredményeképpen ezek a karakterek helyesen jelennek meg, bármilyen kódolást használnak egy adott számítógépen. A helyzet rosszabb a „nemzeti” jellege és „nyomdai” írásjelek. Különösen szerencsétlen használó nyelvet a cirill ábécé (orosz, ukrán, belorusz, bolgár, stb.) Például öt kódolási táblát széles körben használnak az orosz nyelv esetében:

  • CP866 (DOS-alternatíva) 6 - PC-kompatibilis számítógépek, ha dolgozik az operációs rendszer DOS, OS / 2, valamint a nemzetközi amatőr Fido hálózat (Fidonet).
  • CP1251 (Windows kódolás) - PC-kompatibilis, ha Windows 3.1 és Windows 95 alatt fut
  • A KOI-8r az eddigi legrégebbi kódolás. A UNIX rendszert futtató számítógépeken az orosz nyelvű szövegek az interneten érvényesek.
  • A Macintosh Cyrillic - amint azt a név is sugallja - úgy tervezték, hogy minden Cyrillic nyelven működjön a Macintosh 7 operációs rendszeren.
  • ISO-8859. Ezt a kódolást a cirill szövegek nemzetközi szabványaként fogalmazták meg, de ritkán Oroszországban.

Valójában a probléma nem olyan nagy. Ha tudjuk, hogy az eredeti szöveg jelenik meg, és mely táblázatot által használt számítógép, az átalakítási folyamat nagyon egyszerű - csak meg kell változtatni néhány kódot, a másik (a keresési táblázat). Ebből a célból speciális programokat használnak - szövegkonverterek. Az utóbbi időben léteznek olyan átalakítók, amelyek függetlenül meghatározhatják a szöveg eredeti kódolását, sőt tudják, hogyan kell "dekódolni" a szöveget több helytelen átkódolás után.

Néhány betű hexadecimális kódja

Mellesleg megjegyezzük, hogy vannak speciális betűtípus (ún dingbatsy), amelyek nem tartalmaznak betűket és speciális karaktereket, például matematikai vagy zenei; dísztárgyak, piktogramok.

Most, amikor a számítógépes memória mennyisége óriási mértékben nőtt, a szöveg kódolásakor nem kell sokat megtakarítani. Megengedheti magának a "luxust", hogy sokkal több memóriát töltsön a szöveg tárolására, és minden karakterhez nem 1, hanem 2 (vagy akár 4) byte értéket adjon. Ebben az esetben lehetőség van arra, hogy helyét a kód táblázat - mindegyik a maga helyén - nem csak a levél az európai ábécé (latin, cirill, görög), hanem a betűk az arab, grúz és sok más nyelven, és még a legtöbb japán és a kínai karakterek. Végtére is, két bájt már 0 és 65535 között tárolja a számot, és négyet a 3232-re

Nemzetközi kódolás Unicode. néhány évvel ezelőtt kifejlesztett, most már a gyakorlatban is megvalósul. Általában unicode-asztal - négy byte-os, de napjainkban egyre használt speciális módszereket extra kódolás - UTF-8 és UTF-16, ha a kód hossza attól függ, hogy a karakter előfordulást. Az orosz betűket mindkét esetben két bájt képviseli (és itt a latin az UTF-8-ban csak egy).

Tesztes kérdések

  1. Hogyan kódolódik a szöveg a számítógépen?
  2. Megnyit egy szöveges fájlt, és a képernyőn értelmetlen karakterkészlet jelenik meg. Mit lehet csatlakoztatni? Milyen intézkedéseket kell tenni a szöveg elolvasásához?
  3. Milyen előnyei és hátrányai vannak az Unicode kódolásnak?

jegyzetek

  1. ASCII - amerikai szabványkód információcserére
  2. Pontosabban, alternatívát módosított. Ez a név megmaradt azoktól az idők óta, amikor ráadásul voltak "a legfontosabb GOST kódolás" és az "alternatív GOST kódolás"
  3. Meglepő módon, de a tény: a kódolás fejlesztésekor az ukrán ábécé egyik betűjét nem vették figyelembe. Ezért az ukrán az egyetlen cirill nyelv, amelyre a Macintosh-nak külön kódolása van - Macintosh ukrán

Kapcsolódó cikkek