Számítástechnika, szöveges kódolás

3. fejezet
kódolás szöveget

Ebben a fejezetben fogjuk ismételni, mivel a szöveg van kódolva számítógépek.

Ön már tudja, hogyan kell kódolni a számokat. Nincs semmi probléma, és amikor kódoló bármely egyéb információ szalonképes által korlátozott számú karakter - betűk. Ez elég ahhoz, hogy felsorolni az összes jelek az ábécé, majd írj a számítógép memóriájában (és természetesen kezeli) a megfelelő számokat.

Amikor kódolása a szöveg minden egyes szimbólum adják, általában, 1 byte. Ez lehetővé teszi, hogy február 8 = 256 különböző karakter. A megegyezést a jel és a kód, általában elmondható, hogy lehet választani meglehetősen önkényesen. A gyakorlatban azonban az szükséges, hogy képes olvasni a szöveget ugyanazon a számítógépen létrehozott a másikon. Ezért próbálja egységesíteni a kódolási táblázat. Szinte az összes jelenleg használt táblázatok alapján az ASCII „amerikai szabvány információcsere kód” 5. A szabvány definiálja az értékeket az alsó felét a kód táblázat - az első 127-kódok (32 vezérlő kódokat, az alapvető számtani és írásjelek, számok és betűk). Ennek eredményeként, ezek a szimbólumok jelennek meg helyesen, függetlenül a kódolás nem használható egy adott számítógéphez. A helyzet rosszabb a „nemzeti” jellege és „nyomdai” írásjelek. Különösen szerencsétlen használó nyelvet a cirill ábécé (orosz, ukrán, belorusz, bolgár, stb.) Például az orosz nyelv ma már széles körben használják kódolásokat öt asztal:

  • CP866 (DOS-alternatíva) 6 - PC-kompatibilis számítógépek, ha dolgozik az operációs rendszer DOS, OS / 2, valamint a nemzetközi amatőr Fido hálózat (Fidonet).
  • CP1251 (Windows-kódolás) - PC-kompatibilis, ha Windows alatt futó 3.1 és Windows 95
  • KOI-8r - a legrégebbi ma is használatban kódolást. Ezt alkalmazzák futtató számítógépeken a UNIX, a de facto szabványa orosz szövegeket az interneten.
  • Macintosh cirill - mint a neve is mutatja, ez úgy tervezték, hogy az összes cirill nyelven Mac 7.
  • ISO-8859. Ez a kódolás célja, mint egy nemzetközi szabvány cirill azonban szinte soha nem használt Oroszország területén.

Tény, hogy a probléma nem olyan nagy. Ha tudjuk, hogy az eredeti szöveg jelenik meg, és mely táblázatot által használt számítógép, az átalakítási folyamat nagyon egyszerű - csak meg kell változtatni néhány kódot, a másik (a keresési táblázat). Erre a speciális programok - szövegkonverterek. Az utóbbi időben átalakítók, amelyek önállóan határozza meg az eredeti szöveg kódolása, és még tudja, hogyan kell „megfejteni” a szöveget, miután több hibás kód konverziót.

Hexadecimális kódjait néhány betű

Mellesleg megjegyezzük, hogy vannak speciális betűtípus (ún dingbatsy), amelyek nem tartalmaznak betűket és speciális karaktereket, például matematikai vagy zenei; Dísztárgyak, ikonok.

Most, amikor a memória kapacitása számítógépek hatalmas mértékben bővült, nincs szükség, hogy mentse nagyon sok a kódolás a szöveget. Akkor kapjuk a „luxus” kiadások tárolására szövegben kétszer annyi memória (hogy minden olyan karaktert nem 1, hanem 2 bájt). Ebben az esetben lehetőség van arra, hogy helyét a kód táblázat - mindegyik a maga helyén - nem csak a levél az európai ábécé (latin, cirill, görög), hanem a betűk az arab, grúz és sok más nyelven, és még a legtöbb japán és a kínai karakterek. Miután két bájt tárolására képes Már számos 0-65535.

Nemzetközi duplabájtos Unicode kódolást. kifejlesztett egy pár évvel ezelőtt, most kezdik a gyakorlatban megvalósítani.

tesztkérdések

  1. Hogyan kódolt szöveget a számítógép?
  2. Megnyit egy szöveges fájlt, és láthatjuk a képernyőn értelmetlen karaktereket használnak. Ezzel mit lehet csatlakoztatni? Milyen lépéseket kell tenni, hogy olvassa el a szöveget?
  3. Mik az előnyei és hátrányai Unicode kódolás?

jegyzetek

  1. ASCII - American Standard Code for Information Interchange
  2. Pontosabban, egy alternatív módosítani. Ezt a nevet megőrizte a nap, amikor még csak a „fő kódolás GOST” és „alternatív kódolás GOST”
  3. Furcsa, de igaz: a fejlesztés a kódolási nem veszi figyelembe írni az ukrán ábécé. Ezért, ukrán - csak a cirill nyelv, hogy a Mac, hogy saját külön kódoló - Macintosh ukrán

Kapcsolódó cikkek