Karakter táblázat ascii, mások, adminstuff

Megjegyzés: december: a decimális karakter kódját, október oktális karakter kódot, Hex hexadecimális karakter kódját, Char, mint egy szimbólum látszik.

Mint látható, ebben a kódolás van bemutatva csak betűket, azokkal használják az angol nyelvet. Vannak még a számtani és egyéb speciális karaktereket. De nem az orosz betűket, vagy akár egy különleges latin német vagy francia nyelven. Ez könnyen magyarázható - a kódolási kifejezetten az amerikai szabvány. Amikor a számítógépek kezdték használni a világ, szükséges volt, hogy kódolni többi karakter.

Erre a célra úgy döntött, hogy nyolc bit minden bájt. Így vált elérhetővé több 128 értékeket (80 FF), amelyeket fel lehet használni a karakterkódolást. Az első nyolc asztal - „kiterjesztett ASCII” (Extended ASCII) - tartalmazza a különböző változatai a latin karaktereket használják egyes nyelvek Nyugat-Európában. Emellett voltak más kiegészítő karakter, beleértve pszeudografikus.

Pseudographic szimbólumok lehetővé teszik, megjelenítése csak szöveges karaktert, hogy néhány látszatát grafika. A rendszer segítségével a pszeudo-dolgozó, például a fájlok kezeléséhez programot FAR Manager alkalmazást.

Orosz betűk a kiterjesztett ASCII tábla nem volt. Az orosz (korábban - Szovjetunió) és más országokat, hogy azok kódolását, amely lehetővé teszi, hogy képviselje a 8-bites szöveges fájlok egyedi „nemzeti” szimbólumok - betűk a lengyel és cseh nyelven, cirill (beleértve az orosz betűk), és más ábécét.

Minden kódolások vett szórt, első 127 szimbólumok (azaz, bájt értéke a nyolcadik bit értéke 0) egybeessen ASCII. Így a fájlt ASCII formátumban működik bármilyen ezen kódolási; betű az angol nyelvet ugyanúgy bemutatásra kerülnek.

Szervezet ISO - elfogadott szabványok csoport ISO 8859. (Nemzetközi Szabványügyi Szervezet International Organization for Standards) Ez határozza meg a 8-bites kódolást a különböző csoportok nyelven. Így az ISO 8859-1 - az Extended ASCII, a táblázatban az Egyesült Államokban és Nyugat-Európában. A ISO 8859-5 - asztal Cirill (beleértve az orosz).

Ahhoz azonban, hogy történelmi okokból az ISO 8859-5 kódolás nem veszi. Tényleg az orosz nyelv a következő kódokat használják:

- kódlap 866 (CP866), más néven "DOS", ez is "alternatív kódolás GOST". Széles körben használják, míg a '90 -es évek közepén; jelenleg használt korlátozott. Szinte soha nem használt felosztható az interneten szövegeket.
- KOI-8. Ez alakult ki a 70-80-as években. Az elfogadott szabvány kialakítása céljából az e-mail üzenetek az orosz interneten. Széles körben használják Unix operációs rendszerek, beleértve a Linux. Opció KOI-8, Ajánlott az orosz nyelv, az úgynevezett KOI-8R; vannak olyan változatai más cirill betűs nyelvek (így KOI8-U - egy lehetőség az ukrán nyelvet).
- Kód Oldal 1251, CP1251. A Windows-1251. Microsoft által kifejlesztett, hogy támogassa az orosz nyelv a Windows rendszert.

A fő előnye a CP866 megőrzése volt ál-karakter ugyanazon a helyen, mint a kiterjesztett ASCII; így tudtak dolgozni, módosítás nélkül tengerentúli szöveges programot, például a híres Norton Commander. CP866 ma már a programok Windows alatt fut a szövegdobozok vagy teljes képernyős szöveges módban, ideértve a FAR Manager programot.

3. táblázat KOI-8R (szimbólumokat 80-FF)

4. táblázat Kódolás CP1251 (szimbólumokat 80-FF)

Amint látható táblázatban orosz CP1251 kódolás betűk ábécé sorrendben (kivétel azonban az E betű). Ennek köszönhetően az elrendezésben egy számítógépes program nagyon egyszerű betűrendben szeretné rendezni.

De KOI-8R érdekében az orosz betűk úgy tűnik véletlen. De valójában nem az.

Sok régebbi programok során, vagy küldött szöveges elvesztette a 8. bit. (Kik a program szinte kihalt, de a késő 80-as - 90-es években, akkor már széles körben elterjedt). Ahhoz, hogy a 8-bites érték 7 bites, elvenni elég a 8 jegyű legjelentősebb; így például, E1 át 61.

Most össze KOI-8R az ASCII táblázat (1. táblázat). Meg fogja találni, hogy az orosz betűk vannak elhelyezve egyértelmű megfelelés a latin. Ha a nyolcadik bit eltűnik, kisbetűs orosz betűk alakítjuk nagybetűs latin és orosz fővárosban - kisbetűvel. Így E1 KOI-8 - egy orosz "A", míg 61 ASCII - a latin "a".

Tehát, KOI-8 lehetővé teszi, hogy mentse az olvashatóságot az orosz szöveget a veszteség a 8. bit. "Hello világ" alakul "Priwet WSEM".

Mostanában ABC sorrendben szimbólum elrendezés a kódolási táblázat és az olvashatóságot a veszteség a 8. bit elveszett döntő. Nyolcbitesek modern számítógépek elvész vagy a sebességváltó vagy a feldolgozás során. A válogatás ABC figyelembevételével a kódolás, ahelyett, hogy egyszerűen összehasonlítjuk kódokat. (By the way, CP1251 azonosítók nem teljesen az ábécé - az E betű nincs a helyén).

Néha előfordul, hogy a számítógép dekódolja az orosz nyelvű leveleket az asztalra, és nem terveztek az orosz nyelvet. Ekkor ahelyett, orosz betűk jelennek meg értelmetlen sor karakterek (pl betűk a kelet-európai nyelvek); gyakran nevezik „hoppá, szemetet.”

A legtöbb modern program foglalkozik a meghatározását kódoló webes dokumentumok (e-mail és web-oldalak) saját. De néha „gyújtáskimaradás”, majd kiderül, egy furcsa sorozata orosz betűk, vagy a „hoppá, szemetet.” Tipikusan ilyen helyzetben jeleníti meg ezt a szöveget, csak válasszuk ki a kódolást manuálisan a menüben.

Kapcsolódó cikkek