Pogledaj recenzije knjige Ilustrovani  rječnik računarskih pojmova

Recenzija prof dr. Zlatko Bundalo

Recenzija prof dr Ratko Dejanović

. -oba recenzenta su profesori na ETF-u  u Banjaluci-

Računarski jezik

Slovo o slovu

Kodne strane

Fontovi

ilustrovani rječnik računarskih termina

-uvodni pojmovi-








Kodne strane

 

Prvi računari su pravljeni za englesko govorno područje i imali su podršku samo za engleski alfabet, za brojeve, zagrade i neke kontrolne karaktere što je činilo ukupno 128 mogućih slova, zašto je dovoljno 7 bita. 
To je bio tzv. ASCII ili US-ASCII standard.
ASCII standard je definisao osnovni skup (niz) brojeva potreban za definisanje svih znakova i slova pri korišćenju računara poznat kao kodna strana.
Kasnije je ovaj skup proširen na 256 (zašto je bilo potrebno 8 bita). Dodatnih („gornjih”) 128 karaktera je korišćeno za dodatne karaktere. 
I ovaj prošireni set je zadržao stari naziv ASCII sa prefiksm prošireni, koji se često izostavlja i uzrokuje zabunu.
Kako se vremenom računari sve više upotrebljavaju i van engleskog govornog područja, javila se potreba i za korišćenjem drugih jezika. To je dovelo do podrške za više jezika.
Podrška za više jezika je omogućena upotrebom tzv. kodnih strana (Code Page) koje definišu gornji prošireni set. 
Osnovna kodna strana na personalnim računarima (poznata pod šifrom PC437) u tom gornjem setu karaktera definiše razne grafičke karaktere za crtanje tekstualnih prozora i slično. Kasnije razvijene kodne strana u tom setu podržavaju određene jezike. Tako postoje 
· Latin1 (ISO-8859-1) za latinična pisma Zapadne Evrope (Francuska, Njemačka, Španija,...),
· Latin2 (ISO-8859-2) i 
· Windows-1250 za latinična pisma Istočne Evrope (gdje je smještena i naša latinica), 
· ISO-8859-5, KOI8-R i 
· Windows-1251 za ćirilicu... 
Problem sa kodnim stranama je to što se međusobno isključuju. Cijeli dokument mora da bude napisan istim pismom. 
Kod ovako definisanih kodnih strana javlja se problem kad je potrebno koristiti dva pisma uporedo (npr. ćirilicu i latinicu). Jedan kodni sistem (jedna kodna strana) ne zadovoljava u potpunosti čak ni engleski jezik (zbog potrebe za većim brojem kontrolnih, interpunkcijskih i opšte tehničkih simbola i specijalnih znakova). Zato se često koriste dvije kodne strane (govori se o međusobnoj koaliciji), gdje dva kodna sistema mogu koristiti isti broj za dva različita znaka ili koristiti različite brojeve za isti znak.
U tom slučaju svi računari na kojima se vrši obrada dokumenata (a to se posebno odnosi na servere), treba da podržavaju više kodnih strana (sistema), no svaki put kad se podaci prenose postoji mogućnost da se javi greška. Ako Vam se čini da je na ovaj način teško zadržati konzistentnost, u pravu ste.
Tako se došlo do ideje da se napravi jedinstveni zapis za sve jezike - Unicode.


Ilustracije koja pokazuju odnos Unicode sistema i ASCII zapisa

 

Kodne strane

 

Kodna strana omogućava definiciju sadržine (koje slovo iz kog jezika), dok font omogućava definiciju forme (kako izgleda slovo).
Gotovo svi operativni sistemi podržavaju Unicode sistem. Da bi praktično mogli da koristimo neki od fontova, on treba da bude kreiran prema Unicode standardu i podržan od operativnog sistema.
YuASCII kodni raspored   Oprez-paznja
Fontovi tipa TimesCirilica ili YUTimes Times-C, Times-L i sličnih imena su daleko od standarda. Oni su nastali kao plod rada domaćih hakera, prije nego što se bilo kakav standard isprofilisao. Njihova upotreba se nikako ne preporučuje. Naime, pri prenosu dokumenata sa jednog na drugi računar u elektronskom obliku, postoje velike mogućnosti da taj dokument neće biti čitljiv na drugom računaru. Fontovi ovih naziva su podržavali tzv. YuASCII kodni raspored koji nikad nije zvanično prihvaćen od strane Windows-a, i smatra se gotovo ozloglašenim primjerom lošeg izbora , tako da bi trebalo da se ovakvi nestandardni fontovi izbegavaju.
Stroga je preporuka da koristite fontove razvijene prema zvaničnim kodnim stranicama. Glupo je kucati ćirilicu koristeći engleski kodni raspored. 
Ako želite unositi ćirilicu trebali bi birati Serbian, a u slučaju da koristite latinicu Croatian. Prelazak sa jedne na drugu kodnu stranu što znači i promjenu pisma je krajnje jednostavan . 

Unicode

 

Unicode koristi jedinstven broj za svaki znak, bez obzira na program, bez obzira na jezik. 
Unicode standard je prihvaćen i podržan od vodećih industrijskih kompanija (proizvođača i softvera i hardvera) kao što su: HP, IBM, JUSTSISTEM, MICROSOFT, ORACLE, SUN, APPLE... 
Unicode se koristi i kod mnogih modernih standarda kao što su: XML, JAVA, ECMA Script (JavaScript), LDAP, CORBA 3.0, WML, itd. 
Podržan je od mnogih operativnih sistema, svih savremenih Internet čitača (browser-a) kao i mnogih drugih softverskih paketa i programa.

Bazična verzija je dvobajtni format zapisa do 216 = 65536 karaktera. To je dovoljno da se riješi problem zapisa skoro svih postojećih pisama . 
Ovaj tip Unicode-a se naziva Plain UCS-2 ili UTF-16, jer koristi dva okteta, odnosno dva bajta.
No javlja se problem alokacije prostora za Unicode poruku.
Ako je riječ o dokumentu na disku, za njega će trebati duplo više prostora nego da je kodovan u standardnom ASCII formatu, jer se svaki karakter koduje sa dva bajta umjesto samo sa jednim. 
To i nije tako kritično kao kad je riječ o potrebi prenosa podataka preko mreže, jer je za prenos duplo više podataka potrebno duplo više vremena (odnosno novca).
Postavlja se pitanje da li je to prevelika cijena za univerzalno pismo i da li način da se taj problem prevaziđe. 
Postoje dva rješenja ovog problema:
Prvo da se za zapis koristi dgovarajuća kodna strana (u zavisnosti od toga šta je zapis bira se kodna strana) pa se tako troši samo jedan bajt po karakteru. Ovo rješenje u potpunosti zadovoljava kad se ne koristi više pisama unutar istog zapisa (dokumenta).
Drugo rješenje je korišćenje transformacionih šema za pogodniji zapis i prenos podataka korišćenjem Unicode-a.

Šeme kodiranja Unicode karaktera su interesantne programerima.. 
Prvo je razvijena Unicode transformaciona šema sa osnovnom jedinicom od 8 bita (UTF-8). Pomoću nje se karakter zapisuje u jednom, dva ili tri bajta, u zavisnosti od toga o kom je karakteru riječ. Ova šema zadovoljava većinu potreba i na našim prostorima predstavlja apsolutno zadovoljavajući standard.
Postoje dvije organizacije koje definišu standarde vezane za Unicode.
Jedan format je razvijen od strane tzv. The Unicode Consortium pod nazivom The Unicode Standard . 

Drugi standard je razvila Međunarodna organizacija za standardizaciju – ISO pod nazivom ISO/IEC 10646 . 
Oktalni, odnosno decimalni kodovi se koriste za reprezantaciju u nekim programima (npr. kod Html-a, ili programskog source koda da bi se definisao tip promjenljive – da bi se znalo da su to slova).