Az Unicode nemzetközi szabvány (ejtsd: unikód vagy junikód) a különböző írásrendszerek egységes kódolását és használatát írja le. Az Unicode nem csak a kódolással, hanem a karakterek osztályozásával, megjelenítésével és használatával is részletesen foglalkozik. A régi, legfeljebb csak néhány tucat előre rögzített betűt tartalmazó karakterkódolásokat a számítógépek hardverfeltételei és az igények változásával fokozatosan felváltotta az Unicode, ami már nem szab korlátot a különböző jelek együttes használatának. A Unicode szabvány 16 biten tárolt síkokra osztja a szabvány legutóbbi változatában rögzített mintegy 100 ezer karaktert. Az első sík (BMP – Basic Multilingual Plane) mintegy 64 ezer karakterhelyén a legtöbb ma használatos jelet megtalálni. A teljes, karakterenként 4 byte-ot foglaló UTF-32 kódolással szemben a tömörebb UTF-8 kódolás a legelterjedtebb. Az UTF-8 változó hosszúságú kódolással (1–4 byte) képezi le a Unicode első 16 síkját. 1 byte-on tárolt kódjai az ASCII-nak felelnek meg, így a latin betűs UTF-8 kódolású szövegek a régi ASCII környezetben is olvashatóak maradnak.