Quick Start Guide for KoreanCodecs
----------------------------------

$Id: quick_start.txt,v 1.2 2002/04/28 09:10:09 perky Exp $

(this document has EUC-KR characters)


1. Installation

 * Normal

   $ python setup.py install


 * Without aliases (without extra path on python2.0)

   $ python setup.py install --without-aliases


 * Without C Extensions

   $ python setup.py install --without-extension


2. Encoding/Decoding

 * EUC-KR Codec (the most widely-used Korean encoding)

>>> unicode("廃越戚 疏焼.", "euc-kr")
u'\ud55c\uae00\uc774 \uc88b\uc544.'
>>> print _.encode("euc-kr")
廃越戚 疏焼.

 * CP949 Codec (yet another widely-used encoding among M$ windows users)

>>> unicode("舌紫澗 儀聖 獄澗 依戚 焼艦虞 紫寓聖 獄澗 依戚虞 馬心柔艦陥 』 濛坡 』", "cp949")
u'\uc7a5\uc0ac\ub294 \ub3c8\uc744 ...'
>>> print _[-10:].encode("cp949")
柔艦陥 』 濛坡 』

 * Johab, Unijohab and ISO-2022-KR Codecs

  (same way with above described)

 * Qwerty2bul Codec

>>> unicode("据周戚 錠帰戚澗 察鯵", "euc-kr")
u'\uc6d0\uc22d\uc774 \uc5c9\ub369\uc774\ub294 \ube68\uac1c'
>>> _.encode("qwerty2bul")
'dnjstnddl djdejddlsms Qkfro'
>>> unicode("Qkfrks rjtdms tkrhk tkrhksms aktdlTdj", "qwerty2bul")
u'\ube68\uac04 \uac83\uc740 \uc0ac\uacfc \uc0ac\uacfc\ub294 \ub9db\uc788\uc5b4'
>>> print _.encode("euc-kr")
察娃 依精 紫引 紫引澗 言赤嬢


3. StreamReader, StreamWriter

>>> import codecs
>>> f = codecs.open("quick_start.txt", encoding="euc-kr")
>>> lines = f.readlines()
>>> len(lines)
103
>>> lines[25]
u'2. Encoding/Decoding\n'
>>> lines[96]
u'>>> print hangul.format(fmt, result=u("\ub7ec\uc2a4\ud2f0\ub124\uc77c"), subj1=u("\uc704\uc2a4\ud0a4"), subj2=u("\ub4dc\ub78c\ubdd4")).encode("euc-kr")\n'

>>> f = codecs.open("testing.txt", "w", encoding="qwerty2bul")
>>> f.write(unicode("芭暗蕃傾 言赤陥", "euc-kr"))
>>> f.close()
>>> open("testing.txt").read()
'vldrjgnlffp aktdlTek'


4. Hangul Module

>>> from korean import hangul
>>> dir(hangul)
['A', 'AE', 'B', 'BB', 'BS', 'C', 'CHOSUNG_FILLER', ... ]
>>> print hangul.DD.encode("euc-kr"), hangul.GS.encode("euc-kr")
え ぃ
>>> print u', '.join(hangul.Chosung).encode('euc-kr')
ぁ, あ, い, ぇ, え, ぉ, け, げ, こ, さ, ざ, し, じ, す, ず, せ, ぜ, そ, ぞ
>>> hangul.ishangul(u'A')
False
>>> hangul.ishangul(unicode("廃", "euc-kr"))
True
>>> hangul.isJaeum(unicode("銅", "euc-kr"))
False
>>> hangul.isJaeum(unicode("ぜ", "euc-kr"))
True

>>> u = lambda x: unicode(x, "euc-kr")
>>> print u', '.join(hangul.split(u("彫"))).encode("euc-kr")
ず, び, お
>>> print hangul.join([hangul.J, hangul.WA, hangul.L]).encode("euc-kr")
祖
>>> print hangul.join([hangul.K, hangul.WAE, hangul.Null]).encode("euc-kr")
呈

>>> u("何採櫛 拝袴艦亜 何採櫛 壱鯵掩聖")
u'\uaf2c\ubd80\ub791 ...
>>> hangul.disjoint(_)
u'\u1101\u1169\u1107\u116e ...
>>> hangul.conjoin(_)
u'\uaf2c\ubd80\ub791 ...

>>> fmt = u("酔軒 森斯 %s(戚), %s戚 疏焼 %s戚 疏焼?")
>>> print hangul.format(fmt, u("焼虞"), u("焼匙"), u("畳原")).encode("euc-kr")
酔軒 森斯 焼虞, 焼匙亜 疏焼 畳原亜 疏焼?
>>> print hangul.format(fmt, u("精舛"), u("綬"), u("弘")).encode("euc-kr")
酔軒 森斯 精舛戚, 綬戚 疏焼 弘戚 疏焼?

>>> fmt = u("%(subj1)s人 %(subj2)s聖 杯帖檎 %(result)s亜 持失吉陥.")
>>> print hangul.format(fmt, result=u("君什銅革析"), subj1=u("是什徹"), subj2=u("球寓在")).encode("euc-kr")
是什徹人 球寓在研 杯帖檎 君什銅革析戚 持失吉陥.
>>> print hangul.format(fmt, subj2=u("五牒希燈"), subj1=u("五牒希据"), result=u("66% 五牒希崎戚")).encode("euc-kr")
五牒希据引 五牒希燈研 杯帖檎 66% 五牒希崎戚亜 持失吉陥.


Yes, you got it!