Giới thiệu sơ lược
chữ Nôm trong tin học
______ Tiến sĩ Ngô Thanh Nhàn
Giới thiệu
Một trong những mất mát lớn nhất của dân
tộc Việt Nam trong những năm chiến tranh là chữ Nôm. Theo nhiều nhà
nghiên cứu, chữ Nôm bắt đầu sử dụng vào thế kỷ thứ 10 cho đến đầu thế kỷ
này (khoảng những năm 1920). Những kho tư liệu viết bằng chữ Nôm c̣n lại
sau chiến tranh ở rải rác khắp thế giới như Trung Quốc, Pháp, Mỹ,
Va-ti-can, Nhật, v.v. Hàng ngh́n văn bia ở rải rác khắp nước Việt Nam
không người và của cải để giữ ǵn chăm sóc. Số người đọc được chữ Nôm
hiện nay có thể đếm trên đầu ngón tay và có nguy cơ bị mất hoàn toàn khi
những học giả này qua đời. Những học giả tiền bối của chúng ta đă nhiều
năm cố gắng phiên các tác phẩm viết bằng chữ Nôm ra chữ quốc ngữ, như
truyện Kiều. Tuy nhiên số này c̣n nhỏ so với các kho tư liệu to tát như
các địa chí, các tác phẩm nghệ thuật khác như chèo, tuồng, hát bộ, v.v.
ghi bằng chữ Nôm.
Hiện nay có nhiều cố gắng tại Việt Nam và
ngoài nước để gây lại chữ Nôm, như tự điển chữ Nôm của Đỗ Thông Minh (tại
Nhật), các nghiên cứu của Nguyễn Khắc Kham, Nguyễn Đ́nh Hoà (tại Mỹ), và
nhiều nghiên cứu công phu như của cụ Hoàng Xuân Hăn, Đào Duy Anh, Vũ Văn
Kính, Nguyễn Quang Hồng, Viện Hán Nôm, Viện Ngôn ngữ học, Hội Ngôn ngữ
học Việt Nam, v.v.
Bài này không nhằm mục đích nghiên cứu sâu
về chữ Nôm. Tôi chỉ xin giới thiệu một công tŕnh đưa chữ Nôm vào tin
học của Tổng cục Tiêu chuẩn, Đo lường, Chất lượng - Tiểu ban mă chuẩn
chữ Nôm (thuộc Ban Tiêu chuẩn Công nghệ Thông tin) trong những năm vừa
qua.
Giới thiệu sơ lược về ngôn ngữ và chữ
viết
Truyện Kiều có câu:
phiên âm ra chữ quốc ngữ thành:
"Lời lời châu ngọc, hàng hàng gấm thêu"
Khi nói, ta nói từng tiếng một. Tiếng nối
nhau thành hàng, thành chuỗi, như chuỗi hạt. Câu nói nối kết nhau như
thêu một bức gấm. Chữ viết cũng thế - người ta chỉ viết được từng nét
một nối nhau thành chuỗi kư tự. Trong ngành ngôn ngữ học, ta nói ngôn
ngữ có tuyến tính (linearity).
Số câu nghe được và học được trọn đời của
một người Việt có giới hạn, nhưng số câu ta nói được là vô hạn. Số chữ
ta biết được có giới hạn, số câu mẫu và cụm từ tạo thành câu có giới
hạn, nhưng số câu chúng tạo thành vô hạn. Những câu mới của người nói mà
người nghe hiểu được "tự nhiên như đă nghe được từ trước" cho ta thấy
ngôn ngữ có tính hệ thống và tính phổ quát (là người ai
cũng có).
Chữ viết là một hệ thống kư tự ghi lại
tiếng nói của con người. Tất cả những hệ thống kư tự hiện nay đều không
thể ghi lại đầy đủ tiếng nói, kể cả các kư tự phiên âm quốc tế. Ví dụ,
ta viết câu "em đi học", người đọc không thể biết "em" là
người nói (tiếng Anh, "I"), hay "em" là người nghe (tiếng Anh,
"you"), hay "em" là người thứ ba (tiếng Anh, "he/she"). Ta cũng
không thể biết đó là câu sai khiến, câu hỏi, hay câu xác định, hay câu
kể chuyện - dù ta có bỏ thêm dấu "?", dấu thang "!", dấu dứt câu "." hay
dấu lửng "...".
Tiếng Việt nằm trong nhóm Môn-Khơ-me, thuộc
ngữ hệ Nam-á. Trong tiếng Việt, mỗi tiếng (syllable) khi viết xuống
thành một chữ (written syllable) đứng riêng biệt với các chữ khác. Trong
tin học, ta nói chữ đứng giữa hai dấu cách (delimiters). Một từ (word)
trong tiếng Việt có một hay nhiều tiếng (số nguyên dương), ví dụ bút,
đồng hồ, nhà cửa, ô-tô, v.v.
Chữ quốc ngữ dùng các kư tự la-tinh, như a,
b, c, d, đ,...; các dấu mũ (circumflex), dấu ngắn hay dấu trăng (breve),
dấu râu (horn) dành cho các nguyên âm a, ă, â, e, ê, o, ô, ơ, u, ư; các
dấu thanh như không dấu (no tone mark) cho thanh ngang (high level
tone), dấu huyền (grave tone mark) cho thanh huyền (low level tone), dấu
sắc (acute tone mark) cho thanh sắc (high-rising tone), dấu nặng (dot
below tone mark) cho thanh nặng (creaky tone), dấu hỏi (hook above tone
mark) cho thanh hỏi (low rising tone), dấu ngă (tilde tone mark) cho
thanh ngă (creaky rising tone). Chữ quốc ngữ chuẩn gồm có 17 con chữ
phụ âm: b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x, 12 con
chữ nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y, và 5 dấu thanh:
huyền, sắc, nặng, hỏi, ngă.
Người Việt Nam đánh vần, â mờ âm thờ âm
thâm sắc thấm để tả cách viết của chữ thấm. Thanh sắc đọc
cuối cùng, và thường là nét cuối cùng khi viết. Dấu sắc viết lên trên
con chữ nguyên âm â. (Đúng ra, tuy thanh sắc nằm trên vần âm,
nhưng khi viết ta vẫn coi như nằm trên nguyên âm â. Điều này có
nghĩa là khi viết, việc bỏ dấu sắc lên nguyên âm chỉ là quy ước). Cách
đánh vần quôc ngữ như thế cho ta biết người Việt Nam "phân tích" một
tiếng theo các con chữ (â, m, t, h, sắc), các con chữ lập thành phần vần
(âm), phần phụ âm đầu (th), và cuối cùng là thanh (sắc - high
rising). Đánh vần như thế giúp ta hiểu được cách nói lái, cách tạo
từ láy, cách chơi chữ, cách gieo vần trong thơ, v.v. Đối với người Việt
Nam, tiếng, vần và thanh là ba đơn vị quan trọng hơn các con chữ cái và
từ. Ta nói, Việt Nam hai tiếng ngọt ngào, nhưng không nói Việt
Nam một từ ngọt ngào... Chữ Nôm nói chung sử dụng những âm và tiếng
có sẵn trong tiếng Hán-Việt và thay đổi h́nh dáng của chúng để ghi lại
những tiếng có sẵn trong tiếng Việt.
Ta nói, tiếng Việt có hai cách viết, một
cách viết theo chữ quốc ngữ, một cách viết theo chữ Nôm.
Khái niệm về chuẩn công nghệ thông tin
Chuẩn công nghệ thông tin là một hệ thống
mă (số) biểu thị hệ thống chữ viết dùng để trao đổi thông tin. Máy tính
là công cụ chính. Mỗi mă là một con chữ cái trong tiếng Việt chuẩn. Theo
chuẩn trao đổi thông tin chữ quốc ngữ TCVN 5712:1993, â và dấu sắc là
hai đơn vị chính tả (orthographic units) và mỗi đơn vị có một mă riêng
biệt. Một thành tố chính tả (orthographic element), ví dụ như ấ, được
tạo bằng hai cách: dùng mă 202 (cơ số 10) (ấ) hoặc dùng hai mă 169 (â)
tiếp theo mă dấu kết nối 179 (dấu sắc - acute combining mark). Ta
nói, trong chính tả tiếng Việt mă 202 "tương đương" với hai mă 169 và
179. Một điểm cần nhớ là chuẩn thông tin ở mỗi thứ tiếng có khác nhau -
do đó chuẩn ISO 8859 La-tinh-1 cho các thứ tiếng Âu châu đặt mă 202 cho
con chữ ấ, thay v́ ấ trong tiếng Việt.
Chúng ta "đưa" mă vào bộ nhớ của máy tính
bằng cách sao chép hoặc nhấn từ bàn phím (đánh máy chữ). Khi đánh máy,
mỗi phím, ví dụ như a, chuyển vào bộ nhớ của máy tính số 97. Và hai phím
Shift+a chuyển vào bộ nhớ số 65. Trong máy tính, số 97 chuyển thành ảnh
chữ a (bitmap - ma trận bit) phóng lên màn h́nh và máy in.
Bộ nhớ (memory) và vận hành (processor) của
máy tính cơ bản vẫn nối đuôi nhau (sequential) - ta nói, máy tính vận
hành và ghi nhớ có tuyến tính. Đặc tính này không phải là ngẫu nhiên mà
tương tự với ngôn ngữ sống. Hệ thống chuẩn trao đổi thông tin và chuẩn
bàn phím trong máy tính cho các loại chữ viết giúp ta hiển thị tiếng
Việt đúng, đơn giản và đầy đủ. Ba nguyên tắc này, dựa trên cách ta đánh
vần ở trường học, là ba nguyên tắc quan trọng trong việc lập chuẩn chữ
Nôm.
Vài nét về chữ Nôm
Chữ Nôm là thứ chữ viết được gọi là biểu ư
(tiếng Anh, "ideographic") - là thứ chữ ghi lại nghĩa hoặc h́nh vẽ. Tuy
nhiên, không ai có thể xác định: "nghĩa là ǵ ?"
Ta nói con dao, tờ giấy, cục đá, nước
đá, cái đá, cuộn chỉ, mũi kim, cuốn sách, v.v. trong tiếng Việt th́
chữ cái, con, tờ, cục, nước, cuộn, mũi, cuốn, v.v. có thể gọi là
nghĩa, nhưng đúng ra phải gọi là những chữ phân loại những chữ kế tiếp
(theo một quy ước nào đó của mỗi ngôn ngữ).
Khi ta nói câu Cho hắn một ... đá,
th́ tiếng đá chỉ rơ nghĩa khi ta thêm tiếng cái hoặc tiếng
ḥn vào chỗ ba chấm "...". Khi ta viết hai chữ đá, chữ Nôm
và
- bộ
túc (loại chân)
chỉ động từ đá, và bộ
thạch (loại đá) để
chỉ ḥn đá, th́ những "bộ" này thật ra cũng chỉ là những kư tự để phân
loại, giống như cái và ḥn. Nếu "bộ" là để chỉ nghĩa, th́ trong chữ Nôm
ta không biết nên viết đá trong câu đá lông nheo thành
-
theo bộ
mịch (loại tơ),
-
theo bộ
mục (loại mắt),
-
theo bộ
tiêu (loại tóc),
hay
-
theo bộ
túc (loại chân),
v.v.
Ví dụ trên cho ta thấy, tuy bộ là tiéng
phân loại, nhưng hệ thống "bộ" của chữ Hán (như túc, thạch, mịch,
mục, tiêu, v.v.) và hệ thống các tiếng phân loại trong tiếng Việt
(như cái, con, ḥn, mũi, sợi, v.v.) không giống nhau. Suy luận từ
đó, lập chuẩn thông tin cho chữ Nôm (có thể nói, kể cả chữ Hán) dựa hệ
thống "bộ" chữ Hán (cụ thể theo hệ thống 214 bộ trong Tự điển Khang Hy)
không bao giờ đúng và không bao giờ đầy đủ.
Chữ Nôm và chữ Hán viết mỗi chữ trong một
khung vuông. Giống như chữ quốc ngữ, mỗi chữ đều đứng giữa các dấu cách,
và có thể bẻ ra thành những bộ phận nhỏ nhận ra được. Những bộ phận nhỏ
có thể t́m thấy đều đặn trong những chữ khác, ví dụ, mập, ỏng, ph́, nục,
béo, bọng, mảy, v.v. đều có một bộ phận được gọi tên là "bộ"
nhục (loại thịt).
Khi đánh vần chữ
đá, ta nói: viết
túc trước, viết
đa sau. Khi đánh vần
chữ kép (tiếng
Anh, "compound"), ta nói: viết nhị
trên, viết kiếp
dưới. Tuy là viết lúc
ngang, lúc dọc trong khung vuông, nhưng ta vẫn "coi như" viết ngang,
giống như trong chữ quốc ngữ: a sắc á. Tuy dấu sắc viết trên chữ
a, nhưng ta vẫn "coi như" viết sau chữ a. Đây là điểm quan trọng giúp ta
hiểu được tuyến tính (linearity) trong hệ thống chữ viết biểu ư. Hiểu
như thế giúp ta sắp đặt lại các bộ phận cấu thành cơ bản nhất của chữ
Nôm (hay loại chữ biểu ư) trong một khung vuông. Do đó, cấu tạo của chữ
biểu ư không hẳn phức tạp như chúng ta thường nghĩ.
Trong một nghiên cứu về tự điển Khang Hy
(Trung Quốc) của hai học giả Zhang Zhoucai (Trung quốc) và Lu Chin (Đài
Loan), những chữ gồm hai bộ phận xếp chồng trên-dưới (mẫu b, khoảng
12.000 chữ, 24%) và xếp ngang trước-sau (mẫu a, khoảng 32.000 chữ, 65%)
trong một khung vuông chiếm 89% toàn bộ chữ trong tự điển. Tương tự,
trong 501 chữ thuần Nôm trong bộ mă chuẩn TCVN 5773:1993 (xem trang mẫu
kèm theo cuối bài), Ngô Thế Long thuộc Viện Hán Nôm, cho biết cách ghép
trước-sau (mẫu a, gồm 330 chữ, 66%) và cách ghép trên-dưới (mẫu b, gồm
90 chữ, 18%) chiếm 84% số chữ.
Viết chữ Nôm
Chữ Nôm viết theo cách viết chữ Hán và dùng
chữ Hán để làm các bộ phận tạo chữ. Chữ thuần Nôm là những chữ chỉ có ở
nước ta. Chữ Nôm Hán là những chữ Hán đọc theo tiếng Việt. Chữ Hán-Việt
là chữ Hán đọc theo âm Việt mượn của tiếng Hán thời nhà Đường. Ngoài ra,
ở Việt Nam c̣n có các chữ biểu ư khác như chữ Nôm Tày của người Tày.
Cách đọc chữ Nôm Việt có thể giản lược như sau:
Viết chữ Hán, đọc kiểu Hán-Việt:
-
chữ
đọc kiểu Hán-Việt là tài.
-
chữ
đọc Hán-Việt là vụ,
Hán-Việt cổ là mùa.
Viết chữ Hán, đọc kiểu Việt:
-
chữ
đọc kiểu Hán-Việt là dịch
(nách), đọc kiểu Việt là nách.
-
chữ
đọc kiểu Hán-Việt là một
(ch́m), đọc kiểu Việt là một (số 1).
Viết chữ Hán, đọc gần giống Hán-Việt:
-
chữ
đọc kiểu Hán-Việt là biệt
(xa), đọc kiểu Việt là biết.
Gộp âm Hán-Việt các phần chữ Hán:
-
chữ
đọc là trăng, gồm hai chữ
ba + lăng
[> blăng (chữ Việt
trung đại)]: trăng.
Gộp "nghĩa" các phần chữ Hán:
-
chữ
đọc kiểu Việt là trùm,
gộp "nghĩa" chữ Hán-Việt
nhân (người) + chữ Hán-Việt
thượng (trên).
Dùng một chữ Hán để chỉ loại và một chữ Hán
để chỉ âm đọc gần âm Hán-Việt:
-
chữ
đọc kiểu Việt là tanh,
gồm chữ nhục (loại thịt)
và gần âm Hán-Việt tinh.
-
chữ
đọc kiểu Việt là cỏ, gồm
chữ thảo (loại cỏ) và gần
âm Hán-Việt chữ cổ.
Dùng âm Hán-Việt một chữ Hán chỉ cách đọc
khác:
-
chữ
đọc kiểu Việt là phên,
gồm âm Hán-Việt chữ phiến
và dấu cá (dấu đọc trệch
vần).
Dùng một phần chữ Hán để chỉ âm đọc:
-
chữ
đọc là khề, gồm chữ
Hán-Việt kỳ cắt bỏ một
chân phải.
-
chữ
đọc là khà, gồm chữ
Hán-Việt kỳ cắt bỏ một
chân trái.
-
chữ
đọc là khoai, gồm chữ
Hán-Việt thổ (loại đất)
và một phần là âm Hán-Việt chữ
khoa, cắt bỏ phần trên.
-
chữ
đọc là hũ, gồm chữ
Hán-Việt thổ (loại đất)
và một phần là âm chữ hữ,
cắt bỏ phần trước.
[Xem thêm Lê Văn Quán và các bài cấu tạo
chữ Nôm.]
Các bộ mă chuẩn chữ Nôm dùng trong trao đổi
thông tin:
Kể từ năm 1993, Tổng cục Tiêu chuẩn, Đo
lường, Chất lượng Việt Nam in hai quyển tiêu chuẩn chữ Nôm: quyển một
TCVN 5773:1993 gồm 2.357 chữ (gồm 1.775 chữ thuần Nôm) và quyển hai TCVN
6056:1995 gồm 3.349 chữ mượn hoàn toàn chữ Hán. Mỗi chữ gồm số thứ tự,
h́nh dáng chữ, xuất xứ (từ tự điển nào) và cách đọc (viết theo chữ quốc
ngữ). Chữ Nôm được tạo theo phông bitmap 24x24 và 96x96. Cơ quan in hai
tiêu chuẩn này có thể sắp chữ theo thứ tự 214 bộ của Khang Hy Tự điển.
Tuy nhiên, việc dùng 214 bộ c̣n đang thảo luận v́ chữ thuần Nôm, chữ
thuần Triều (Triều Tiên) và chữ thuần Nhật (kể cả chữ Trung Quốc) gồm
nhiều "bộ" không nằm trong Khang Hy.
Nhóm Nghiên cứu chữ biểu ư Ideographic
Rapporteur Group (gồm các uỷ ban tiêu chuẩn quốc gia của Trung Quốc,
Triều Tiên, Nhật, Việt Nam, Đài Loan, Singapore, v.v.) do Tổ chức Tiêu
chuẩn Quốc tế ISO/IEC JTC 1/SC 2/WG 2 lập ra năm 1993 (Việt Nam là một
trong 4 nước tham gia đầu tiên) vừa họp xong tại Thành phố Hồ Chí Minh
(15-19 tháng 12, 1997) trong chương tŕnh đưa các loại chữ biểu ư vào
kho chữ quốc tế. Sự tham gia này giúp Việt Nam thấy được toàn bộ công
tŕnh kỹ thuật của quốc tế lập kho chữ biểu ư, rút ngắn công tŕnh xây
dựng chuẩn chữ Nôm của ḿnh.
Việc in hai tiêu chuẩn chữ Nôm, tuy c̣n sơ
khởi (chưa có chuẩn bàn phím), nhưng đă được hai cơ quan Unicode (Mỹ) và
Cơ quan Chuẩn Quốc tế ISO 10646 chấp thuận. Trước nhất, việc này giúp
cho việc in ấn, truyền thông chữ Nôm (hơn tám mươi năm nay không in được
chữ Nôm, phải vẽ tay), và giúp cho thư viện cũng như các nhà nghiên cứu
liệt kê, phiên thành chữ quốc ngữ, hoặc in lại các tài liệu chữ Nôm cho
nhiều nơi cần nghiên cứu, sử dụng. Sau nữa, việc này giúp cho việc học
và giảng dạy chữ Nôm, nhất là cho các sinh viên Việt Văn bậc trung học
và đại học dễ hơn. Cuối cùng, nó giúp các nhà bảo tàng nhận dạng chữ Nôm
(tự động) và phiên thành chữ quốc ngữ (tự động) trong việc bảo tồn và
truyền bá các kho tàng chữ Nôm.
Việc sử dụng máy tính, lập chuẩn thông tin,
đối chiếu Nôm-quốc ngữ, đưa chữ Nôm vào kho chữ quốc tế, ... là những
bước khởi đầu rất nhỏ để gây dựng lại sử liệu, kiến thức và kho tàng chữ
Nôm bị chiến tranh gần như xoá sạch. Những bước tiếp tục như quét lưu
trữ, nhận dạng và phiên thành chữ quốc ngữ tự động, v.v. c̣n nhiều phức
tạp và cần có sự tham gia của những học giả trẻ trong chúng ta...
1997.
Các tài liệu tham khảo tiêu biểu:
1. Đào Duy Anh. 1975. Chữ Nôm: nguồn gốc, cấu tạo, diễn biến.
Nhà xuất bản Khoa học Xă hội. Hà Nội.
2. Húnh-Tịnh Paulus Của. 1895. Đại Nam Quấc âm tự vị. Sàig̣n. In
lại: Nhà xuất bản Xuân Thu.
3. Lê Văn Quán. 1981. Nghiên cứu về chữ Nôm. Nhà xuất bản Khoa học
Xă hội. Hà Nội.
4. Nguyễn Du. 1993. Truyện Kiều: đối chiếu chữ Nôm - Quốc ngữ, do Vũ
Văn Kính khảo lục. Viện Bảo tàng Lịch sử Tp. Hồ Chí Minh.
5. Tiêu chuẩn Việt Nam. TCVN 5712:1993. Công nghệ thông tin: Bộ mă
chuẩn 8-bit lí-tự Việt dùng trong trao đổi thông tin. Hà Nội.
6. Tiêu chuẩn Việt Nam. TCVN 6064:1995. Công nghệ thông tin: Bố trí
bàn phím chữ Việt cho các hệ văn pḥng. Hà Nội.
7. Tiêu chuẩn Việt Nam. TCVN 5773:1993. Công nghệ thông tin: Bộ mă
chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin - Phần 1: Chũ Nôm
Việt. Hà Nội.
8. Tiêu chuẩn Việt Nam. TCVN 6056:1995. Công nghệ thông tin: Bộ mă
chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin: Chữ Nôm Hán. Hà Nội.
9. Vũ Văn Kính & Nguyễn Quang Xỹ. 1971. Tự điển chữ Nôm. Trung tâm
Học liệu. Sàig̣n.
10. Viện Ngôn ngữ học. 1976. Bảng tra chữ Nôm. Nhà xuất bản Khoa học
Xă hội. Hà Nội.