Home T́m Ca Dao Trợ Giúp T́m Ca Dao Trang Chủ Toàn Bộ Danh Mục e-Cadao English

Thư Mục

 
Lời Phi Lộ
Lời Giới Thiệu
Cách Sử Dụng
Dẫn Giải
Diêu Dụng
Cảm Nghĩ
 
Ẩm Thực
Chợ Quê
Cội Nguồn
Cổ Tích
Lễ Hội
Lịch Sử
Ngôn Ngữ
Nhân Vật Nữ
Nhạc Cụ Việt Nam
Phong Tục Tập Quán
Quê Ta
Tiền Tệ Việt Nam
Tiểu Luận
Văn Minh Cổ
Vui Ca Dao
 
Trang Nhạc Dân Ca
 
Trang Chủ
 

 
 

 

 
   

    Giới thiệu sơ lược chữ Nôm trong tin học

    ______ Tiến sĩ Ngô Thanh Nhàn

    Giới thiệu

    Một trong những mất mát lớn nhất của dân tộc Việt Nam trong những năm chiến tranh là chữ Nôm. Theo nhiều nhà nghiên cứu, chữ Nôm bắt đầu sử dụng vào thế kỷ thứ 10 cho đến đầu thế kỷ này (khoảng những năm 1920). Những kho tư liệu viết bằng chữ Nôm c̣n lại sau chiến tranh ở rải rác khắp thế giới như Trung Quốc, Pháp, Mỹ, Va-ti-can, Nhật, v.v. Hàng ngh́n văn bia ở rải rác khắp nước Việt Nam không người và của cải để giữ ǵn chăm sóc. Số người đọc được chữ Nôm hiện nay có thể đếm trên đầu ngón tay và có nguy cơ bị mất hoàn toàn khi những học giả này qua đời. Những học giả tiền bối của chúng ta đă nhiều năm cố gắng phiên các tác phẩm viết bằng chữ Nôm ra chữ quốc ngữ, như truyện Kiều. Tuy nhiên số này c̣n nhỏ so với các kho tư liệu to tát như các địa chí, các tác phẩm nghệ thuật khác như chèo, tuồng, hát bộ, v.v. ghi bằng chữ Nôm.

    Hiện nay có nhiều cố gắng tại Việt Nam và ngoài nước để gây lại chữ Nôm, như tự điển chữ Nôm của Đỗ Thông Minh (tại Nhật), các nghiên cứu của Nguyễn Khắc Kham, Nguyễn Đ́nh Hoà (tại Mỹ), và nhiều nghiên cứu công phu như của cụ Hoàng Xuân Hăn, Đào Duy Anh, Vũ Văn Kính, Nguyễn Quang Hồng, Viện Hán Nôm, Viện Ngôn ngữ học, Hội Ngôn ngữ học Việt Nam, v.v.

    Bài này không nhằm mục đích nghiên cứu sâu về chữ Nôm. Tôi chỉ xin giới thiệu một công tŕnh đưa chữ Nôm vào tin học của Tổng cục Tiêu chuẩn, Đo lường, Chất lượng - Tiểu ban mă chuẩn chữ Nôm (thuộc Ban Tiêu chuẩn Công nghệ Thông tin) trong những năm vừa qua.

    Giới thiệu sơ lược về ngôn ngữ và chữ viết

    Truyện Kiều có câu:

    phiên âm ra chữ quốc ngữ thành:
    "Lời lời châu ngọc, hàng hàng gấm thêu"

    Khi nói, ta nói từng tiếng một. Tiếng nối nhau thành hàng, thành chuỗi, như chuỗi hạt. Câu nói nối kết nhau như thêu một bức gấm. Chữ viết cũng thế - người ta chỉ viết được từng nét một nối nhau thành chuỗi kư tự. Trong ngành ngôn ngữ học, ta nói ngôn ngữ có tuyến tính (linearity).

    Số câu nghe được và học được trọn đời của một người Việt có giới hạn, nhưng số câu ta nói được là vô hạn. Số chữ ta biết được có giới hạn, số câu mẫu và cụm từ tạo thành câu có giới hạn, nhưng số câu chúng tạo thành vô hạn. Những câu mới của người nói mà người nghe hiểu được "tự nhiên như đă nghe được từ trước" cho ta thấy ngôn ngữ có tính hệ thốngtính phổ quát (là người ai cũng có).

    Chữ viết là một hệ thống kư tự ghi lại tiếng nói của con người. Tất cả những hệ thống kư tự hiện nay đều không thể ghi lại đầy đủ tiếng nói, kể cả các kư tự phiên âm quốc tế. Ví dụ, ta viết câu "em đi học", người đọc không thể biết "em" là người nói (tiếng Anh, "I"), hay "em" là người nghe (tiếng Anh, "you"), hay "em" là người thứ ba (tiếng Anh, "he/she"). Ta cũng không thể biết đó là câu sai khiến, câu hỏi, hay câu xác định, hay câu kể chuyện - dù ta có bỏ thêm dấu "?", dấu thang "!", dấu dứt câu "." hay dấu lửng "...".

    Tiếng Việt nằm trong nhóm Môn-Khơ-me, thuộc ngữ hệ Nam-á. Trong tiếng Việt, mỗi tiếng (syllable) khi viết xuống thành một chữ (written syllable) đứng riêng biệt với các chữ khác. Trong tin học, ta nói chữ đứng giữa hai dấu cách (delimiters). Một từ (word) trong tiếng Việt có một hay nhiều tiếng (số nguyên dương), ví dụ bút, đồng hồ, nhà cửa, ô-tô, v.v.

    Chữ quốc ngữ dùng các kư tự la-tinh, như a, b, c, d, đ,...; các dấu mũ (circumflex), dấu ngắn hay dấu trăng (breve), dấu râu (horn) dành cho các nguyên âm a, ă, â, e, ê, o, ô, ơ, u, ư; các dấu thanh như không dấu (no tone mark) cho thanh ngang (high level tone), dấu huyền (grave tone mark) cho thanh huyền (low level tone), dấu sắc (acute tone mark) cho thanh sắc (high-rising tone), dấu nặng (dot below tone mark) cho thanh nặng (creaky tone), dấu hỏi (hook above tone mark) cho thanh hỏi (low rising tone), dấu ngă (tilde tone mark) cho thanh ngă (creaky rising tone). Chữ quốc ngữ chuẩn gồm có 17 con chữ phụ âm: b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x, 12 con chữ nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y, và 5 dấu thanh: huyền, sắc, nặng, hỏi, ngă.

    Người Việt Nam đánh vần, â mờ âm thờ âm thâm sắc thấm để tả cách viết của chữ thấm. Thanh sắc đọc cuối cùng, và thường là nét cuối cùng khi viết. Dấu sắc viết lên trên con chữ nguyên âm â. (Đúng ra, tuy thanh sắc nằm trên vần âm, nhưng khi viết ta vẫn coi như nằm trên nguyên âm â. Điều này có nghĩa là khi viết, việc bỏ dấu sắc lên nguyên âm chỉ là quy ước). Cách đánh vần quôc ngữ như thế cho ta biết người Việt Nam "phân tích" một tiếng theo các con chữ (â, m, t, h, sắc), các con chữ lập thành phần vần (âm), phần phụ âm đầu (th), và cuối cùng là thanh (sắc - high rising). Đánh vần như thế giúp ta hiểu được cách nói lái, cách tạo từ láy, cách chơi chữ, cách gieo vần trong thơ, v.v. Đối với người Việt Nam, tiếng, vần và thanh là ba đơn vị quan trọng hơn các con chữ cái và từ. Ta nói, Việt Nam hai tiếng ngọt ngào, nhưng không nói Việt Nam một từ ngọt ngào... Chữ Nôm nói chung sử dụng những âm và tiếng có sẵn trong tiếng Hán-Việt và thay đổi h́nh dáng của chúng để ghi lại những tiếng có sẵn trong tiếng Việt.

    Ta nói, tiếng Việt có hai cách viết, một cách viết theo chữ quốc ngữ, một cách viết theo chữ Nôm.

    Khái niệm về chuẩn công nghệ thông tin

    Chuẩn công nghệ thông tin là một hệ thống mă (số) biểu thị hệ thống chữ viết dùng để trao đổi thông tin. Máy tính là công cụ chính. Mỗi mă là một con chữ cái trong tiếng Việt chuẩn. Theo chuẩn trao đổi thông tin chữ quốc ngữ TCVN 5712:1993, â và dấu sắc là hai đơn vị chính tả (orthographic units) và mỗi đơn vị có một mă riêng biệt. Một thành tố chính tả (orthographic element), ví dụ như ấ, được tạo bằng hai cách: dùng mă 202 (cơ số 10) (ấ) hoặc dùng hai mă 169 (â) tiếp theo mă dấu kết nối 179 (dấu sắc - acute combining mark). Ta nói, trong chính tả tiếng Việt mă 202 "tương đương" với hai mă 169 và 179. Một điểm cần nhớ là chuẩn thông tin ở mỗi thứ tiếng có khác nhau - do đó chuẩn ISO 8859 La-tinh-1 cho các thứ tiếng Âu châu đặt mă 202 cho con chữ ấ, thay v́ ấ trong tiếng Việt.

    Chúng ta "đưa" mă vào bộ nhớ của máy tính bằng cách sao chép hoặc nhấn từ bàn phím (đánh máy chữ). Khi đánh máy, mỗi phím, ví dụ như a, chuyển vào bộ nhớ của máy tính số 97. Và hai phím Shift+a chuyển vào bộ nhớ số 65. Trong máy tính, số 97 chuyển thành ảnh chữ a (bitmap - ma trận bit) phóng lên màn h́nh và máy in.

    Bộ nhớ (memory) và vận hành (processor) của máy tính cơ bản vẫn nối đuôi nhau (sequential) - ta nói, máy tính vận hành và ghi nhớ có tuyến tính. Đặc tính này không phải là ngẫu nhiên mà tương tự với ngôn ngữ sống. Hệ thống chuẩn trao đổi thông tin và chuẩn bàn phím trong máy tính cho các loại chữ viết giúp ta hiển thị tiếng Việt đúng, đơn giản và đầy đủ. Ba nguyên tắc này, dựa trên cách ta đánh vần ở trường học, là ba nguyên tắc quan trọng trong việc lập chuẩn chữ Nôm.

    Vài nét về chữ Nôm

    Chữ Nôm là thứ chữ viết được gọi là biểu ư (tiếng Anh, "ideographic") - là thứ chữ ghi lại nghĩa hoặc h́nh vẽ. Tuy nhiên, không ai có thể xác định: "nghĩa là ǵ ?"

    Ta nói con dao, tờ giấy, cục đá, nước đá, cái đá, cuộn chỉ, mũi kim, cuốn sách, v.v. trong tiếng Việt th́ chữ cái, con, tờ, cục, nước, cuộn, mũi, cuốn, v.v. có thể gọi là nghĩa, nhưng đúng ra phải gọi là những chữ phân loại những chữ kế tiếp (theo một quy ước nào đó của mỗi ngôn ngữ).

    Khi ta nói câu Cho hắn một ... đá, th́ tiếng đá chỉ rơ nghĩa khi ta thêm tiếng cái hoặc tiếng ḥn vào chỗ ba chấm "...". Khi ta viết hai chữ đá, chữ Nôm - bộ túc (loại chân) chỉ động từ đá, và bộ thạch (loại đá) để chỉ ḥn đá, th́ những "bộ" này thật ra cũng chỉ là những kư tự để phân loại, giống như cái và ḥn. Nếu "bộ" là để chỉ nghĩa, th́ trong chữ Nôm ta không biết nên viết đá trong câu đá lông nheo thành

  • theo bộ mịch (loại tơ),

  • theo bộ mục (loại mắt),

  • theo bộ tiêu (loại tóc), hay

  • theo bộ túc (loại chân), v.v.

    Ví dụ trên cho ta thấy, tuy bộ là tiéng phân loại, nhưng hệ thống "bộ" của chữ Hán (như túc, thạch, mịch, mục, tiêu, v.v.) và hệ thống các tiếng phân loại trong tiếng Việt (như cái, con, ḥn, mũi, sợi, v.v.) không giống nhau. Suy luận từ đó, lập chuẩn thông tin cho chữ Nôm (có thể nói, kể cả chữ Hán) dựa hệ thống "bộ" chữ Hán (cụ thể theo hệ thống 214 bộ trong Tự điển Khang Hy) không bao giờ đúng và không bao giờ đầy đủ.

    Chữ Nôm và chữ Hán viết mỗi chữ trong một khung vuông. Giống như chữ quốc ngữ, mỗi chữ đều đứng giữa các dấu cách, và có thể bẻ ra thành những bộ phận nhỏ nhận ra được. Những bộ phận nhỏ có thể t́m thấy đều đặn trong những chữ khác, ví dụ, mập, ỏng, ph́, nục, béo, bọng, mảy, v.v. đều có một bộ phận được gọi tên là "bộ" nhục (loại thịt). Khi đánh vần chữ đá, ta nói: viết túc trước, viết đa sau. Khi đánh vần chữ kép (tiếng Anh, "compound"), ta nói: viết nhị trên, viết kiếp dưới. Tuy là viết lúc ngang, lúc dọc trong khung vuông, nhưng ta vẫn "coi như" viết ngang, giống như trong chữ quốc ngữ: a sắc á. Tuy dấu sắc viết trên chữ a, nhưng ta vẫn "coi như" viết sau chữ a. Đây là điểm quan trọng giúp ta hiểu được tuyến tính (linearity) trong hệ thống chữ viết biểu ư. Hiểu như thế giúp ta sắp đặt lại các bộ phận cấu thành cơ bản nhất của chữ Nôm (hay loại chữ biểu ư) trong một khung vuông. Do đó, cấu tạo của chữ biểu ư không hẳn phức tạp như chúng ta thường nghĩ.

    Trong một nghiên cứu về tự điển Khang Hy (Trung Quốc) của hai học giả Zhang Zhoucai (Trung quốc) và Lu Chin (Đài Loan), những chữ gồm hai bộ phận xếp chồng trên-dưới (mẫu b, khoảng 12.000 chữ, 24%) và xếp ngang trước-sau (mẫu a, khoảng 32.000 chữ, 65%) trong một khung vuông chiếm 89% toàn bộ chữ trong tự điển. Tương tự, trong 501 chữ thuần Nôm trong bộ mă chuẩn TCVN 5773:1993 (xem trang mẫu kèm theo cuối bài), Ngô Thế Long thuộc Viện Hán Nôm, cho biết cách ghép trước-sau (mẫu a, gồm 330 chữ, 66%) và cách ghép trên-dưới (mẫu b, gồm 90 chữ, 18%) chiếm 84% số chữ.

    Viết chữ Nôm

    Chữ Nôm viết theo cách viết chữ Hán và dùng chữ Hán để làm các bộ phận tạo chữ. Chữ thuần Nôm là những chữ chỉ có ở nước ta. Chữ Nôm Hán là những chữ Hán đọc theo tiếng Việt. Chữ Hán-Việt là chữ Hán đọc theo âm Việt mượn của tiếng Hán thời nhà Đường. Ngoài ra, ở Việt Nam c̣n có các chữ biểu ư khác như chữ Nôm Tày của người Tày. Cách đọc chữ Nôm Việt có thể giản lược như sau:

    Viết chữ Hán, đọc kiểu Hán-Việt:

  • chữ đọc kiểu Hán-Việt là tài.

  • chữ đọc Hán-Việt là vụ, Hán-Việt cổ là mùa.

    Viết chữ Hán, đọc kiểu Việt:

  • chữ đọc kiểu Hán-Việt là dịch (nách), đọc kiểu Việt là nách.

  • chữ đọc kiểu Hán-Việt là một (ch́m), đọc kiểu Việt là một (số 1).

    Viết chữ Hán, đọc gần giống Hán-Việt:

  • chữ đọc kiểu Hán-Việt là biệt (xa), đọc kiểu Việt là biết.

    Gộp âm Hán-Việt các phần chữ Hán:

  • chữ đọc là trăng, gồm hai chữ ba + lăng [> blăng (chữ Việt trung đại)]: trăng.

    Gộp "nghĩa" các phần chữ Hán:

  • chữ đọc kiểu Việt là trùm, gộp "nghĩa" chữ Hán-Việt nhân (người) + chữ Hán-Việt thượng (trên).

    Dùng một chữ Hán để chỉ loại và một chữ Hán để chỉ âm đọc gần âm Hán-Việt:

  • chữ đọc kiểu Việt là tanh, gồm chữ nhục (loại thịt) và gần âm Hán-Việt tinh.

  • chữ đọc kiểu Việt là cỏ, gồm chữ thảo (loại cỏ) và gần âm Hán-Việt chữ cổ.

    Dùng âm Hán-Việt một chữ Hán chỉ cách đọc khác:

  • chữ đọc kiểu Việt là phên, gồm âm Hán-Việt chữ phiến và dấu cá (dấu đọc trệch vần).

    Dùng một phần chữ Hán để chỉ âm đọc:

  • chữ đọc là khề, gồm chữ Hán-Việt kỳ cắt bỏ một chân phải.

  • chữ đọc là khà, gồm chữ Hán-Việt kỳ cắt bỏ một chân trái.

  • chữ đọc là khoai, gồm chữ Hán-Việt thổ (loại đất) và một phần là âm Hán-Việt chữ khoa, cắt bỏ phần trên.

  • chữ đọc là hũ, gồm chữ Hán-Việt thổ (loại đất) và một phần là âm chữ hữ, cắt bỏ phần trước.

    [Xem thêm Lê Văn Quán và các bài cấu tạo chữ Nôm.]

    Các bộ mă chuẩn chữ Nôm dùng trong trao đổi thông tin:

    Kể từ năm 1993, Tổng cục Tiêu chuẩn, Đo lường, Chất lượng Việt Nam in hai quyển tiêu chuẩn chữ Nôm: quyển một TCVN 5773:1993 gồm 2.357 chữ (gồm 1.775 chữ thuần Nôm) và quyển hai TCVN 6056:1995 gồm 3.349 chữ mượn hoàn toàn chữ Hán. Mỗi chữ gồm số thứ tự, h́nh dáng chữ, xuất xứ (từ tự điển nào) và cách đọc (viết theo chữ quốc ngữ). Chữ Nôm được tạo theo phông bitmap 24x24 và 96x96. Cơ quan in hai tiêu chuẩn này có thể sắp chữ theo thứ tự 214 bộ của Khang Hy Tự điển. Tuy nhiên, việc dùng 214 bộ c̣n đang thảo luận v́ chữ thuần Nôm, chữ thuần Triều (Triều Tiên) và chữ thuần Nhật (kể cả chữ Trung Quốc) gồm nhiều "bộ" không nằm trong Khang Hy.

    Nhóm Nghiên cứu chữ biểu ư Ideographic Rapporteur Group (gồm các uỷ ban tiêu chuẩn quốc gia của Trung Quốc, Triều Tiên, Nhật, Việt Nam, Đài Loan, Singapore, v.v.) do Tổ chức Tiêu chuẩn Quốc tế ISO/IEC JTC 1/SC 2/WG 2 lập ra năm 1993 (Việt Nam là một trong 4 nước tham gia đầu tiên) vừa họp xong tại Thành phố Hồ Chí Minh (15-19 tháng 12, 1997) trong chương tŕnh đưa các loại chữ biểu ư vào kho chữ quốc tế. Sự tham gia này giúp Việt Nam thấy được toàn bộ công tŕnh kỹ thuật của quốc tế lập kho chữ biểu ư, rút ngắn công tŕnh xây dựng chuẩn chữ Nôm của ḿnh.

    Việc in hai tiêu chuẩn chữ Nôm, tuy c̣n sơ khởi (chưa có chuẩn bàn phím), nhưng đă được hai cơ quan Unicode (Mỹ) và Cơ quan Chuẩn Quốc tế ISO 10646 chấp thuận. Trước nhất, việc này giúp cho việc in ấn, truyền thông chữ Nôm (hơn tám mươi năm nay không in được chữ Nôm, phải vẽ tay), và giúp cho thư viện cũng như các nhà nghiên cứu liệt kê, phiên thành chữ quốc ngữ, hoặc in lại các tài liệu chữ Nôm cho nhiều nơi cần nghiên cứu, sử dụng. Sau nữa, việc này giúp cho việc học và giảng dạy chữ Nôm, nhất là cho các sinh viên Việt Văn bậc trung học và đại học dễ hơn. Cuối cùng, nó giúp các nhà bảo tàng nhận dạng chữ Nôm (tự động) và phiên thành chữ quốc ngữ (tự động) trong việc bảo tồn và truyền bá các kho tàng chữ Nôm.

    Việc sử dụng máy tính, lập chuẩn thông tin, đối chiếu Nôm-quốc ngữ, đưa chữ Nôm vào kho chữ quốc tế, ... là những bước khởi đầu rất nhỏ để gây dựng lại sử liệu, kiến thức và kho tàng chữ Nôm bị chiến tranh gần như xoá sạch. Những bước tiếp tục như quét lưu trữ, nhận dạng và phiên thành chữ quốc ngữ tự động, v.v. c̣n nhiều phức tạp và cần có sự tham gia của những học giả trẻ trong chúng ta...

    1997.

    Các tài liệu tham khảo tiêu biểu:
    1. Đào Duy Anh. 1975. Chữ Nôm: nguồn gốc, cấu tạo, diễn biến. Nhà xuất bản Khoa học Xă hội. Hà Nội.
    2. Húnh-Tịnh Paulus Của. 1895. Đại Nam Quấc âm tự vị. Sàig̣n. In lại: Nhà xuất bản Xuân Thu.
    3. Lê Văn Quán. 1981. Nghiên cứu về chữ Nôm. Nhà xuất bản Khoa học Xă hội. Hà Nội.
    4. Nguyễn Du. 1993. Truyện Kiều: đối chiếu chữ Nôm - Quốc ngữ, do Vũ Văn Kính khảo lục. Viện Bảo tàng Lịch sử Tp. Hồ Chí Minh.
    5. Tiêu chuẩn Việt Nam. TCVN 5712:1993. Công nghệ thông tin: Bộ mă chuẩn 8-bit lí-tự Việt dùng trong trao đổi thông tin. Hà Nội.
    6. Tiêu chuẩn Việt Nam. TCVN 6064:1995. Công nghệ thông tin: Bố trí bàn phím chữ Việt cho các hệ văn pḥng. Hà Nội.
    7. Tiêu chuẩn Việt Nam. TCVN 5773:1993. Công nghệ thông tin: Bộ mă chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin - Phần 1: Chũ Nôm Việt. Hà Nội.
    8. Tiêu chuẩn Việt Nam. TCVN 6056:1995. Công nghệ thông tin: Bộ mă chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin: Chữ Nôm Hán. Hà Nội.
    9. Vũ Văn Kính & Nguyễn Quang Xỹ. 1971. Tự điển chữ Nôm. Trung tâm Học liệu. Sàig̣n.
    10. Viện Ngôn ngữ học. 1976. Bảng tra chữ Nôm. Nhà xuất bản Khoa học Xă hội. Hà Nội.

 

Sưu Tầm Tài Liệu và Web Design

  Hà Phương Hoài

Hỗ Trợ Kỹ Thuật

Hoàng Vân, Julia Nguyễn

Web Database

Nguyễn Hoàng Dũng
Xin vui ḷng liên lạc với  haphuonghoai@gmail.com về tất cả những ǵ liên quan đến trang web nầy
Copyright © 2003 Trang Ca Dao và Tục Ngữ
Last modified: 03/12/18