|
ĐƠN VỊ CHÍNH TẢ VÀ CÁC ĐẶC ĐIỂM CỦA TIẾNG VIỆT: CHỮ QUỐC NGỮ, HỆ LATINH, CHỮ NÔM, HỆ BIỂU Ư, VÀ UNICODE/ISO IEC 10646 ♣ Ngô Thanh Nhàn Ban Chuẩn bị Sử dụng Bộ Mă chữ Việt theo Unicode/ISO 10646 Ngày 1 tháng 7 năm 2001
Bài này dùng các tiêu chí của
Unicode/ISO IEC 10646, như phổ quát, hiệu quả, đồng bộ và minh bạch, làm
cơ sở cho tập mă đa ngữ Việt Nam. Các điểm chung của chữ quốc ngữ, chữ
Nôm, chữ Chàm, chữ Thái, và các thứ chữ khác rơ ràng là tiếng.
Bài này cho thấy từ một kho chữ viết (một hệ thống chữ viết), ta rút ra
được các đơn vị có h́nh dáng và có nghĩa nhỏ nhất của hệ thống chữ viết
ấy, sao cho hệ thống luật tái tạo kho chữ ấy đúng nhất (tái tạo
theo đặc thù của kho chữ này, nghĩa là ra tiếng Việt), đầy đủ nhất
(tái tạo lại kho chữ ban đầu), thông suốt nhất (không thay đổi
khi chuyển đi lại nhiều lần), và đơn giản nhất (hệ thống các kư
hiệu và hệ luật kết hợp dễ thực hiện nhất). Ta gọi kư hiệu nhỏ nhất này
là một đơn vị chính tả. Các kho chữ trong tiếng Việt là
kho kư hiệu tiếng và hoạt động đặc biệt của chúng trong tiếng
Việt. Ở đây ta chỉ nói về chữ Nôm và chữ quốc ngữ hiện có mặt trong
Unicode/ISO IEC 10646. 1. Trong bài Cuộc đời sâu kín của Unicode—Lén xem chỗ nhược dưới bụng Unicode,1 bà Suzanne Topping ghi lại một cách dễ hiểu những b́nh phẩm của những người tham gia xây dựng và sử dụng Unicode và những người chống nó, để đưa đến kết luận, dù Unicode không làm mất đi các vấn đề qua cách quốc tế hoá, nhưng không ai bằng nó, và nó làm cho các vấn đề đặt ra thêm thú vị. Đa số vấn đề nằm ở nhóm chữ biểu ư CJKV (Trung-Nhật-Triều-Việt) do sự hiểu lầm chữ (tự) lâu đời của Âu Mỹ, mâu thuẫn giữa giải pháp mới cần kỹ thuật mới chưa phổ biến trong khi phải bảo vệ cái cũ lỗi thời nhưng có nhiều người dùng, v.v. Bà Topping cũng bàn về mâu thuẫn tự nội của giải pháp mà Unicode gặp phải gọi là lộn xộn chuỗi mă tương đương equivalency confusion—ví dụ, bộ chuẩn có 4 mă, o, ô, ố, dấu mũ và dấu sắc, một con chữ phức như ố có nhiều hơn một cách tạo nó: (a) dùng 1 mă ố dựng sẵn, (b) tạo ố bằng hai mă: ô và dấu sắc, hoặc (c) tạo ố dùng ba mă: o, dấu mũ và dấu sắc. Tuy Unicode không khuyến khích dùng (a), nhưng đây có lẽ là vấn đề thảo luận sôi nổi nhất của chữ quốc ngữ khi dùng Unicode. Bài này nêu ra một số vấn đề của chữ quốc ngữ, chữ Nôm và các thứ chữ âm tiết khác như chữ Chàm và chữ Thái, đưa thêm một số tiêu chí để đánh giá chúng theo yêu cầu của từng thứ tiếng dân tộc trong nước Việt Nam. Luận điểm chính là Unicode (hay bất kỳ một bộ mă nào) chỉ có giá trị khi nó đáp ứng được yêu cầu thông tin đúng, đầy đủ, thông suốt và đơn giản của một thứ tiếng nói cụ thể. 2. Chuẩn mă hoá kư tự (character encoding) công nghệ thông tin lấy tính phổ quát (universal), hiệu quả (efficient), đồng bộ (uniform) và minh bạch (unambiguous) làm mục tiêu chính.2 Chúng ta dùng chuẩn Unicode Consortium 16-bit hay ISO IEC 10646 32-bit (ta gọi tắt là Unicode) có nhiều lợi thế hơn các chuẩn kư tự 8-bit trước đây, cơ bản là: Như thế, v́ chữ Nôm, chữ Chàm, chữ Thái và chữ quốc ngữ đều hiện diện trong Unicode, tôi coi đó là lợi thế ta cần nghiên cứu. B. ĐƠN VỊ CHÍNH TẢ Ta gọi một đơn vị chính tả (orthographic unit) 6 là một đơn vị nhỏ nhất có h́nh dáng và có nghĩa của một hệ thống chữ viết. Một đơn vị chính tả được biểu thị bằng một mă kư tự chuẩn. Định nghĩa này cho phép một đơn vị chính tả có tính trừu tượng, nhưng luôn luôn có h́nh dáng, ví dụ, đơn vị chính tả "a A …" là con chữ cái "a" trừu tượng, mang nhiều h́nh dáng khác nhau. Ví dụ, chữ Nôm trời có hai đơn vị chính tả, thiên trên và thượng dưới. Định nghĩa này buộc chúng ta nhận dấu thanh (huyền, sắc, nặng, hỏi, ngă) là đơn vị chính tả (một mă kư tự riêng), trong khi đó, các dấu nguyên âm (mũ circumflex, trăng breve, râu horn, v.v.) không phải là đơn vị chính tả trong chữ quốc ngữ. Nhóm từ "của một hệ thống chữ viết" trong định nghĩa trên cùng nghĩa với từ kho (repertoire) trong Unicode. Nghĩa là các đơn vị chính tả của chữ Nôm là h́nh dáng phân tích có nghĩa nhỏ nhất trong kho chữ Nôm mà thôi. Đơn vị chính tả của chữ quốc ngữ là h́nh dáng có nghĩa nhỏ nhất trong kho chữ quốc ngữ. Nó có nghĩa trong phân tích nội tại của một kho chữ. Ví dụ, dấu mũ (circumflex), trăng (breve), râu (horn), v.v. không có nghĩa trong chữ quốc ngữ, nhưng chúng có nghĩa trong tiếng Pháp, tiếng Tây-ban-nha, tiếng Bồ-đào-nha, chẳng hạn. 1. Phương pháp luận ở đây bắt đầu bằng một kho chữ. Ai cũng phải làm thế. Từ kho chữ ấy, ta rút ra những bộ phận giống nhau nhỏ nhất, cắt tuần tự theo nhiều phương pháp khác nhau và theo dơi toàn bộ các quy tŕnh cắt ấy. Từ một kho chữ có chiều dài nhất định, chúng ta luôn luôn có nhiều quy tŕnh cắt khác nhau thành những đơn vị khác nhau. Mỗi hệ thống cắt cho ta một hệ đơn vị chính tả. Đảo ngược một hệ thống cắt,7 ta có một hệ thống kết hợp riêng cho hệ thống đơn vị chính tả liên hệ. Tất cả các hệ thống kết hợp và đơn vị chính tả của chúng đều sản sinh ra cùng một kết quả (kho ban đầu) như ư. Ví dụ, phân tích kho chữ quốc ngữ, ta có thể có 3 giải pháp (nhớ lại những ngày đầu của chương tŕnh chuẩn hoá): Do đó, chúng ta cần có những tiêu chí độc lập với tất cả các quy tŕnh để đánh giá chúng. Trong một thứ tiếng, chúng ta không bao giờ t́m được kho đầy đủ (ví dụ, kho chữ Hán-Nôm có thể ngày càng nhiều, nhưng không bao giờ đủ, kho tiếng Việt không bao giờ đầy đủ). Hệ các đơn vị chính tả và hệ kết hợp giúp chúng ta t́m ra đặc thù của một thứ chữ viết cho một thứ tiếng… nhờ đó chúng ta tiệm cận được đúng và đầy đủ của một thứ chữ viết (mà không cần khởi đầu bằng một kho đầy đủ). Nếu không có tiêu chí sắp thứ tự đúng chữ quốc ngữ (các âm tiết), v.v., th́ phương pháp dựng sẵn (precomposed) bằng hoặc hơn hẳn phương pháp kết hợp (combining) trong bối cảnh kỹ thuật 8-bit những năm trước đây. Nhưng khi có thêm các tiêu chí về hoạt động khác của ngôn ngữ, như sắp thứ tự, t́m kiếm, bỏ dấu thanh đúng chỗ, v.v. phương pháp kết hợp bắt đầu cho thấy tác dụng của nó… tuy nó đ̣i hỏi phải có kỹ thuật mới (kỹ thuật kết hợp) cho tŕnh bày và in ấn. Phương pháp tổ hợp hoàn toàn (coi các dấu nguyên âm là các đơn vị chính tả) tuy không đúng chuẩn từ điển chữ quốc ngữ trong tiếng Việt nhưng lại có lợi trong một số thứ tiếng dân tộc. Kèm theo việc phân tích kho chữ không cần nh́n vào tiếng nói đưa ta đến lựa chọn này. V́ chưa có một giải pháp chữ quốc ngữ nào sử dụng phương pháp này (trừ bàn phím), tôi xin để dành phân tích phương pháp này cho tương lai, v́ chúng ta không dễ dàng lơ đi. 2. Thêm nữa, ta có thể gọi một đơn vị chính tả của chữ quốc ngữ là kư hiệu biểu thị một đơn vị chính âm (âm vị, phoneme) theo từ điển chuẩn. Đơn vị chính âm là một đơn vị trong tâm thức của người bản xứ. Ví dụ, vần là một đơn vị trong tâm thức của người nói tiếng Việt (có thể nói vần là đơn vị âm thanh phổ quát—mọi ngôn ngữ đều có thi ca, dùng vần điệu trong thi ca). Trong bài này chúng ta bắt đầu dùng đơn vị chính tả gần với đơn vị chính âm để cho thấy sự cần thiết phải tiệm cận chính tả và tiếng nói, cho đơn vị chính tả cái ta gọi là chứng cớ thực tế sự hiện hữu của nó (physical evidence) trong ngôn ngữ. Ta có thể nghe/thấy được các đơn vị chính tả qua cách đánh vần của một dân tộc. Cùng một âm tiết /xem/, cách đánh vần chữ quốc ngữ cho ta cấu tạo nội tại và các đơn vị chính tả trong chữ quốc ngữ—khác với cách đánh vần chữ Nôm. Đánh vần là chỉ cho người khác cách viết đúng như ư ḿnh. Chữ quốc ngữ: xem—e mờ em xờ em xem 8 Chữ Nôm: xem—mục bên trái, chiêm bên phải Cách đánh vần chữ quốc ngữ cho ta các đơn vị chính tả: e mờ xờ, và các đơn vị cao hơn, e, em và xem. Đơn vị em, ta gọi là vần của đơn vị xem ta gọi là tiếng. Đặc điểm của cách đánh vần này là ta không bắt đầu từ trái sang phải, mà bắt đầu từ nguyên âm trung tâm e (đă là một tiếng), xong thêm m để làm thành vần em trước, xong mới cộng thêm phụ âm x, xong mới thêm dấu thanh, để thành tiếng xem. Ngược lại, cách đánh vần trong chữ Nôm cho ta hai đơn vị chính tả: mục và chiêm. Đơn vị chính tả "mục" cho ta vùng nghĩa của chữ xem. Đơn vị chính tả "chiêm" cho ta vùng âm thanh của chữ xem.9 Chữ Nôm v́ đă có hơn 10 thế kỷ, vùng âm thanh ghi lại những chặng biến đổi âm thanh trong lịch sử phát triển tiếng Việt. Vùng nghĩa cho ta biết loại từ (classifier, c̣n gọi là bộ) của chữ xem. Một tiếng nói có hai thứ chữ viết theo
hai hệ thống khác nhau mang cho tiếng Việt nhiều lợi thế. C. TIẾNG VÀ CÁC YÊU CẦU CHUẨN CNTT Tiếng là đơn vị mà chuẩn các chữ viết (Nôm, quốc ngữ, Chàm. Thái) và chuẩn tiếng nói gặp nhau. Không phải vô t́nh mà hai bên một chữ quốc ngữ và một chữ Nôm (một chữ Chàm hay một chữ Thái) có các dấu cách. Tiếng là âm tiết. Chữ (hay tự) là kư hiệu (h́nh vẽ) của tiếng. Như vậy, về mặt chữ viết, chúng ta chọn chữ làm một đơn vị nghiên cứu để mô tả tiếng là một đơn vị âm thanh. Ở đây, ta chọn yêu cầu "đúng", "đầy đủ", "thông suốt", và "đơn giản" làm thước đo các giải pháp chuẩn kư tự. Chữ quốc ngữ tiếng Việt gồm có: 4 chữ cái để ghi tiếng các dân tộc khác: f, j, w, z.
7. Một tiếng trong tiếng Việt gồm có một phụ âm đầu, một bán nguyên âm, một nguyên âm chính, một phụ âm hay bán nguyên âm cuối và một thanh.
Trong lịch sử, một tiếng gồm một phụ âm (phụ âm đầu + bán nguyên âm tṛn môi), một vần (nguyên âm chính + phụ âm/bán nguyên âm cuối) và một thanh. Một tiếng phải có ít nhất một thanh và một nguyên âm chính, các thành phần khác của tiếng xuất hiện theo các mẫu dưới đây. Sự phân biệt phụ âm, vần và thanh mô tả tiếng nói đầy đủ nhất.
Có một số luật kết hợp chuẩn giữa các đơn vị tiếng (thanh, phụ âm, vần) và các luật kết hợp chuẩn cho các cấu phần nội bộ của tiếng.10 Ví dụ, chỉ có hai thanh sắc và nặng xuất hiện khi các vần tận cùng bằng –p, –t, –c và –ch. 8. Các mẫu cấu tạo trên và các luật
kết hợp cho ta khoảng 15.000 tiếng nói được và nhận biết được là tiếng Việt,
nhưng chỉ có trên dưới 7.000 tiếng Việt hiện đại dùng đến. Định nghĩa đơn vị chính tả chính xác hơn định nghĩa kư tự của Unicode (không làm rơ sự tương ứng của chữ biểu ư, gốc ấn, gốc hồi,… và chữ latinh). Nó phát huy lợi thế của Unicode giúp chúng ta làm được tập mă đa ngữ Việt Nam, nằm trong tập mă đa ngữ quốc tế. Kỹ thuật dấu rời (combining marks)—những đơn vị chính tả—cho phép chúng ta tiệm cận đặc thù của các thứ chữ viết và tiếng nói trong nước. Nó cho phép chúng ta ghi lại, và nhái lại đúng hoạt động đặc thù của tiếng Việt và các thứ tiếng khác, như nhập dữ liệu (theo phong cách riêng của mỗi thứ chữ viết), sắp thứ tự, t́m kiếm, chuẩn chính tả tự động, chuyển ngữ (ví dụ, Nôm–quốc ngữ và ngược lại), dịch/trữ/t́m/phát sinh âm thanh, sản sinh các cách nói lái, từ láy, vần điệu trong lời nói, nhạc, thi ca, v.v. Chúng ta có mục tiêu rộng hơn để làm dễ việc chuyển hoá giữa chữ viết và âm thanh của một thứ tiếng. Trong đó, theo những tri thức/nhận xét về tiếng của tiền nhân, ta gộp các kư tự thành đơn vị lớn hơn, đó là phụ âm, vần và thanh. Định nghĩa này cho phép hai ngành công
nghệ tin học về âm thanh và chữ viết phát triển song song, dành chỗ cho các
nhà tin học trẻ tham gia giải quyết quan hệ của chữ viết và tiếng nói, góp
phần vào việc tự động thu tin tức đủ loại (vừa tiếng vừa chữ), giúp cho người
điếc, người câm, người ngoại quốc du lịch, giảng dạy tiếng Việt tự động, thu
thập tri thức (tiềm tàng trong chữ viết và tiếng nói), v.v.
Ngô Thanh Nhàn
Chú thích: l Suzanne Topping, The secret life of Unicode—A peek at Unicode’s soft underbelly, IBM Developer Works (http://www-106.ibm.com/developerworks/unicode/library/u-secret.html), 5/2001. 2The Unicode Standard, Version 2.0 (1996). Ađison-Wesley Developers Press. Trang 1-2.
4 Ngô Thanh Nhàn, The syllabeme and patterns of word formation in Vietnamese [Tiếng và các mẫu cấu tạo từ trong tiếng Việt]. Luận án tiến sĩ, Đại học New York. 1984. Abstract, Trang 1-2. 5Sách đă dẫn. Phụ Lục A, Orthographic-Phonological Conversion [Chuyển đổi chính tả–âm vị], trang A1-A6. 6A proposal for standard Vietnamese character encodings in a unified text processing framework, James Đỗ Bá Phước, Ngô Thanh Nhàn và Nguyễn Hoàng. Computer Standards & Interfaces 14 (1/1992):3-10. 7Có hệ thống cắt không đảo ngược được. Do đó, chúng ta thường chọn các cách cắt là những chương tŕnh xử lư chuỗi (string functions) đảo ngược được. 8 Chữ quốc ngữ có những chỗ "hơi" bất ngờ (do lịch sử để lại) như các nhóm phụ âm cuối –ch, và –nh khi phát âm thành /k/ cờ và /ng/ ngờ: Chữ Nôm: (tấp) tểnh—tâm trái, tỉnh phải. 10Ngô Thanh Nhàn, sách đă dẫn, Chương Ba, Những nhận xét về mô tả âm vị học tiếng Việt, trang 59-128. |
Xin vui ḷng liên lạc với
haphuonghoai@gmail.com về tất cả
những ǵ liên quan đến trang web nầy
|