XML so với XHTML
Ngôn ngữ đánh dấu mở rộng (còn được gọi là XML) là một bộ quy tắc. Các quy tắc này là cụ thể cho các tài liệu mã hóa điện tử. Mục tiêu chính của XML là nhấn mạnh tính đơn giản, tổng quát và khả năng sử dụng qua internet. XML được ghi chú là định dạng dữ liệu văn bản có hỗ trợ từ Unicode để dễ đọc trên tất cả các ngôn ngữ. Mặc dù mục tiêu chính của thiết kế XML là tập trung vào các tài liệu cụ thể, nhưng nó cũng thường được sử dụng để thể hiện các cấu trúc dữ liệu tùy ý (ví dụ: dịch vụ web). Như vậy, có rất nhiều giao diện lập trình mà các nhà phát triển có thể sử dụng cho mục đích truy cập dữ liệu XML. Ngoài ra còn có một loạt các hệ thống lược đồ được thiết kế đặc biệt để giúp xác định các ngôn ngữ dựa trên XML.
Ngôn ngữ đánh dấu siêu văn bản mở rộng (còn được gọi là XHTML) là một phần của họ ngôn ngữ đánh dấu XML. Nó thực sự mô phỏng hoặc đơn giản là hoạt động như một phần mở rộng của Ngôn ngữ đánh dấu siêu văn bản (hoặc HTML). XHTML hoạt động như một ứng dụng từ họ XML và là một tập hợp con hạn chế hơn của SGML. Do tính chất được hình thành tốt của các tài liệu XHTML, chúng có thể được phân tích cú pháp bằng cách sử dụng trình phân tích cú pháp XML - phân biệt thêm XHTML với HTML.
Một tài liệu XML bao gồm toàn bộ các ký tự được tìm thấy trong Unicode. Có một vài ký tự điều khiển được loại trừ khỏi Unicode; tuy nhiên, những thứ được tìm thấy trong Unicode có khả năng trở thành nội dung trong tài liệu XML. Có rất nhiều phương tiện xác định mã hóa các ký tự Unicode trong tài liệu XML. Ngoài ra còn có các cơ sở thể hiện những nhân vật không có khả năng được sử dụng. Unicode được mã hóa thành byte để được lưu trữ hoặc truyền - các biểu thức Unicode được dịch này được gọi là mã hóa. XML sử dụng bất kỳ, nếu không phải tất cả, các mã hóa được định nghĩa Unicode, cũng như một số mã hóa khác nhau có các ký tự xuất hiện trong Unicode. Nó cung cấp một cơ chế cho phép bộ xử lý XML xác định mã hóa nào đang được sử dụng.
Có ba phiên bản cụ thể của XHTML: XHTML 1.0 Strict, bao gồm các yếu tố và đặc điểm không được đánh dấu không dùng nữa trong HTML 4.01; XHTML 1.0 Chuyển tiếp, bao gồm các yếu tố cụ thể cho bản trình bày (ví dụ: 'phông chữ' và 'đình công'); và XHTML 1.0 Frameset, cho phép xác định các tài liệu của frameset. XHTML cũng có thể được mô đun hóa, cung cấp một bộ sưu tập các thuộc tính trừu tượng mà XHTML có thể được đặt lại và mở rộng thông qua. Đây chỉ đơn giản là một phương tiện để hỗ trợ XHTML mở rộng phạm vi của nó sang các nền tảng nổi tiếng khác (ví dụ như thiết bị di động và truyền hình hỗ trợ web).
Tóm lược:
1. XML là một bộ quy tắc được đặt cho các tài liệu mã hóa; XHTML tương đương với XML của HTML, là một tập hợp con hạn chế hơn của SGML.
2. XML bao gồm hoàn toàn bằng Unicode; XHTML có ba phiên bản: XHTML 1.0 Strict, XHTML 1.0 Transpose và XHTML 1.0 Frameset.