Tạp chí Khoa học Đại học Đà Lạt, T. 6, S. 2 (2016)

Cỡ chữ:  Nhỏ  Vừa  Lớn

MỘT KỸ THUẬT PHÂN CỤM CHO TỪ LOẠI TIẾNG VIỆT

Nguyễn Minh Hiệp, Nguyễn Thị Minh Huyền, Ngô Thế Quyền, Trần Thị Phương Linh

Tóm tắt


Trong xử lý ngôn ngữ tự nhiên, gán nhãn từ loại (POS tagging) đóng một vai trò quan trọng, là đầu ra, đầu vào của nhiều nhiệm vụ khác (phân tích cú pháp, phân tích ngữ nghĩa...). Một trong những vấn đề liên quan đến việc gán nhãn từ loại là xác định tập từ loại (POS). Điều này có thể được giải quyết bằng các phương pháp học máy không giám sát. Bài viết này trình bày một ứng dụng của thuật toán phân cụm DBSCAN để phân loại từ tiếng Việt từ kho ngữ liệu lớn. Các đặt trưng được sử dụng để mô tả từng từ được định nghĩa một cách tự nhiên bởi ngữ cảnh của từ đó trong câu. Chúng tôi sử dụng một kho ngữ liệu lớn chứa câu được trích tự động từ báo Nhân Dân.

Toàn văn: PDF