Website được thiết kế tối ưu cho thành viên chính thức. Hãy Đăng nhập hoặc Đăng ký để truy cập đầy đủ nội dung và chức năng. Nội dung bạn cần không thấy trên website, có thể do bạn chưa đăng nhập. Nếu là thành viên của website, bạn cũng có thể yêu cầu trong nhóm Zalo "NCKH Members" các nội dung bạn quan tâm.

Nâng cao độ chính xác phân loại ung thư thông qua biểu hiện gen từ các thí nghiệm microarray

nckh
Thông tin nghiên cứu
Loại tài liệu
Bài báo trên tạp chí khoa học (Journal Article)
Tiêu đề
Nâng cao độ chính xác phân loại ung thư thông qua biểu hiện gen từ các thí nghiệm microarray
Tác giả
Do Van Dinh, Tran Hoai Linh, Dang Thuy Hang
Năm xuất bản
2022
Số tạp chí
6A
Trang bắt đầu
33-36
ISSN
1859-3585
Tóm tắt

Dữ liệu biểu hiện gen từ các thí nghiệm microarray là một dữ liệu phổ biến cho chẩn đoán ung thư. Tuy nhiên, điểm đặc biệt của loại dữ liệu này là có rất ít mẫu trong khi số biểu hiện gen lại lên tới hàng nghìn mẫu nên rất khó để lựa chọn được các gen có hiệu quả cho việc phân tích. Do đó, giảm chiều dữ liệu là phương pháp cần thiết trước khi dữ liệu đưa vào phân tích và phân tích thành phần cơ bản (PCA) là phương pháp được sử dụng để giảm chiều dữ liệu đầu vào. Trong bài báo này, có thể nhận thấy không phải phải thành phần dữ liệu đầu tiên là các thành phần dữ liệu tốt nhất do đo cần phải sử dụng thêm phương pháp lựa chọn đặc tính sau khi giảm chiều dữ liệu để chọn ra các đặc tính tốt nhất cho việc phân loại. Vì vậy, chúng tôi đề xuất sử dụng PCA để giảm chiều dữ liệu sau đó dùng thuật toán cây quyết định (DT) để lựa chọn ra các đặc tính phù hợp nhất và mạng MLP để phân loại dữ liệu. Các kết quả đạt được cho thấy đề xuất của chúng tôi cho hiệu quả tốt.

Abstract

Gene expression microarray data is one of the most popular for dianosis of cancer. However, the microarray data have thousands of genes and very few samples, it is crucial to develop techniques to effectively gene selection for analysis. So, dimension reduction is an important issue for analysis, of which principle component analysis (PCA) is one of the frequently used methods, and in the previous works, the top several principle components are selected for modeling according to the descending order of eigenvalues. While in this paper, we argue that not all the first features are useful, but features should be selected form all the components by feature selection methods. We demonstrate a framework for selecting good feature subsets from all the principle components, leading to enhance classifier accuracy rates on the gene expression microarray data. As a case study, we have considered PCA for dimension reduction, decesion tree algorithms (DT) for feature selection, and then Multi Layer Perceptron network (MLP) for classification. Experimental results illustrate that our proposed framework is effective to enhance classification accuracy rates.