Nghiên cứu khoa học (NCKH) là một họat động tìm kiếm, xem xét, điều tra, hoặc thử nghiệm. Dựa trên những số liệu, tài liệu, kiến thức,… đạt được từ các thí nghiệm NCKH để phát hiện ra những cái mới về bản chất sự vật, về thế giới tự nhiên và xã hội, và để sáng tạo phương pháp và phương tiện kỹ thuật mới cao hơn, giá trị hơn. Tại trường Đại học Kinh tế Nghệ An, hoạt động NCKH là một trong những nhiệm vụ chính của giảng viên. Gần đây, hoạt động NCKH ngày càng được quan tâm, huy động không chỉ lực lượng chuyên môn nghiên cứu mà còn là hoạt động được khuyến khích thế hệ trẻ từ khi còn ngồi trên ghế nhà trường “thế hệ sinh viên”.
Một trong những khâu thiết yếu trong nghiên cứu khoa học chính là vấn đề xử lý dữ liệu thu thập trong quá trình điều tra phục vụ cho việc phân tích, thảo luận kết quả và làm căn cứ cho việc đề xuất các giải pháp hữu ích cho vấn đề nghiên cứu. Ngày nay, việc xử lý dữ liệu không còn thủ công nữa mà có rất nhiều phần mềm xử lý dữ liệu. Vậy lựa chọn phần mềm nào thích ứng, phù hợp, thuận tiện nhất? Đây là câu hỏi mà mỗi nhà nghiên cứu đặt ra khi đã tìm được phương pháp nghiên cứu thích hợp cho đối tượng nghiên cứu. Việc lựa chọn sử dụng phần mềm nào cần phụ thuộc vào đặc điểm dữ liệu nguồn và khả năng sử dụng phần mềm của người nghiên cứu. Bài viết trả lời dựa trên những kinh nghiệm của bản thân và trích lược một số ý kiến chuyên gia nghiên cứu.
Đối với biến số định lượng, việc xử lý dữ liệu bằng các phần mềm là bắt buộc nhằm đơn giản hóa quá trình xử lý dữ liệu và chạy mô hình để phục vụ diễn giải, đánh giá kết quả. Tuy nhiên, việc lựa chọn phần mềm nào cần phụ thuộc vào đặc điểm nguồn dữ liệu. Việc lựa chọn các thống kê cơ bản và loại test kiểm định thống kê dựa vào dạng thống kê (mô tả, tương quan, so sánh) và tính chất của biến số đó. Sau khi đã thu thập, xử lý và quản lý dữ liệu, chúng ta tiến hành phân tích dữ liệu. Có nhiều cách phân tích tùy theo thiết kế nghiên cứu, nhưng nói chung việc phân tích dữ liệu thống kê thường có ba dạng: Phân tích thống kê để mô tả 1 biến số; Phân tích thống kê để tìm tương quan giữa hai biến số; Phân tích thống kê để so sánh giữa các biến số. Trong một thiết kế nghiên cứu có thể sử dụng 1, 2 hay cả 3 dạng phân tích trên. Nếu là biến phân loại ta phân tích tỷ lệ, biến liên tục phân phối chuẩn ta phân tích giá trị trung bình và trường hợp biến liên tục không phân phối chuẩn ta phân tích giá trị trung vị.
Phần mềm thống kê và phân tích số liệu là một trong những công cụ thiết yếu đối với các nhà thống kê ở nhiều lĩnh vực . Có rất nhiều phần mềm chuyên dụng, trong đó phải kể đến: phần mềm xử lý số liệu thống kê Excel, SPSS, STATA, … Mỗi phần mềm có những đặc trưng, ưu điểm và nhược điểm riêng.
1. Phần mềm Excel
Microsoft Excel là một phần mềm trong bộ phần mềm Microsoft Office chuyên về xử lý dữ liệu bảng tính. Ra đời phiên bản đầu tiên từ năm 1987, trải qua hơn 30 năm hình thành và phát triển bởi công ty phần mềm danh tiếng nhất thế giới Microsoft, Excel đã trở thành phần mềm bảng tính phổ biến nhất thế giới. Hiện nay, Microsoft Excel đã có mặt trên nhiều nền tảng hệ điều hành như Windows, MacOS, Android, IOS, …
Các ứng dụng chính của Excel trong xử lý dữ liệu bao gồm:
- Thống kê dữ liệu, trong đó có cả thống kê một cách trực quan dựa vào bảng, biểu đồ, dashboard…
- Phân phối xác suất.
- Tính toán tương quan và hồi quy tuyến tính.
- Kiểm định các giả thiết.
- Phân tích tình huống.
Ngoài ra, trong các phiên bản Excel mới có rất nhiều tính năng hỗ trợ làm việc hữu dụng như đồng bộ hóa, làm việc trên nhiều thiết bị cùng một lúc, dự đoán dữ liệu thống kê, công cụ dịch nhanh, giao diện đẹp…
Phần mềm Excel là phần mềm xử lý, tính toán cho phép phân tích dữ liệu một cách khá hiệu quả thông qua việc sử dụng menu Tools Data Analysis (nếu không có mục này thì chọn Tools Add-in Analysis ToolPak để cài đặt thêm)
Ưu điểm của phần mềm Excel chính là công cụ cơ bản, phổ biến nhất thể giới trong xử lý dữ liệu. Dù nhà nghiên cứu có thông thạo tất cả các phần mềm xử lý dữ liệu thì cũng không thể bỏ qua, không thể không sử dụng Excel. Excel được sử dụng trong phân tích dữ liệu ở tất cả các ngành nghề. Phần mềm Excel có các tính năng phân tích nâng cao giúp mô hình hóa dữ liệu như thiết lập quan hệ tự động, giải pháp DAX, và nhóm thời gian. Khi điều tra thu thập, dư liệu nhận được là dữ liệu thô, lộn xộn. Người nghiên cứu khoa học thường tiến hành nhập dữ liệu vào phần mềm Excel. Nếu mục tiêu nghiên cứu chủ yếu là định tính, thống kê mô tả việc xử lý dữ liệu để phân tích hoàn toàn có thể sử dụng phần mềm phổ biến này.
Nhược điểm của Microsoft Excel:
- Tốn chi phí bản quyền để có thể sử dụng một cách hợp pháp.
- Cần nhiều thời gian và công sức để sử dụng thành thục các tính năng, các hàm…
- Với các máy tính có cấu hình từ trung bình trở xuống, tốn nhiều thời gian và tài nguyên trên máy để mở các file dữ liệu lớn.
- Cách làm việc trên các file phụ thuộc vào thói quen của từng người sử dụng, nên khó làm việc chung.
- Khả năng bảo mật kém.
- Chạy mô hình định lượng trong phần mềm excel gặp khá nhiều khó khăn trong việc nhớ lệnh, gõ lệnh và khá mất nhiều thời gian.
2. Phần mềm SPSS
Hiện nay, SPSS là một phần mềm được rất nhiều người sử dụng ưa thích do nó rất dễ sử dụng. SPSS có một giao diện giữa người và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện. Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét. SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhưng nói chung khá phức tạp và không trực giác.
SPSS (viết tắt của Statistical Package for the Social Sciences) là một phần mềm máy tính phục vụ công tác phân tích thống kê. Hiện SPSS ngày càng được sử dụng nhiều hơn trong nghiên cứu thị trường và cả lĩnh vực quản trị. SPSS cung cấp một hệ thống quản lý dữ liệu và khả năng phân tích thống kê với giao diện đồ họa thân thiện.
Nội dung của SPSS rất phong phú và đa dạng, từ việc thiết kế các bảng biểu và sơ đồ thống kê, tính toán các đặc trưng mẫu trong thống kê mô tả, đến một hệ thống đầy đủ các phương pháp thống kê phân tích như:
- So sánh các bảng mẫu bằng nhiều tiêu chuẩn tham số và phi tham số (Nonparametric Test, các mô hình phân tích phương sai theo dạng tuyến tính tổng quát (General Linear Models), các mô hình hồi quy đơn biến và nhiều biến, các hồi quy phi tuyến tính (Nonlinear), các hồi quy Logistic.
- Phân tích theo nhóm (Cluster Analysis).
- Phân tích tách biệt (Discriminatory Analysis).
- Chuyên sâu khác (Advanced Statistics).
Các chức năng chính của SPSS bao gồm:
- Nhập và làm sạch dữ liệu.
- Xử lý biến đổi và quản lý dữ liệu.
- Tóm tắt, tổng hợp dữ liệu và trình bày dưới dạng biểu bảng, đồ thị bản đồ.
- Phân tích dữ liệu, tính toán các tham số thống kê và diễn giải kết quả.
SPSS là phần mềm xử lý thông tin sơ cấp – thông tin được thu thập trực tiếp từ đối tượng nghiên cứu. Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê). SPSS là một hệ thống phần mềm thống kê toàn diện được thiết kế để thực hiện tất cả các bước trong các phân tích thống kê từ những thống kê mô tả (liệt kê dữ liệu, lập đồ thị) đến thống kê suy luận (tương quan, hồi quy…).
Ưu điểm của SPSS là nó có một bộ soạn thảo dữ liệu tương tự như excel, bộ soạn thảo cho phép vào các dữ liệu và mô tả các thuộc tính của chúng, chính vì vậy SPSS khá dễ sử dụng. Lệnh tự động trên các thanh công cụ. Trong đó điểm mạnh nhất của SPSS là lĩnh vực phân tích phương sai và phân tích nhiều chiều (thí dụ phân tích phương sai nhiều chiều, phân tích nhân tố, phân tích nhóm tổ). SPSS có một giao diện giữa người và máy rất đơn giản để tạo ra các đồ thị và khi đã tạo được một đồ thị, nhờ giao diện này mà người sử dụng có thể tuỳ ý hiệu chỉnh đồ thị cũng như hoàn thiện chúng. Các đồ thị có chất lượng rất cao và có thể dán vào các tài liệu khác, thí dụ như Word hoặc Powerpoint.
Nhược điểm của SPSS là gặp khó khăn khi xử lý đối với những vấn đề ước lượng phức tạp (như hàm xác suất), không hỗ trợ các công cụ phân tích dữ liệu theo lược đồ mẫu, không có công cụ quản lý dữ liệu thật mạnh, ngôn ngữ cú pháp của SPSS khá phức tạp
3. Phần mềm thống kê dữ liệu STATA
STATA là một phần mềm mà nhiều người nghiên cứu mới bắt đầu và sử dụng mạnh đều ưa thích vì nó vừa dễ học. Khác với SPSS, STATA sử dụng gõ các lệnh trực tiếp, có thể vào mỗi lệnh ở một thời điểm để thực hiện (chế độ này được người mới bắt đầu ưa thích) hoặc có thể soạn thảo thành một chương trình bao gồm nhiều lệnh cho một nhiệm vụ và thực hiện cùng một lúc. Thậm chí nếu mắc lỗi trong chương trình thì có thể nhận biết và sửa chữa dễ dàng.
STATA là phần mềm quản lý dữ liệu, xây dựng biểu đồ và đặc biệt là phân tích số liệu định lượng, do hãng StataCorp phát hành lần đầu năm 1985. Stata đặc biệt nổi bật nhờ các bộ câu lệnh có sẵn đồng thời lại sử dụng mã nguồn mở, cho phép người dùng tự soạn công thức và câu lệnh riêng phù hợp với nhu cầu sử dụng của mình.
STATA cho phép người dùng sử dụng nhiều loại dữ liệu, ví dụ như dữ liệu ASCII hoặc bảng tính Microsoft Excel. Dữ liệu được xử lý xong cũng có thể được xử lý bằng những phần mềm khác.
Ưu điểm lớn nhất của Stata chính là việc phần mềm này sử dụng mã nguồn mở. Điều này cho phép người dùng sử dụng những file “chuyên dụng” download từ internet. Một trong những cộng đồng hỗ trợ lớn nhất dành cho người dùng Stata là Statalist. Ở forum này, người dùng có thể upload cũng như download các file chuyên dụng phục vụ cho những mục đích riêng biệt. Bên cạnh đó, STATA là cho phép thực hiện các thao tác phức tạp về dữ liệu một cách dễ dàng. Trong đó điểm mạnh nhất của STATA là hồi qui, hồi qui logistic (những bổ sung mới làm đơn giản hoá việc giải thích kết quả hồi qui logistic, còn hồi qui logistic thứ tự và hồi qui logistic phạm trù là rất dễ thực hiện), mô hình xác suất. STATA cũng có nhiều phương pháp ước lượng mạnh rất dễ sử dụng, bao gồm cả hồi qui mạnh và hồi qui với sai số chuẩn mạnh, và nhiều lệnh ước lượng khác kèm theo sai số chuẩn mạnh. STATA cũng trội hơn về lĩnh vực phân tích dữ liệu theo lược đồ mẫu, cho khả năng áp dụng chúng trong phân tích số liệu điều tra bởi các công cụ hồi qui, hồi qui logistic, hồi qui poisson, hồi qui probit,…Các đồ thị STATA còn có chức năng bổ sung cho phân tích thống kê, thí dụ như có nhiều lệnh làm đơn giản hoá việc tạo ra các đồ thị chẩn đoán hồi qui. Cú pháp của các lệnh đồ thị là dễ sử dụng. Các đồ thị STATA có chất lượng cao và chất lượng xuất bản cũng cao.
Nhược điểm của STATA: Phần mềm này chỉ có thể xử lý một bộ dữ liệu trong một lần mở. Hơn nữa, phần mềm được cài đặt để lưu trữ toàn bộ bộ dữ liệu đang được xử lý, gây trở ngại cho quá trình vận hành nếu bộ dữ liệu đó có dung lượng quá lớn. Một nhược điểm nữa là những file “chuyên dụng” của Stata chưa được thẩm định tính chính xác, vì vậy người dùng cần suy nghĩ và kiểm tra kĩ trước khi sử dụng chúng. STATA hoàn toàn không có khả năng quản lý dữ liệu, mỗi thời điểm STATA chỉ làm việc được với một file dữ liệu, vì vậy những nhiệm vụ xử lý cần nhiều file dữ liệu cùng một lúc đối với STATA là phức tạp hơn. Trong đó điểm yếu nhất là khả năng phân tích phương sai và phân tích nhiều chiều truyền thống như phân tích phương sai nhiều chiều, phân tích nhóm tổ. Các đồ thị của STATA không thể hiệu đính bằng bộ hiệu đính đồ thị nên việc sao chép không thuận lợi như SPSS.
Phần mềm xử lý dữ liệu trong nghiên cứu khoa học là một công cụ hỗ trợ đắc lực cho các nhà nghiên cứu. Nhờ những công cụ này, việc xử lý dữ liệu nhanh chóng, chính xác có độ tin cậy cao. Dựa vào kết quả xử lý, người nghiên cứu dễ dàng phân tích tài liệu mình thu thập được, góp phần đạt được mục tiêu nghiên cứu đề ra.
Nhà nghiên cứu quyết định sử dụng phần mềm nào điều đầu tiên và mẫu chốt vẫn phải quan tâm đến mục tiêu nghiên cứu đã đề ra. Phần mềm xử lý dữ liệu nào cũng được xây dựng dựa trên các thuật toán nên thực chất chúng có nhiều phần gần như nhau. Nếu nghiên cứu không quá phức tạp thì nhà nghiên cứu chỉ việc sử dụng phần mềm mà mình thông thạo nhất, quen thuộc nhất. Còn khi nghiên cứu phức tạp đòi hỏi người nghiên cứu phải hiểu rõ mô hình mình lựa chọn để lựa chọn phần mềm tương thích để thực hiện chính xác các dữ liệu cần xử lý. Phạm vi bài viết hi vọng đóng góp một phần nhỏ trong việc lựa chọn phần mềm xử lý dữ liệu để hoàn thành tốt các công trình nghiên cứu khoa học.
Tin bài: Võ Hương