Validity Là Gì

Độ ổn định (Reliability) và Độ chuẩn xác (Validity) trong nghiên cứu khoa học xãhội

Lời mở đầu

Litwin (1995) cho rằng một nghiên cứu khoa học xã hội muốn thành công phải phụ thuộc vào rất nhiều yếu tố. Không chỉ dừng lại ở việc có được một bộ công cụ nghiên cứu tốt và phương pháp chọn mẫu tốt. Một nghiên cứu muốn thành công còn phụ thuộc vào cách thức thu thập số liệu. Một nghiên cứu tồi sẽ cho ra một số liệu tồi. Số liệu tồi ở đây là số liệu không có độ ổn định (unreliable) và không có độ chuẩn xác (unvalid). Một nghiên cứu được cho là tốt khi số liệu thu được đảm bảo tính ổn định và tính chuẩn xác, số liệu đó nói lên một bức tranh tổng thể, đi sâu, chi tiết vào vấn đề mà nhà nghiên cứu quan tâm (Robson, 2010).

Bạn đang xem: Validity là gì

Trong lĩnh vực khoa học xã hội hiện nay, các nhà nghiên cứu luôn cố gắng nâng cao chất lượng của số liệu bằng cách tăng độ ổn định (Reliability) và độ chuẩn xác (Validity) của kết quả nghiên cứu. Đây là vấn đề cơ bản nhưng không dễ dàng. Hiện nay, ngay việc sử dụng thuật ngữ “reliability” và “validity” trong tiếng việt còn chưa có sự thống nhất. Sự chưa thống nhất này là một trong những nguyên nhân dẫn đến nhiều người chưa hiểu thực sự đúng về mặt bản chất của hai khái niệm “reliability” và “validity”. Trong bài viết này tác giả sẽ chọn cách gọi “Reliability” là độ ổn định, “Validity” là độ chuẩn xác. Sau đó, tác giả sẽ tập trung giới thiệu một cách khái quát về bản chất, cách thức đo lường độ ổn định (Reliability) và độ chuẩn xác (Validity) góp phần hiểu rõ hơn về mặt bản chất của hai khái niệm cơ bản trong nghiên cứu khoa học xã hội này.

Độ ổn định (reliability):

Kiểm tra độ ổn định (Reliability Test) là kỹ thuật kiểm tra thống kê về hiệu quả của bộ công cụ nghiên cứu, được sử dụng với nhiều mục đích nghiên cứu khác nhau: kiểm tra độ tin cậy của phiếu câu hỏi, kiểm tra độ tin cậy của một quan sát, kiểm tra độ tin cậy trong nghiên cứu thực nghiệm. Bản chất của độ ổn định (Reliability) ở đây là nhà nghiên cứu thu được những kết quả giống nhau sau nhiều lần kiểm tra, nghiên cứu. Nói cách khác, độ ổn định (Reliability) ở đây chính là sự ổn định về mặt kết quả trong một chu trình thời gian (Robson, 2010).

Để hiểu căn bản sự khác nhau giữa độ ổn định (Reliability) với độ chuẩn xác (Validity). Tác giả xin lấy một ví dụ dưới đây để nhận diện rõ bản chất của độ ổn định (Reliability).

 

Ví dụ: để đo mức độ hài lòng về nghề nghiệp, một nhà nghiên cứu đặt ra 3 câu hỏi: Bạn có thích xem ca nhạc không? Trong hai loại bánh và Hamburgers, bạn thích ăn loại bánh nào? Và nữ diễn viên trong bộ phim Titanic nào mà bạn yêu thích? Các kết quả trả lời câu hỏi trên không thay đổi trong một chuỗi thời gian, chứng minh rằng 3 câu hỏi đó có độ ổn định (Reliability). Tuy nhiên, câu hỏi ở đây đặt ra là các câu hỏi trên có độ chuẩn xác (Validity) không? Câu trả lời ở đây là KHÔNG. Bởi vì, các câu hỏi đó không đo mức độ hải lòng về nghề ngiệp của các cá nhân.

 

Đặc điểm của độ ổn định (Reliability)

 

1.1. Tính tương đương (Equivalence)

Tính tương đương (Equivalence) được hiểu là số lần ra kết quả giống nhau giữa hai hay nhiều công cụ nghiên cứu được tiến hành trong cùng một thời điểm thời gian. Tính tương đương (equivalence) được đo lường thông qua kỹ thuật “Parallel forms”. Đây là kỹ thuật mà nhà nghiên cứu lựa chọn cùng một phương pháp đo lường đối với cùng hoặc khác nhóm khách thể nghiên cứu trong cùng một thời điểm thời gian. Chỉ số tương quan giữa các nhóm càng cao, chỉ số tương đương (equivalence) sẽ càng cao. Tuy nhiên, trong thực tế, kỹ thuật “Parallel forms” rất khó thực hiện bởi vì nhà nghiên cứu không thể kiểm định hai lần test một cách độc lập. Ví dụ: không thể có sự cân bằng về trung bình, biến số với kỹ thuật đo lường khác (Robson, 2010).

1.2. Tính ổn định (Stability)

 

Tính chắc chắn (stability) được hiểu như sau: sau nhiều lần tiến hành nghiên cứu với cùng nhóm khách thể nghiên cứu, nhà nghiên cứu thu được những kết quả như nhau. Nói cách khác kết quả nghiên cứu thu được giữ ổn định, không thay đổi từ lần kiểm tra 1 cho đến nhiều lần kiểm tra tiếp theo. Kỹ thuật này được đo lường bằng phương pháp Test va Retest. Testretest được tính bằng chỉ số tương quan giữa kết quả của lần test 1 và kết quả của lần test 2. Trong kỹ thuật TestRetest, nhà nghiên cứu cần tuân thủ 2 nguyên tắc quan trọng. Thứ nhất là vấn đề đo lường không được thay đổi trong quá trình thời gian. Thứ hai, quãng thời gian giữa hai lần Test phải đủ dài để sự “ghi nhớ” của người trả lời ở lần test 1 không bị ảnh hưởng tới kết quả trả lời của họ ở những lần test thứ 2. (Bryman, 2008).

1.3. Tính đồng nhất (Internal consistency or homogeneity)

Litwin (1995) cho rằng bản chất của tính đồng nhất (Internal consistency) là sự thể hiện mối liên hệ giữa các tiêu chí trong bộ công cụ nghiên cứu. Ví dụ, một nhà nghiên cứu muốn tiến hành một kiểm tra để đo lường tổ chức xã hội trong trại giam, nhà nghiên cứu cần phải xác định độ ổn định của các tiêu chí trong bộ công cụ để đo lường. Nếu các tiêu chí có mối liên hệ tương quan cao với những tiêu chí khác, nhà nghiên cứu có thể tự tin về độ ổn định của bộ công cụ nghiên cứu. Chỉ số đồng nhất (internal consistency) được thực hiển chỉ duy nhất một lần kiểm tra cho nên có thể tránh được những nhược điểm liên quan đến việc kiểm tra trong nhiều giai đoạn thời gian khác nhau. Tính đồng nhất (internal consistency) được tính toán thông qua chỉ số alpha Cronbach và KR-20. Sự khác biệt giữa 2 chỉ số trên nằm ở thang đo. Chỉ số tương quan Alpha Cronbach thường đi đối với thang đo 5 hay còn gọi là thang đo Likerts (1= Rất không đồng ý, 5= Rất đồng ý). Trong khi đó chỉ số KR-20 thường được sử dụng với thang đo (Có/ không; đúng/sai) (Kudder & Rechardson, 1937).

Công thức tính KR-20 = N/ (N-1)<1-Sum (piqi)/Var (X)>

Công thức tính chỉ số tương quan alpha: = N/(N – 1)<1 – Sum Var(Yi)/Var(X)>

Kết quả chỉ số tương quan Apha cronbach

+ Tương quan mạnh: Alpha >=0.7

+ Tương quan bình thường: chỉ số alpha >0.4 hoặc 0.5

+ Tương quan yếu : alpha

Hiện nay nhà nghiên cứu có thể sử dụng phần mềm thống kê chuyên dụng SPSS để tính chỉ số Alpha Cronbach.

Độ chuẩn xác (Validity)

 

Robson (2010) cho rằng độ chuẩn xác (Validity) trong nghiên cứu khoa học xã hội là sự phản ánh chính xác bộ công cụ đo lường có đo lường đúng, đầy đủ vấn đề mà nhà nghiên cứu muốn đo lường hay không? Độ ổn định (Reliability) thường liên quan đến tính chính xác, ổn định của bộ công cụ đo lường. Tuy nhiên, độ chuẩn xác (Validity) lại kiểm tra xem nhà nghiên cứu có thực sự đo lường đúng và đầy đủ vấn đề nghiên cứu. (Mehrens & Lehman, 1987). Để hiểu rõ sự khác biệt giữa độ chuẩn xác (Validity) và độ ổn định (Reliability) xin xem lại trong ví dụ minh họa trong phần độ ổn dịnh (Reliability) nêu trên.

Litwin (1995) cho rằng để làm rõ độ chuẩn xác (Validity), nhà nghiên cứu cần tìm hiểu hai vấn đề chính: Ngoại hiệu lực (External Validity) và nội hiệu lực (Internal Validity).

2.1. Ngoại hiệu lực (External Validity)

 

Litwin (1998) cho rằng ngoại hiệu lực (External validity) liên quan đến vấn đề bao quát của một nghiên cứu. Nói cách khác, ngoại hiệu lực có thể được hiểu rằng kết quả của nghiên cứu có thể suy rộng ra tổng thể hay không?

2.2. Nội hiệu lực (Internal Validity)

Ba vấn đề quan trọng trong nội hiệu lực (Internal Validity) cần được quan tâm: Hiệu lực về nội dung (Content validity), hiệu lực bề ngoài (Face validity), hiệu lực về cấu trúc (Construct validity) (Litwin, 1995).

2.2.1.Hiệu lực nội dung (Content validity)

 

Carmines & Zeller (1991) cho rằng hiệu lực nội dung (Content validity) được hiểu là nhà nghiên cứu có đo lường đầy đủ những vấn đề trong nội dung cần nghiên cứu hay không? Có những vấn đề nào quan trọng trong nội dung nghiên cứu mà nhà nghiên cứu chưa đề cập hay không? Để hiểu rõ hơn về hiệu lực nội dung (content validity), tác giả xin lấy ví dụ sau: một số nhà khoa học xã hội nghiên cứu về việc học toán. Họ tiến hành một cuộc điều tra để kiểm tra kỹ năng toán học. Nhóm nghiên cứu này chỉ kiểm tra phép tính nhân và sau đó rút ra kết luận của nghiên cứu đó. Litwin (1995) cho rằng nghiên cứu của họ không có được hiệu lực về nội dung. Bởi vì ngoài phép tính nhân, toán học còn nhiều chức năng và nội dung khác. Litwin (1998) tiếp tục lập luận rằng trong nghiên cứu văn hóa xã hội, hiệu lực về nội dung buộc nhà nghiên cứu phải xác định rất rõ phạm vi, giới hạn trong nội dung mà họ nghiên cứu.

2.2.2.Hiệu lực bề ngoài (Face validity)

 

Theo Robson (2010), hiệu lực bề ngoài liên quan đến việc đo lường được thực hiện như thế nào? Cách thức thu thập thông tin có thực sự là hợp lý và chính xác hay không? Các nội dung nghiên cứu có được sắp xếp, bố cục tốt hay có độ ổn định hay không? Không giống như hiệu lực về nội dung (Content validity), hiệu lực bề ngoài (Face validity) không liên quan nhiều đến nội dung nghiên cứu mà liên quan nhiều đến yếu tố hình thức trình bày (Robson, 2010)..

Xem thêm: Smart Defrag 6 - Best Free Disk Defrag Software

2.2.3. Hiệu lực về tiêu chuẩn (Criterion Validity)

 

Robson (2010) cho rằng hiệu lực về tiểu chuẩn (Criterion Validity) là kỹ thuật đo lường để kiểm tra sự đồng thuận giữa kết quả nghiên cứu thu được từ bộ công cụ đang xây dựng, hoàn thiện với những kết quả nghiên cứu mẫu (Objective results) (Lưu ý: cùng một mẫu nghiên cứu). Kết quả nghiên cứu mẫu (Objective results) phải đạt tiêu chuẩn cao về chất lượng (the gold standard). Hiệu lực về tiêu chuẩn được tính bằng hệ số tương quan (Correlation coefficient) giữa hai kết quả nghiên cứu của 2 kỹ thuật đo lường.

Litwin (1998) cho rằng hiệu lực về tiêu chuẩn được chia thành: hiệu lực đồng quy (Concurent validity) và hiệu lực dự đoán (Predictive validity).

Hiệu lực đồng quy (Concurent validity) tương đối giống về mặt kỹ thuật test với hiệu lực về tiêu chuẩn (Criterion validity). Nhà nghiên cứu tìm sự đồng thuận giữa một bộ công cụ đo lường với một công cụ đo lường chuẩn. Hệ số tương quan giữa hai kết quả nghiên cứu của hai bộ công cụ càng cao thì hiệu lực đồng quy càng cao.. Ví dụ: một nhà nghiên cứu muốn tiến hành một bài kiểu tra IQ mới, yêu cầu chỉ 5 phút cho một nội dung, so sánh với 90 phút một nội dung trong bài kiểm tra IQ như thường lệ. Nhà nghiên cứu sắp xếp các bài test cho mọi người trong nhóm 50 người. Kết quả đầu ra là 50 cặp điểm IQ. Điểm từ lần test mới (5 phút/1 nội dung) và điểm từ lần test tiêu chuẩn (90 phút/1 nội dung). Giá trị tương quan về điểm số giữa kết quả của hai lần test thể hiện độ hiệu lực đồng quy (Concurent validity).

Hiệu lực dự đoán (Predictive validity)

 

Hiệu lực dự đoán (predictive validity) cũng giống như hiệu lực đồng thuận (Concurent Validity) được hiểu như là tìm sự trùng khớp giữa một bộ công cụ nghiên cứu và một bộ công cụ nghiên cứu chuẩn với cùng một mẫu nghiên cứu. Hệ số tương quan giữa 2 lần kiểm tra với cùng một mẫu nghiên cứu. Ví dụ: Một nghiên cứu về nghề nghiệp, nhà nghiên cứu có nhiệm vụ đánh giá khả năng của mỗi công nhân phù hợp hay không với những nội dung đặc thù trong công việc. Việc kiểm tra này với mục đích tuyển thêm nhân công mới. Một nhóm gồm 50 người đã thành công trong vòng phỏng vấn được kiểm tra. Ba tháng sau, trình độ làm việc của 50 công nhân mới được đánh giá bởi các nhà tuyển dụng sử dụng thang đo định lượng. Có 50 cặp điểm số trong tay, một cặp điểm số cho một người. Điểm số thu được từ lần test trước khi bắt đầu công việc và điểm số kiểm tra kỹ năng (được đánh giá bằng nhà tuyển dụng sau 3 tháng). Hệ số tương quan giữa 2 lần test thể hiện hiệu lực dự đoán (Predictive validity) của lần kiểm tra mới (Seale.C , 2004).

2.2.4. Hiệu lực cấu trúc (Construct validity)

 

 

Để hiểu khái niệm hiệu lực về cấu trúc, chúng ta cần phải hiểu cấu trúc là gì? Trong tâm lý học, cấu trúc tâm lý (psychological construct) được hiểu như là thái độ, tài năng, khả năng hay kỹ năng của con người xuất hiện trong não bộ. Ví dụ: khả năng thành thạo ngôn ngữ tiếng anh (overal english language proficiency) là cấu trúc (a construct). Nó tồn tại trong lý thuyết và sẽ được cân nhắc để đo lường trong thực tế (Alev Onder. A & Gulay. H, 2009).

Litwin (1998) cho rằng hiệu lực về cấu trúc liên quan đến công cụ đo lường có phản ánh đúng rằng những kỹ thuật, cách thức đo lường có phù hợp với vấn đề nghiên cứu hay không?. Để hiểu rõ thêm về vấn đề này, tác giả xin lấy ví dụ sau: Nếu chúng ta muốn đo chiều cao, chúng ta sẽ dùng thước để đo chứ ta không dùng cân để đo bởi vì chiều cao được tính bằng mét chứ không tính bằng kg.

Để đo lường hiệu lực cấu trúc (Construct validity), nhà nghiên cứu có thể sử dụng các phương pháp như: phân tích nội dung, hệ số tương quan, phân tích nhân tố hay ANOVA để chứng minh sự khác biệt giữa các nhóm khác nhau (Robson, 2010).

Mối quan hệ giữa độ ổn định (reliability) và độ chuẩn xác (Validity)

Một nghiên cứu không có độ ổn định (Reliability) thì chắc chắn không có độ chuẩn xác (Validity). Một nghiên cứu có độ ổn định (Reliability) nhưng chưa chắc đã có độ chuẩn xác (Validity). Một nghiên cứu có độ chuẩn xác (Validity) nhưng chưa chắc có độ ổn định (reliability). Đảm bảo một nghiên cứu có được cả độ ổn định (reliability) và độ chuẩn xác (Validity) là cái đích mà các nhà khoa học xã hội hiện nay cần hướng tới (Robson, 2010).

Kết luận:

 

Trên đây là những giới thiệu một cách khái quát về độ ổn định (Reliability) và độ chuẩn xác (Validity). Chúng ta cần phải khẳng định một lần nữa rằng đây thực sự là vấn đề không dễ dàng trong nghiên cứu khoa học xã hội. Để đảm bảo một nghiên cứu vừa có độ ổn định (Reliability) và độ chuẩn xác (Validity) đòi hỏi nhà nghiên cứu phải tuân thủ nghiêm ngặt về mặt tiêu chuẩn trong hầu hết các khâu của một nghiên cứu khoa học xã hội. Litwin (1998) kết luận rằng khả năng trả lời câu hỏi nghiên cứu tốt ngang bằng với bộ công cụ bạn xây dựng hay là cách thức bạn thu thập số liệu. Tập huấn tốt và trách nhiệm của nhà nghiên cứu hay là một bộ công cụ được tổ chức tốt sẽ cung cấp cho bạn những số liệu chất lượng để trả lời câu hỏi nghiên cứu. Cuối cùng, chúng ta cần nhận ra rằng độ ổn định (Reliability) là cần thiết nhưng nó không đủ cho độ chuẩn xác (Validity). Cụ thể là, muốn một điều gì đó có hiệu lực, điều đó bắt buộc phải có độ ổn định (Reliability) và đảm bảo một nghiên cứu vừa có độ ổn định (Reliability) và độ chuẩn xác (Validity) là cái đích của chúng ta cần hướng tới.

Mô hình về độ ổn định (reliability) và độ chuẩn xác (validity) trong nghiên cứu khoa học xã hội (Litwin, 1995).

 

 

 

 

Tài liệu tham khảo:

 

Allen,M.J & Yen,W.M. (1979). Introduction to measurement theory. Monterey, CA: Brooks/cole.

 

Alev Onder. A & Gulay. H (2009) Reliability and validity of Parenting styles & dimensions questionnaire. Procedia. Social behavioral Science: Volume 1, Issues 1, Pages 508-514.

 

 

Bryman.A (2008) Social research methods. Newyork: Oxford University Press Inc.

 

Cronbach,L.J (1951). Conficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Kudder, G.F & Rechardson, M.W (1937). The Theory of the estimation of test reliability. Psychometrika, 2, 151-160.

 

Litwin (1995) How to measure survey reliability and validity, Sage publicaiton, Inc