DÖRT AŞAMALI KİMYA TANI TESTİNİN YANITLAMA SÜRESİ VE YANITLAMA PERFORMANSLARININ İNCELENMESİ

EXAMINATION OF RESPONSE TIME AND PERFORMANCE OF THE FOUR TIER CHEMISTRY DIAGNOSTIC TEST

Authors

Abstract

Many measurement methods have been developed to identify misconceptions and have been used in measurement and evaluation processes. These methods include; interviews, open-ended questions, multiple-choice tests, two-tier, three-tier, and four-tier tests. When participants encounter the test item, they respond in two ways: quick guessing and solution behavior. It is important to examine the response time to understand whether the participant exhibits quick guessing behavior or solution behavior. This study aimed to determine the response time and response performance of the Four-Tier Chemistry Diagnostic Test (FTCDT) and the Multiple-Choice Chemistry Test (MCCT). In this study, a descriptive survey method was used. As the data collection tool, the 9-item FTCDT and MCCT related to gas pressure were used. The FTCDT was developed by Ünsal (2019). On the other hand, the MCCT was adapted from the tiered test, and the first tier of the FTCDT was used as a test item. In this study, scientific information reliability KR-20 was calculated for the FTCDT and was found to be 0.460. At the same time, the misconception reliability KR-20 for the FTCDT was calculated and found to be 0.570. In this study, the KR-20 reliability coefficient of the MCCT was found to be 0.520. The study was conducted with the participation of science preservice teachers studying at Dokuz Eylul University, Buca Faculty of Education in the 2020-2021 academic year. The FTCDT was applied to 75 people, and the MCCT was applied to 74 people. Because of this study, the mean response performance of the first tier of FTCDT was calculated as 3.84, while the third tier was calculated as 3.11. In addition, the mean response performance of MCCT was found to be 3.45. The response times for the first and third tier of FTCDT are 10:47 and 7:15, respectively. Additionally, the response time for MCCT is 12:52. In this study, because the participants were not given the right to return the test items, each participant had to answer the test items once and did not have the right to change the answer. In future studies, the scope of the study can be expanded according to the test application form.

Keywords: Misconception, diagnostic test, response time, response performance.

Öz

Kavram yanılgılarını belirlemek için birçok ölçme yöntemi geliştirilmiş ve bu yöntemler ölçme değerlendirme süreçlerinde kullanılmıştır.  Bu yöntemler; mülakatlar, açık uçlu sorular, çoktan seçmeli testler, iki aşamalı, üç aşamalı, dört aşamalı testlerdir. Katılımcılar test maddesiyle karşılaştıklarında iki şekilde cevap verir: hızlı tahmin ve çözüm davranışı. Katılımcının hızlı tahmin davranışı veya çözüm davranışı gösterip göstermediğini anlamak için yanıtlama süresine bakmak önemlidir. Bu çalışmada dört aşamalı kimya tanı testi ve çoktan seçmeli kimya testinin yanıtlama süresi ve yanıtlama performansının incelenmesi amaçlanmıştır. Bu çalışmada betimsel tarama yöntemi kullanılmıştır. Veri toplama aracı olarak, gaz basıncı ile ilgili 9 maddelik Dört Aşamalı Diagnostik Kimya Testi (DADKT) ve Çoktan Seçmeli Kimya Testi (ÇSKT) kullanılmıştır. DADKT, Ünsal (2019) tarafından geliştirilmiştir. ÇSKT ise aşamalı testten uyarlanmış olup DADKT’nin I. aşaması test maddeleri olarak kullanılmıştır. Bu çalışmada DADKT için bilimsel bilgi güvenirliği KR-20 hesaplanmış ve 0,460 bulunmuştur. Aynı zamanda DADKT için kavram yanılgısı güvenirliği KR-20 hesaplanmış ve 0,570 bulunmuştur. Bu çalışmada ÇSKT’nin KR-20 güvenirlik katsayısı 0,520 bulunmuştur. Çalışma 2020-2021 öğretim yılında Dokuz Eylül Üniversitesi, Buca Eğitim Fakültesi’nde öğrenim gören fen bilgisi öğretmen adaylarının katılımıyla gerçekleştirilmiştir. DADKT, 75 kişiye ve ÇSKT 74 kişiye uygulanmıştır. Çalışma sonucunda DADKT’nin I. aşamasının ortalama yanıtlama performansı 3,84 olarak hesaplanırken III. aşamasının ortalama yanıtlama performansı 3,11 olarak bulunmuştur. ÇSKT’nin ortalama yanıtlama performansı ise 3,45’dir. Yanıtlama süreleri ise DADKT’nin I. Aşaması ve III. Aşaması için sırasıyla 10:47 ve 7:15; ÇSKT için 12:52 saniyedir. Bu çalışmada katılımcılara test maddelerine geri dönüş hakkı verilmediğinden dolayı her katılımcı test maddelerini bir kez cevaplamak zorunda kalmış ve cevabı değiştirme hakkı olmamıştır. İleriki çalışmalarda test uygulama biçimine göre çalışmanın kapsamı genişletilebilir.

Anahtar Terimler: Kavram yanılgısı, diagnostik test, yanıtlama süresi, yanıtlama performansı.

KAYNAKÇA

Arbuckle, J. (2008). AMOS 17.0 user’s guide. SPSS Inc.

Bademci, V. (2006). Tartışmayı sonlandırmak: Cronbach’ın alfa katsayısı, iki değerli [0,1] ölçümlenmiş maddeler için kullanılabilir. Kazım Karabekir Eğitim Fakültesi Dergisi, 13, 438-446.

Bademci, V. (2007). Ölçme ve araştırma yöntembiliminde paradigma değişikliği: Testler Güvenilir Değildir. Ankara: Yeniyap Yayınları.

Bolsinova, M., De Boeck, P. ve Tijmstra, J. (2017). Modelling conditional dependence between response time and accuracy. Psychometrika82(4), 1126-1148. DOI: 10.1007/s11336-016-9537-6.

Bulut, O. (2015). An empirical analysis of gender-based DIF due to test booklet effect. European Journal of Research on Education3(1), 7-16.

Bulut, O. (2015). Madde tepki kuramının akademik personel ve lisansüstü eğitimi giriş sınavı’na uyarlanması: uygulamadaki sorunlar ve öneriler. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 6(2), 313-330.

Çokluk, Ö., Şekercioğlu, G. ve Büyüköztürk, Ş. (2012). Sosyal bilimler için çok değişkenli istatistik SPSS ve LISREL uygulamaları (2. baskı). Ankara: Pegem.

DeMars, C.E. (2000). Test stakes and item format interactions. Applied Measurement in Education, 13(1), 55-77. DOI: 10.1207/s15324818ame1301_3.

Edgecomb, T. L., Van Schaack, A., & Marggraff, J. (2014). U.S. Patent No. 8,638,319. Washington, DC: U.S. Patent and Trademark Office.

Elbaum, T., Golan, L., Lupu,, T., Wagner , M. ve Braw, Y. (2019) Establishing supplementary response time validity indicators in the word memory test (WMT) and directions for future research, Applied Neuropsychology: Adult. DOI: 10.1080/23279095.2018.1555161.

Ferrando, P.J. ve Lorenzo-Seva, U. (2007). An ıtem response theory model for ıncorporating response time data in binary personality ıtems. Applied Psychological Measurement31(6), 525–543. DOI: 10.1177/0146621606295197.

Guo, H., Rios, J.A., Haberman, S., Liu, O.L., Wang, J. ve Paek, I. (2016) A new procedure for detection of students’ rapid guessing responses using response time. Applied Measurement in Education, 29(3), 173-183. DOI:10.1080/08957347.2016.1171766.

Gürçay, D. ve Gülbaş, E. (2015). Development of three-tier heat, temperature and internal energy diagnostic test. Research in Science and Technological Education, 33(2), 197-217. DOI:10.1080/02635143.2015.1018154.

Gürel, D.K., Eryılmaz, A. ve McDermott, L.C. (2015). A review and comparison of diagnostic ınstruments to ıdentify students’ misconceptions in science. Eurasia Journal of Mathematics, Science & Technology Education, 11(5), 989-1008.

Hestenes, D. ve Halloun, I. (1995). Interpreting the force concept inventory: A response to March 1995 critique by Huffman and Heller. The Physics Teacher, 33, 502-506. DOI: 10.1119/1.2344278.

Kaltakçı, D. (2012). Fizik öğretmen adaylarının geometrik optik ile ilgili kavram yanılgılarını ölçmek amacıyla dört basamaklı bir testin geliştirilmesi ve uygulanması (Yayınlanmamış Doktora Tezi). Orta Doğu Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Ortaöğretim Fen ve Matematik Alanları Eğitimi Ana Bilim Dalıi Ankara.

Karasar, N. (2005). Bilimsel araştırma yöntemi (17. Baskı). Ankara: Nobel yayın dağıtım.

Kline, R.B. (2011). Principles and practice of structural equation modeling (3rd. Edition). New York, NY: Guilford.

Kong, X.J., Wise, S.L. ve Bhola, D.S. (2007). Setting the Response Time Threshold Parameter to Differentiate Solution Behavior From Rapid-Guessing Behavior. Educational and Psychological Measurement67(4), 606–619. DOI:10.1177/0013164406294779.

Lawshe, C.H. (1975). A quantitative approach to content validity. Personnel psychology, 28(4), 563-575. DOI: 10.1111/j.1744-6570.1975.tb01393.x.

Lee, Y.H. ve Chen, H. (2011). A review of recent response-time analyses in educational testing. Psychological Test and Assessment Modeling, 53(3), 359-379.

McClary, L.M. ve Bretz, S.L. (2012). Development and assessment of a diagnostic tool to ıdentify organic chemistry students’ alternative conceptions related to acid strength. International Journal of Science Education, 34(15), 2317-2341. DOI: 10.1080/09500693.2012.684433.

Mehlhorn, S., Parrott S., Mehlhorn, J., Burcham, T., Roberts, J., & Smartt, P. (2011, February). Using digital learning objects to improve student problem solving skills. Paper presented at the meeting of the Southern Agricultural Economics Association Annual Meeting, Corpus Christi, Texas. Retrieved on 26 November 2014 from http://ageconsearch.umn.edu/bitstream/98763/2/LivescribeSAEAPaperFINAL.pdf

Meyer, J.P. (2010). A Mixture rasch model with ıtem response time components. Applied Psychological Measurement, 34(7), 521–538Meyer, J.P.(2010). A mixture rasch model with ıtem response time components. Applied Psychological Measurement, 34(7), 521–538.

Moharkan, Z.A., Choudhury, T., Gupta, S.C., and Raj, G. (2017). Internet of Things and its applications in E-learning. In Proceedings of the 3rd International Conference on Computational Intelligence and Communication Technology (CICT). IEEE, Ghaziabad India, 1–5. DOI: 10.1109/CIACT. 2017.7977333.

Önsal, G. (2016). Özel görelilik kuramıyla ilgili kavram yanılgılarını belirlemeye yönelik dört aşamalı bir testin geliştirilmesi ve uygulanması (Yüksek lisans tezi). Gazi Üniversitesi, Eğitim Bilimleri Enstitüsü, Ortaöğretim Fen ve Matematik Alanları Eğitimi Ana Bilim Dalı, Fizik Öğretmenliği Bilim Dalı, Ankara.

Peşman, H. ve Eryılmaz, A. (2010) Development of a three-tier test to assess misconceptions about simple electric circuits. The Journal of Educational Research103(3), 208-222. DOI: 10.1080/00220670903383002.

Ranger, J. ve Kuhn, J.T. (2012). A flexible latent trait model for response times in tests. Psychometrika77, 31–47.

Romine, W.L., Schaffer, D.L. ve Barrow, L. (2015) Development and application of a novel rasch-based methodology for evaluating multi-tiered assessment ınstruments: validation and utilization of an undergraduate diagnostic test of the water cycle. International Journal of Science Education, 37(16), 2740-2768. DOI:10.1080/09500693.2015.1105398.

Schnipke, D.L. ve Scrams, D.J. (1997). Modeling item response times with a two-state mixture model: A new method of measuring speededness. Journal of Educational Measurement, 34, 213–232. DOI: 10.1111/j.1745-3984.1997.tb00516.x.

Setzer, J.C., Wise, S.L., Van Den Heuvel , J.R. ve Ling, G. (2013) An ınvestigation of examinee test-taking effort on a large-scale assessment. Applied Measurement in Education, 26(1), 34-49. DOI:10.1080/08957347.2013.739453.

Stankov, L., Lee, J., Luo, W. ve Hogan, D.J. (2012). Confidence: A better predictor of academic achievement than self-efficacy, self-concept and anxiety? Learning and Individual Differences, 22, 747–758. DOI: 10.1016/j.lindif.2012.05.013.

Swerdzewski, P.J., Harmes, J.C. ve Finney, S.J. (2011). Two approaches for identifying low-motivated students in a low-stakes assessment context. Applied Measurement in Education24(2), 162-188. DOI: 10.1080/08957347.2011.555217.

Taber K.S. (2017). The Use of Cronbach's Alpha when developing and reporting research instruments in science education. Res. Sci. Educ., 1–24.  Doi:10.1007/s11165-016- 9602-2.

Türkoguz, S. (2020). Comparison of Threshold Values of Three-Tier Diagnostic and Multiple-Choice Tests Based on Response Time. Anatolian Journal of Education5(2), 19-36. DOI: 10.29333/aje.2020.522a.

Ünsal, A.A. (2019). Fen bilgisi öğretmen adaylarının gaz basıncı konusundaki kavram yanılgılarının belirlenmesi (Yayımlanmamış yüksek lisans tezi). Hacettepe Üniversitesi Eğitim Bilimleri Enstitüsü, Ankara.

Van Der Linden, W.J. (2006). A lognormal model for response times on test items. Journal of Educational and Behavioral Statistics, 31, 181–204. DOI: 10.3102/10769986031002181.

Van Der Linden, W.J. (2007). A hierarchical framework for modeling speed and accuracy on test items. Psychometrika, 72, 287–308. DOI: 10.1007/s11336-006-1478-z.

Van Der Linden, W.J., Klein Entink, R.H. ve Fox, J.P. (2010). IRT parameter estimation with response times as collateral information. Applied Psychological Measurement34(5), 327–347. DOI:10.1177/0146621609349800.

Wang, J.R. (2004). Development and validation of a two-tier ınstrument to examine understanding of internal transport in plants and the human circulatory system. Int J Sci Math Educ, 2(2), 131-157. DOI:10.1007/S10763-004-9323-2.

Weeks, J.P., Von Davier, M. ve Yamamoto, K. (2016). Using response time data to inform the coding of omitted responses. Psychological Test and Assessment Modeling58(4), 671.

Weeks, J.P., Von Davier, M. ve Yamamoto, K. (2016). Using response time data to inform the coding of omitted responses. Psychological Test and Assessment Modeling, 58(4), 671-701.

Wise, S. ve Kong, X. (2005). Response time effort: A new measure of examinee motivation in computer-based tests. Applied Measurement in Education, 18(2), 163-183. DOI: 10.1207/s15324818ame1802_2.

Wise, S.L. (2014). The utility of adaptive testing in addressing the problem of unmotivated examinees. Journal of Computerized Adaptive Testing, 2, 1-17.

Wise, S.L. Bhola, D. ve Yang, S. (2006). Taking the time to improve the validity of low-stakes tests: The effortmonitoring CBT. Educational Measurement: Issues and Practice, 25(2), 21–30. DOI: 10.1111/j.1745-3992.2006.00054.x.

Wise, S.L. ve DeMars, C.E. (2006). An application of item response time: The effort-moderated IRT model. Journal of Educational Measurement, 43, 19–38. DOI: 10.1111/j.1745-3984.2006.00002.x.

Wise, S.L. ve DeMars, C.E. (2010) Examinee noneffort and the validity of program assessment results. Educational Assessment, 15:1, 27-41. DOI: 10.1080/10627191003673216.

Wise, S.L. ve Gao, L. (2017) A General approach to measuring test-taking effort on computer-based tests. Applied Measurement in Education, 30(4), 343-354. DOI: 10.1080/08957347.2017.1353992.

Wise, S.L. (2019) Controlling construct-irrelevant factors through computer-based testing: disengagement, anxiety, & cheating. Education Inquiry, 10(1), 21-33. DOI:10.1080/20004508.2018.1490127.

Wise, S.L., Pastor, D.A. ve Kong, X.J. (2009) Correlates of rapid-guessing behavior in low-stakes testing: ımplications for test development and measurement practice. Applied Measurement in Education22(2), 185-205. DOI:10.1080/08957340902754650.

Wright, D.B. (2016). Treating all rapid responses as errors (TARRE) improves estimates of ability (slightly). Psychological Test and Assessment Modeling, 58, 15–31.

Wright, D.B. (2016). Treating all rapid responses as errors (TARRE) improves estimates of ability (slightly). Psychological Test and Assessment Modeling, 58, 15–31.

Yamamoto, K. (1995). ETS Research Report Series: Estimating the effects of test length and test time on parameter estimation using the HYBRID model (TOEFL Technical Report TR-10). Princeton, NJ: Educational Testing Service. DOI: 10.1002/j.2333-8504.1995.tb01637.x.

Yang, D.C. ve Sianturi, I.A.J. (2019). Assessing students’ conceptual understanding using an online three-tier diagnostic test. Journal of Computer Assisted Learning, p. 678-689. DOI:10.1111/jcal.12368.

Downloads

Published

2024-01-28