תגיות

, , , ,

"בכל הקשור ליכולת הניבוי של המבחן, אמנם לעתים אנו שומעים על סטודנטים שהצליחו באקדמיה אך ציונם הפסיכומטרי לא היה גבוה במיוחד, אך אל לנו להסיק מכך לגבי הכלל. מחקרים שנערכו הוכיחו כמה פעמים, ברמת מובהקות גדולה מאוד, כי יכולת הניבוי של הפסיכומטרי עולה על זו של הבגרות, וכי יכולת הניבוי הגבוהה ביותר נוצרת משילוב של ציוני הפסיכומטרי והבגרות." "דה מרקר", 26.8.2013.

בפוסט קודם, טענתי שגם אם הבחינה הפסיכומטרית היא כלי מיון מצוין, אין זה אומר שאינה מפלה מועמדים משכבות מוחלשות. הפעם אטען, שמהנתונים הפומביים נובע, שיכולת הניבוי שלה, סה"כ, די מוגבלת, וכלשעצמה, אינה יכולה להצדיק את השימוש בו. גם פוסט זה מבוסס על סקירה מקיפה שכתבתי לפני כחמש שנים.

רב הטענות המנומקות היטב בזכות המבחן הפסיכומטרי נשמעות בערך כך " לבחינת הבגרות תוקף ממוצע של 0.37 וזו של המכפ"ל [מבחן הכניסה הפסיכומטרי לאוניברסיטאות] 0.43 (לאחר תיקון לקיצוץ תחום). הוספת מכפ"ל לבחינת הבגרות מעלה את תוקף הניבוי ל0.55. מתאמים אלה מעידים בברור על כך שהוספת מכפ"ל לבגרות משפרת את יכולת החיזוי ואת התועלת בכ-100% (אחוז השונות המוסברת עולה מכ-14% ל-30%)."

הסבר טכני למתחילים: שונות היא מדד לפיזור של משתנה, והיא ממוצע ריבויי המרחק בין הערכים הנצפים לממוצע שלהם. סטיית התקן (בתרגום האווילי המקובל) היא שורש השונות. ככל שהיא גדולה יותר, הממוצע פחות מייצג. מתאם הוא מדד של קשר בין שני משתנים הנמדדים על אותה יחידה (לדוגמא ציון הבגרות וציון גמר הלימודים). המתאם אינו קטן מ-1-  ואינו גדול מ-1. ככל שהוא קרוב יותר ל-1 שני המשתנים קשורים בצורה חזקה ופשוטה יותר. תוקף, בהקשרים מסוימים, הוא מלה אחרת למתאם.

לא הבנתם? כנראה, זה לא חשוב לדיון. ואלו שחושבים שמספרים למעלה רלוונטיים לדיון, שיבדקו את הגרפים הבאים. מצד שמאל ניתנת דיאגרמת פיזור של תוצאות סיום לעומת מבחן מיון עם תוקף של 0.38, ומצד ימין דיאגרמה דומה אבל של מבחן עם תוקף של 0.56. יחד עם זאת, אם בוחרים את 50% הטובים ביותר על סמך אחד משני המבחנים, מקבלים את אותם תלמידים בדיוק, ולכן, יכולתם לשמש כקריטריון מיון זהה. אכן, זו דוגמא קיצונית, ראו בהמשך דוגמא "רגילה".

דיאגרמת פיזור של שני מבחני מיון היפוטתיים כנגד ציוניי סיום. מיימין מבחן בעל תוקף גבוה. שני המבחנים בעלי יכולת ניבוי זהה

לטעמי, התגובה מלמעלה נובעת מהעמדת מדדים סטטיסטיים כמטרה בפני עצמה, ובדיקה עד כמה כלי מסוים עומד בהם. הטענה המסיימת מדגישה זאת. מדוע העלאת אחוז השונות המוסברת מ 14% ל-30% פירושה, שיפור התועלת ב-100%? מה התועלת באחוז השונות המוסברת? אפשר ללכת עם אחוז השונות המוסברת לסופר? (רמז: אי אפשר). שונות מוסברת היא מדד סטטיסטי מעולה, אבל, הוא לא קריטריון שיש לו משמעות כעומד בפני עצמו. גם "יכולת החיזוי" בצורה בה משתמשים בו למעלה, היא מושג, לכל היותר, טכני, שאינו אומר דבר, כשלעצמו, ואי אפשר לקבוע בגללו מדיניות. המדדים שיש להתייחס אליהם, הם מדדים ברורים, כמו המדדים שאתייחס אליהם בהמשך, שאפשר וצריך לקבוע מדיניות בהתאם להם.

בפוסט זה אראה, שעל סמך הנתונים, שפורסמו על המרכז הארצי לבחינות עצמו, כמו הנתונים למעלה, והתייחסות אליהם בצורה מושכלת, אי אפשר לקבוע, שהתועלת בהוספת המבחן הפסיכומטרי לציון הבגרות, הינה משמעותית.

לא נאמר כלום על המבחן, כל עוד לא מתרגמים את המספרים האלו להסתברויות של דברים בעלי משמעות (לדוגמא, ההסתברות שתלמיד המתקבל ללימודים על סמך המבחן, יסיים אותם בהצלחה), או תוחלות מותנות (לדוגמא, ציון הגמר הממוצע של התלמידים שיתקבלו על סמך ציוני הבגרות בלבד, והציון כאשר הקבלה תביא בחשבון גם את המבחן הפסיכומטרי),  תפקיד המבחן אינו לספק מתאמים גבוהים. תפקידו להעלות את רמת הלימודים, וככזה הוא צריך להיבדק ע"ס קריטריונים מקובלים לרמת הלימודים.  הבדיקה הנכונה באמת מצריכה מודל של עלות-תועלת, ותשתמש במספרים הנ"ל לקביעת מדיניות עדיפה תוך התחשבות בשאלות פוליטיות וחברתיות (כמה חשוב לנו לקדם אוכלוסיות מוחלשות? כמה חשוב לנו להעלות את רמת המצוינות?)

נתחיל עם ההנחה שתוקף המבחנים השונים הוא כפי שרשום בחוות הדעת. כמו כן נניח כי אם כל המועמדים היו מתקבלים, ממוצע ציוני חוג נתון היה 70 (מתוך 100), כאשר סטיית התקן היא 10 נקודות. אם מישהו חושב שהפיזור באוכלוסייה אמור להיות גדול יותר, שיכפיל, לפי טעמו, את הספרים הבאים בשניים או בשלוש… כעת, אנחנו צריכים מודל של האוכלוסייה. דהיינו תיאור של האוכלוסייה ההיפותטית של המועמדים, כשלכל מועמד יש ציון בגרות, ציון פסיכומטרי, וציון הגמר בחוג. המודל הפשוט, המקובל, והסביר, הוא המודל הרב נורמלי, המתאר את התפלגותם המשותפת של הציונים במבחן הקבלה (בגרות, או בגרות + המבחן הפסיכומטרי), ושל הציונים בחוג. התפלגות זו צורתה כצורת פעמון (לא עגול…), אחד היתרונות של מודל זה, שהוא תלוי רק בנתונים שברשותנו, כיוון שהדבר היחיד שאנו צריכים לדעת הוא המתאם (קורלציה) בין הציון המשמש למיון לבין ציון הסופי.

סלקציה של המועמדים על פי הבגרות תעלה את הציון הממוצע: יתקבלו בהכרח תלמידים עם ציוני בגרות גבוהים, ובגלל המתאם, לאלו שיש ציון בגרות גבוה, יש, בד"כ ציוני סיום גבוהים יחסית. (כהערה לקראת פוסט עתידי, מהו הציון הגמר אליו משווים? האם ציון זה יוצר עיוות?) אפשר לחשב, לפי המודל, שלאחר סלקציה של 50% הממוצע יעלה ל-73 נקודות מתוך 100, או לייתר דיוק, הציון יעלה ב-(2/\pi)^{1/2}\rho\sigma. לא הרבה. לעומת זאת, אם המיון יעשה ע"פ הציון המשולב, ממוצע הציונים בחוג יעלה רק בעוד 1.43 נקודות (מתוך 100). נדמה לי שהשיפור של הממוצע מ-73 ל-74.43 לא מצדיק שום מבחן. ודאי שאין כאן תועלת שעלתה ב-100%, כפי שמצדדיי המבחן הפסיכומטרי טוענים. הגרפים הבאים ממחישים זאת, שני הגרפים השמאליים מראים את הפיזור המשותף של ציוני הגמר וציוני הקריטריון (בגרות או משולב). רואים שבממוצע אכן ציון הגמר עולה אם הקריטריון עולה, אבל גם רואים שהקשר הוא דיי חלש, וההבדל בין פיזור הנקודות מימין לקו (אלו שהתקבלו) לא שונה דרמטית מפיזור הנקודות משמאלו (אלו שנדחו). הגרף הימני מראה את פיזור ציוני הגמר של אלו שהתקבלו על סמך הבגרות בלבד, ואלו שהתקבלו ע"ס הציון המשולב. יש הבדל, אבל הוא מזערי.

דיאגרמת פיזור של ציוני המיון וציון הגמר בהנחת נורמליות, והיסטגרמה של ציוני הגמר לאחר מיון לפי הבגרות בלבד ולפי המכפ"ל

 התוצאות יותר דרמטיות בחוגים המאוד סלקטיביים. אם, החוג מאוד פופולארי וקיימת סלקציה קשוחה של קבלת תלמידים, ורק 5% המועמדים הטובים ביותר מתקבלים. הציון הממוצע של התלמידים, אם קריטריון הקבלה היה המבחן הפסיכומטרי, הציון הסופי היה  ל-77.6, בעוד שאם הקבלה היתה לפי הציון המשולב, בגרות+פסיכומטרי, הציון הסופי היה 81.3. דא"ג השיפור המכסימלי האפשרי בהנתן המתאמים הנ"ל, בחוג ההיפותטי והסלקטיבי ביותר, המקבל את 100 התלמידים הטובים ביותר בישראל, הינו ל- 82.8 נקודות ע"פ הבגרות ו- 89.0 ע"פ הציון המשולב (רק כמחצית מבין מאה התלמידים המצטיינים ביותר בארץ לפי הציון המשולב, יצטיינו גם באוניברסיטה).

האם 1.43 נקודות מתוך 100 שווים את אימוץ המבחן הפסיכומטרי? בקריטריון אחר, אחוז המצטיינים בין הבוגרים (שיקבלו ציון גמר מעל 90) יעלה מ-2.3% ללא מיון, ל-3.7% כשמתקבלים רק 50% הטובים ביותר לפי הבגרות, או ל4.3% במיון לפי הציון המשולב, בחוג המקבל רק את  10% התלמידים המצטיינים במחזור, אחוז המצטיינים בין ביין המסיימים יהיה 7.6% ו- 11.7 בהתאמה לכלל המיון. במילים אחרות, גם לפי נתוניהם של מחברי חוות הדעת, תרומת המבחן הפסיכומטרי אינה גבוהה.

דא"ג, אם החוג סלקטיבי וקשה במיוחד, כך שיתקבלו רק 5% מהמעומדים, והציון באוכלוסייה הוא בעל ממוצע של 50 וסטיית תקן של 17. אז המכפ"ל יחסית לבגרות יעלה את אחוז המצטיינים בין המתקבלים מ-4.5% ל-8.5%, ואת הממוצע של המתקבלים מ-63 ל-69. בסדר.

לעומת זאת, אם נאמץ את המספרים הנקובים במאמרם של קנט-כוהן, ברונר וכרמל נקבל שהמעבר למיון על פי הבגרות בלבד יוריד את הממוצע בחוג הפחות סלקטיבי, ב-0.6 נקודות (מתוך 100) בלבד, וב- 1.65 (מתוך 100 אפשריות) בחוג הסלקטיבי. אם נתייחס למספר המצטיינים, הרי מספרם ירד, בממוצע, ב-0.19% בממוצע בחוג הלא סלקטיבי, וב-1.9% בחוג הסלקטיבי. האם אין זו סיבה טובה לטעון, שהתרומה השולית של הבחינה הפסיכומטרית נמוכה?

הניתוח הניח הנחה קשה על ההתפלגות של הציונים, אבל, למתאמים המצוינים בכל הדוחות, אין מובן ברור אלא תחת הנחה זו. חובת ההוכחה על המצדדים במבחן הפסיכומטרי, להראות שלמרות הניתוח שניתן כאן, המבחן הפסיכומטרי מועיל. המספרים שהם זורקים, יפים למאמרים אקדמיים, אבל אין להם כל נפקות למדיניות.

הערה: כן, הפוסט פשטני, יש כאן הרבה בעיות כמו דגימה מוטה (שמקשה על הטיעון שלי, ועוד יותר על הטיעון שנגדו אני יוצא), קיצוץ תחום (כנ"ל), חוסר נורמליות (כנ"ל), ומה לא (כנ"ל). אבל גם כך, הפוסט הרבה יותר מדי ארוך….

מודעות פרסומת