תגיות

, ,

"מחקר על רובים, אלימות ומחלות נפש, העומד להתפרסם לבסוף השבוע, מצא כי בעלות על רובים הינה גורם חשוב יותר ממחלות נפש, כשמדובר על מוות מכלי נשק, למרות שהנתונים מרמזים שלשני גורמים אלו ישנה השפעה." NPR

"השכר החציוני במשק: 6,541 שקל לחודש, הממוצע  9,149 שקל" גלובס

סטטיסטיקה היא מדע משונה. הסטטיסטיקאי רואה בשתי טענות אלו סיפור אחד, ולסיפור קוראים "לא עמיד"…

מונש, הרצח על השביל

מחקר הרובים היה מחקר השוואתי בין מדינות שונות הכוללות את ישראל וארה"ב, שבו ניסו למצוא איך ניתן להסביר את מספר מקריי המוות מנשק חם ל-100,000 איש, כאשר שלשה הסברים שונים נבדקו: מספר כלי הנשק, מספר העברות, ומספר חוליי הנפש, כולם כאמור מנורמלים לגודל האוכלוסיה.

הרדיו הצבורי הלאומי [האמריקאי], NPR, לא מתעניין בכל מחקר רפואי לא חשוב, שנכתב על ידיי שני קרדיולוגים. ובדרך כלל, קרדיולוגים פעילים אינם עוסקים בשאלות אפידמיולוגיות או סוציולוגיות.

הסיבה לעניין במחקר, היא כמובן, מספר מקריי הרצח ההמוניים שהתרחשו בארה"ב בתקופה האחרונה. הקניה החופשית כמעט לחלוטין של קני נשק, וריבוי כלי הנשק באוכלוסייה, הינם נושא מרכזי ודומיננטי בשיח הפוליטי האמריקאי, המחולק כמעט שווה בשווה בין התומכים בריגולציה (מינימלית עד כדי גיחוך), לבין אלו שמתנגדים אף לזה. מחד קיים התיקון השני לחוקה המובן לפחות על ידי הרוב, כמקנה את הזכות הבסיסית לנשיאת כלי נשק. עמדה זו נדחפת על ידי הלובי החזק באמת במסדרונות השלטון האמריקאי – זה של האיגוד הלאומי [האמריקאי] של הרובאים. מאידך גיסא, רוב הליברלים בארה"ב רואים, בצדק רב,  את נפיצות הנשק הפרטי בארה"ב כדבר אבסורדי.  במילים אחרות, המאמר נכתב, התפרסם ב"גורנאל האמריקאי לרפואה", והתפרסם בסופו של דבר במדיה הפופלארית, בגלל המסר הפוליטי שלו: אנשים נהרגים בגלל שיש בארה"ב יותר רובים מאשר במדינות אחרות, לא בגלל שיש בארה"ב יותר חולי רוח. המסר כאן היה הדבר החשוב, לא העובדות.

סתם דוגמא. הדרך בין ברקלי, העיר בה התחילה מרד הסטודנטים והליברליות של שנות הששים, לסאן פרנסיסקו מרכזם של ילדי הפרחים, ושאר ליברלים לסוגיהם, העיר על המפרץ, עוברת דרך הגשר העיקרי המוביל לסאן פרנסיסקו: "גשר המפרץ אוקלנד-סאן פרנסיסקו". גיאגרפית, ברקלי היא השכונה הצפונית של אוקלנד, אוקלנד, ברקלי וריצ'מונד הם שטחעירוני רצוף,  בערך כמו בני ברק, רמת גן וגבעתיים.  אם אנו מדברים על שנות הששים, אוקלנד היא מולדתם של הפנתרים השחורים. בשנים האחרונות, באולקנד, מספר השחורים המסיימים בשנה בית ספר תיכון ברמה המאמפשרת להם להתקבל לאוניברסיטה, שווה למספר השחורים הנרצחים באותה שנה. רצח הוא סיבת המוות העיקרית של צעירים שחורים בארה"ב.

אני כמובן התעניינתי במחקר בגלל שישראל הינה אחת מ-27 המדינות שנבדקו.

מידנדורף. ירח בעיר הרצח. 1980.

בלשון של סטטיסטיקאים, מה שיש לנו כאן, זה מדגם של 27 מדינות מפותחות. לכל מדינה נמדד משתנה שאותו אנו רוצים להבין ומשתנים "מסבירים" שאתם אנו רוצים להסביר ממה נובע ההבדל בין המדינות במשתנה "המוסבר". במקרה הזה המשתנה המוסבר הוא שיעור מקריי המוות מירי, ואנו מנסים להסביר את המשתנה הזה, כאילו הוא נובע מתרומה של כל אחד מהמשתנים המסבירים שהם, מספר כלי הנשק, מספר חולי הרוח, ורמת הפשע הכללי. לא סביר שבנתוניי אמת, המודל יסביר באופן מושלם את הנתונים. לכן, אנחנו מניחים, ששיעור מקרי המוות מוסבר חלקית על ידי התרומה של כל אחד המשתנים המסבירים, אבל נשאר עוד משהו, שהמודל לא יכול להסביר. הסטטיסטיקאים קוראים למשהו הזה טעות.

הדבר העיקרי שהניתוח הסטטיסטי מנסה לבדוק, הוא התרומה היחסית של כל אחד מהמשתנים המסבירים. המחקר הראה שהתרומה העיקרית, אם כי לא היחידה היא של מספר הרובים ל-100,000 איש.

מחקר כזה משמעותי, אם המשתנים בעליי מובן אמיתי. כאן מתחילות הבעיות. המשתנה הנבדק, אינו, בניגוד לרושם הדמגוגי הראשון, ולמרות המסקנות, מספר הרציחות, אלא מספר מקרי המוות בהם מעורב נשק חם. אלו כוללים הרבה יותר התאבדויות מאשר רציחות (לפי נתוניי הלמ"ס, היו בישראל ב-2010  כ- 3.1 הרוגים מתקיפה על כל-100,000 איש, בעוד ש-9.9 בני אדם מתו כתוצאה מ"פגיעה עצמית מכוונת". עכשוו, רוב מקרי הרצח בישראל לא מבוצעים בעזרת נשק חם. כנראה שזה נכון אפילו יותר לגבי התאבדויות. לבסוף, יש הבדל משמעותי בין מדינות שונות, בנטייתם לרצוח, ובמיוחד בנטייתם להתאבד (באופן גס, במדינות החמות, מתאבדים משמעותית פחות).  אי הבאת ההבדלים האלו בחשבון פרובלמטית. פרט לארה"ב, רובים יש יחסית הרבה בשוויץ, ובמדינות בהם צייד מקובל. במדינות אלו גם שיעור המתאבדים גבוה יחסית.

שעורי הפשע ומחלות הנפש, הינם משתנים פרובלמטיים ביותר, בהשוואה בין מדינות, אין סטנדרט ברור של להגדרות של משתנים אלו. בין מדינות? בין מדינה לעצמה! השוו את שנתוניי משטרת ישראל בשנים האחרונות, ותראו, שאפילו השוואה בין שנים עוקבות בישראל היא פרובלמטית. ההגדרות משתנות משנה לשנה. הרשעים יאמרו, כדי להתאים את התוצאות למפכ"ל. (ובכל מקרה הנתונים במחקר הנ"ל לגבי ישראל לא נראים "מדוייקים".)

דיאגרמת פיזור באחריות הח"מ

אבל, הבעיה העיקרית במחקר הנ"ל היא אחרת. ניתוח סטטיסטי שכל כולו תלוי ועומד על נקודה בודדת, הוא ניתוח לא עמיד (לא רובסטי, בלעז). לכאורה המחקר השווה את שקורה ב-27 מדינות. למעשה, התוצאה משקפת את מה שמאפיין את ארה"ב יחסית לשאר העולם. ארה"ב, חריגה באופן קיצוני בשני משתנים. שיעור מקריי המוות מנשק חם, מחד, ומספר הרובים לנפש (כמעט 1!). כיוון שכך, ורק כיוון שכך, המחקר מצא את התלות החזקה של מספר מקריי המוות במספר הרובים לנפש. אם מוציאים את ארה"ב מהמדגם, ומנתחים את 26 המדינות שיוותרו, כל האפקט עליו מדבר המחקר נעלם. אין כלום (עשיתי זאת…).

במלים אחרות, התוצאה המצוטטת המבוססות על מדגם של מדינות העולם, משקפת את המצב של מיעוט מבוטל (1 מתוך 27) מהמדינות במדגם, כשכל שאר המדינות מהוות רק סטטיסטיות בהצגה.

חישוב הרגרסיה מחושב על מתאמים (בין המשתנים המסבירים, במקרה הזה, מספר חוליי נפש לנפש, ומספר כלי נשק לנפש, ובין המשתנים המסבירים למשתנה המוסבר, במקרה הזה מספר מקרי המוות לנפש בהם כלי נשק חם מעורבים). מתאם בין שני משתנים מחושב על יד חישוב הממוצע של מכפלתם. ממוצע, מצידו רגיש מאוד להמצאות של ערכים בודדים אם הם חורגים בהרבה מרב הערכים האחרים. זהו המקרה כאן. יש מדינה בודדת, בה שני משתנים חריגים באופן קיצוני. אינדכס כזה, הרגיש למספר קטן של ערכים, נקרא אינדכס לא עמיד (לא רובסטי בלע"ז). ממוצע הוא הדוגמא הקלאסית לאינדכס לא רובסטי.

טעות מביכה כלשהו המדגימה עד כמה ממוצע אינו עמיד, התרחשה כאשר שלשה חוקרים, אחד מהם סיני, שירטטו את הטמפרטורה היומית הממוצעת של 159 תחנות בסין לאורך כחמישים שנה, התוצאה היתה גרף עם פיקים הגבוהים מ-50 מעלות….  הסיבה לכך הייתה, שחלק מהערכים היו חסרים, וערכים חסרים קודדו כ-9999 או משהו דומה… מספיק נתון אחד חסר ביום קר, נתון המחולף ב-9999 כד שהמוצע של 159 תחנות יעלה ביותר מ-60 מעלות. דא"ג, הטעות תוקנה עד הגרסא הסופית של המאמר

טיציאן, 1516

שכר ממוצע הוא דבר דומה. מדברים על השכר הממוצע בישראל, השכר הממוצע מתאר לכאורה כמה שכיר "ממוצע" מרוויח. אבל רק לכאורה. שכיר "ממוצע" מרוויח הרבה פחות מהשכר הממוצע. בואו נדייק, למלה ממוצע יש, כמו להרבה מאוד מלים משמעויות רבות. כשאני אומר שכיר ממוצע אני מתכוון לממוצע במובן של "הנמצא באמצע", או "בינוני, שבאמצע", לא גדול ולא קטן, לא טוב ולא רע, לא רב ולא מעט", בעוד, כשאני מדבר על השכר הממוצע אני מדבר על מה "שהתקבל מהממוצע האריתמטי"  (ההגדרות מתוך "מלון אבן-שושן המלא"). אם 1% מהמפרנסים במשק מרוויחים מעל 300,000 ₪ בחודש, אז תרומתם לשכר הממוצע הינה למעלה מ-3000 ₪. בפועל, מתוך השכר הממוצע במשק של 9,140 ₪, כמחצית, 4,482 ₪ מייצגים את הכנסתם של שני העשירונים העליונים של מקבלי השכר (ומדובר רק על הכנסה משכר!). "השכר החציוני" מצידו, השכר שמחצית אחת  מהאוכלוסיה מרוויחה יותר ממנו והמחצית השנייה מרוויחה פחות ממנו, לא אומר הרבה על מה שקורה הן עם העשירים, והן עם העניים. אבל על משמעותם החלקית ביותר של אינדכסים, נדבר בפעם אחרת.

חציון הוא הדוגמא הקלאסית לאינדכס עמיד (רובסטי בלע"ז). שנו את הכנסתם של 10% מהשכירים איך שתרצו, ולכל היותר ישתנה החציון בכ-1400 ₪ (זה יקרה אם לכל מי שהיה בעשירון החמישי יוספו למעלה מ-1400 ₪ למשכורת). לעומת זאת הממוצע יכול להשתנות באופן דרמטי. שלשו את הכנסתו של העשירון העשירי, והמשכורת הממוצעת של כל השכירים תעלה בכ-5800 ₪. כיוון שהנתונים המפורסמים על ידי הלמ"ס מבוססים על סקר של כ-9000 משקי בית, קיימת משמעות נוספת של עמידות. הממוצע רגיש יותר לטעויות במדגם. הימצאותו או אי הימצאותו  במדגם של שכיר יחיד המרוויח עשרה מיליון ₪ בחודש, תשנה את ההכנסה הממוצעת  בכ-1000 ₪, בעוד שכמעט לא תשנה את ההכנסה החציונית. כתוצאה מכך, חציון במדגם הוא אומד עמיד של חציון האוכלוסייה, בעוד שהממוצע אינו אומד עמיד של ממוצע האוכלוסיה.

מודעות פרסומת