תגיות

, ,

 קהלת צדק.  מה שהיה הוא שיהיה. אבל, מה שהווה הוא שלא יהיה. מה חשוב ליוסי אבוקסיס ללמוד מניסיונו של גולטון להבין את צורת הורשתם של תכונות רציפות, ומדוע פיזור גודל הזרעים  לא משתנה בין הדורות?

נזכיר פרק חשוב בהתפתחות תורת האבולוציה, ונראה למה המסקנה ממנו מדכאת.

ונראה, שהדוגמא של גולטון היא ממש לא דוגמא ל"רגרסיה לממוצע"

" [החוקרת] תיארה את ששת השבועות הראשונים לאחר החלפת המאמן כ"ירח דבש", שבמהלכו הקבוצה מצליחה לשפר את הישגיה. אולם בסיומם, ההצלחות דועכות והאפקט מתפוגג…. השיפור המיידי בהישגים לאחר החלפת המאמן הוא כמעט מתבקש, …כאיזון סטטיסטי טבעי… אז אם הנתונים כל כך ברורים, למה בכל זאת מעדיפים הבעלים את הפיטורים של המאמן על פני שמירה על היציבות של הקבוצה?וואלה!ספורט. 17.12.2013

"איזון סטטיסטי טבעי"? מה זה? אהה, וואלה!ספורט. נחזור לכדורגל בהמשך, ביינתים ציור מתאים.

אומברטו בוציוני. הדינמיקה של שחקן הכדורגל, 1913, ניתוח גרפי מורכב יותר מניתוח סטטיסטי

כשמשעמם לי, אני מחנך את המטבעות בכיסי ליפול על "ראש". זה קל (אם רק יודעים איזה צד הוא ה"ראש"), ואני מציע לכל אחד לנסות זאת.

לוקחים הרבה מטבעות. ומטילים אותן, אחת, אחת או את כולן יחדיו. את הטובות, שנפלו  על "ראש", מחזירים לכיס. לכל השאר מסבירים, שהרבה יותר טוב יהיה אם יפלו כמו שצריך. מטילים אותן שוב, ואת אלו שהבינו את המסר, מחזירים לכיס. מאיימים על אלו שנשארו, וראו זה פלא, למרות סרבנותם עד כה, חלקן מבינות באיומים. את מי שנשאר מענישים בשטיפה במים קרים. וראו זה פלא, בניסוי הבא, מתברר שגם הסרבניות ביותר, אלו שנאלצנו להעניש, מבינות כעת מה עליהן לעשות. בקיצור, בשיטת המקל והגזר מביאים כל מטבע לדרך הישר.

מגוחך,  אז הנה סיפור אחר:

יש שחושבים שהשאלה אם ענישה או קורס לנהיגה מונעת משפיעים על הנהגים אינה אמפירית. בכ"ז, האם נהגים עוברים פחות עברות בשנה אחרי קורס לנהיגה מונעת מאשר בשנה שלפניו? ודאי. וזה פשוט. מי שנשלחו לקורס היו אלו שלא היה להם מזל, ונתפשו בפעמים הבודדות בהם הם ביצעו עברה. סביר לומר עליהם, כקבוצה, שני דברים. הם בכ"ז נהגים שנוטים לעבור עבירות תנועה יותר מהממוצע באוכלוסיה, אך סביר גם שהשנה שלפני הקורס הייתה שנה חריגה לרעה עבורם. אם הקורס אינו אלא בזבוז זמן וכסף, השנה שאחריו תהיה שנה רגילה עבור תלמידיו, ומספר העברות הממוצע שלהם בה יהיה המספר הטיפוסי שלהם לפני הקורס, שהוא קצת גבוה מהממוצע של כל הנהגים (שהרי הם נוטים לעשות קצת יותר עברות מכולם), אבל פחות מאשר השנה שלפני הקורס (בה היה להם מזל רע, נתפשו ונענשו)

אמור מעתה, אם הסיבתיות הייתה פועלת בניגוד לכיוון הזמן, היינו אומרים שקורס לנהיגה מונעת גורם לעבירות תנועה בשנה שלפניו.

אם כל מה שחיפשת הוא הגדרה ל"רגרסיה לממוצע" אז הנה היא:

אם יש שני משתנים שיש ביניהם מתאם חיובי (לדוגמא אותו תכונה אצל של שני אחים, לדוגמא מדידת לחץ הדם של אותו אדם בנקודת זמן שונות), ויודעים שערכו של הראשון חורג מהממוצע, ננחש שגם ערכו של השני חורג, באותו כיוון, אבל פחות – הוא יהיה יותר קרוב לממוצע (יחסית לסטיית התקן שלו). ככל שהמתאם נמוך יותר, כך ננחש את ערכו של השני כקרוב יותר לממוצע.

אתה יכול להפסיק לקרוא.

טוב, אם אנחנו עוסקים במטבעות, אז חשוב לדעת שלא כל המטבעות אותו הדבר. הן אינן שונות מהטייקונים. חלקן פשוט טוב יותר מכל השאר. המרוץ לפסגה מתיש, ורק הטובים שורדים. זה חוק הג'ונגל. ניקח חדר מלא מטבעות, אם לא טעיתי בחשבון כ-30 מיליון מטבעות (נפח של מטבע של 25 סנט אמרקאי הוא כנראה כ- 811 מ"מ מעוקב.). נשכנע אותן להתחרות בשיטת המפסיד יוצא (כל משחק בין שתי מטבעות מתנהל מספר סיבובים, עד שאחת המטבעות נופלת על ראש והשנייה על הזנב). לאחר כ-25 סיבובים  וכ-30 מיליון משחקים, תמצא מטבע אחת מנצחת, אלו הם החוקים. היא כנראה הרבה יותר מוצלחת מכל חברותיה. עובדה, היא סיימה טורניר מתיש ראשונה, כשכל האחרות כשלו בדרך.

אבל פורטונה הפכפכה היא, כמו שלמדו הדנקרים. מי שהצליחה השנה, תצליח בשנה הבאה כמו היתה היא כאחת המטבעות.

קרצ'י. אדם וקוף, 1590-1

אחת השאלות הקשות בסטטיסטיקה היא מה כל כך רגרסיבי ברגרסיה, שהיא נקראת כך? ומה עניין רגרסיה אצל "הרגרסיה לממוצע"? כל מי שמלמד סטטיסטיקה יודע שהכול מתחיל בגולטון. אבל איך?

סיר פרנסיס גולטון, אריה לא קטן, פעל בין שני לביאים אחרים. לפניו, היה קרוב משפחתו צ'רלס דרווין, שניצח כחוט השערה את וולאס, פרסם את "מוצא המינים" וזכה להיות זה הוגה ה"דרוויניזם". רונלד  פישר בא אחרי גולטון, היה האיש ששינה את פני הסטטיסטיקה, והיה בין מובילי הניאו-דרוויניזם. במלים אחרות, גולטון פעל בזמן שתורת האבולוציה הייתה במרכז העניין האינטלקטואלי, אך לפני שהגנטיקה של מנדל היתה חלק ממנו.

כן, גלוטון, בניגוד לשליש מהאוכלוסיה האמריקאית היום  האמין באבולוציה.

אחת השאלות שהטרידה ביותר את גולטון הייתה הורשת הגאונות, אבל הוא התחיל בקטנות ופרסם את המאמר "נסיגה לכיוון הביינוניות בהורשת גובה" נסיגה באנגלית מעוברתת הינה רגרסיה, והשאר הינו היסטוריה, לפחות לגבי המושג זה.

אם ידעת מה זה "רגרסיה לממוצע" לפני קריאת הפוסט, אז מה אתה קורא אותי? קרא את המאמר של גולטון! הוא הרבה יותר משעשע.

דירר: אבי הצייר

דירר דיוקן עצמי

.

.

.

.

.

.

.

.

גולטון אומר מיד בתחילת מאמרו: "מטרתי היא  להראות מעבר לכל ספק סביר את קיומו של חוק פשוט ומרחיק לכת השולט בהורשת, כך אני מאמין, כל אחת מהתכונות הפשוטות שיש לכל אחד, עם כי ברמה שונה".

המוטיבציה של המאמר נבעה מתוצאות של ניסויים קודמים: "לפני שנים בצעתי סידרה אקסטנסיבית של ניסויים על גודלם של זרעים מאותם מינים. …נראה היה מניסויים אלו שהזרעים שהתקבלו מהצמחים לא דמו ככלל בגודלם לגודלם של הזרעים מהם צמחו, אלה תמיד היו בינוניים יותר:. מזרעים גדולים התקבלו תמיד זרעים יותר קטנים בממוצע, ומקטנים יותר גדולים. אבל גודלם הממוצע של זרעי הדור השני היה פרופורציוני לזרעיי הגודל מהם התפתחו."

תוצאה טריוויאלית אלו, היו מפתיעות לתקופתן. גולטון ביקש מחברים הפזורים בכל רחבי המדינה לבדוק, שניים-שלשה דורות, והתוצאות חזרו על עצמן.  כעת, הוא ניסה לכמת את הקשר, ולעשות זאת בבני אדם.

טיסו, בת הקפטן 1878

התכונה שהוא מצא עבורה נתונים הייתה הגובה של האדם הבוגר. היו לו נתונים של 930 צאצאים ו-205 זוגות הורים. כיוון שגברים בד"כ יותר גבוהים מנשים, את גובהן של הנשים במדגם הוא הכפיל ב-1.08 כדי להתאימם לגובה הגברים. לאחר מכן יכול היה התעלם מהמגדר. זוג ההורים יוצג על ידי הגובה הממוצע של שניהם. נקרא לו בקיצור גמש"ה.

  יש מעלות לבדיקת הגובה דווקא, שאותן מציין גולטון. המדידה יחסית פשוטה, והוא יכול היה להגיע לנתונים. גובה הוא תכונה מורכבת, הרבה מאוד איברים תורמים לגובה הסופי, ומצד שני הגובה הממוצע לא משתנה בהרבה בין אוכלוסיות שונות. גולטון הניח שגובה אינו גורם משמעותי בבחירת בני הזוג, ולכן הוא יכול להתייחס לגובה האב ולגובה האם כבלתי תלויים.

כעת הוא צייר את הדיאגרמה הבאה. הוא חילק את  205 זוגות ההורים ל-9 קבוצות לפי הגמש"ה. (התוצאות היו בדיוק של אינץ') הגובה הממוצע של הקבוצה הוא הקו הקטן שבדיאגרמה הבאה. לכל קבוצה כזו הוא חישב את חציון גובה הקבוצה (הערך שמחצית הקבוצה מתחתיו ומחצית הקבוצה מעליו). העיגול הקטן, מעל או מתחת לקו הקטן, מייצג את החציון. הקו שהעביר הוא בשיפוע של 2/3, ועובר דרך נקודת הממוצעים. כך התקבלה הדיאגרמה בצד שמאל. במלים אחרות, סטיית גובהו של הצאצא מהממוצע היא רק 2/3 מסטייתם גובהם של הוריו מהממוצע. אם ההורים גבוהים, הבן בד"כ גבוה, אבל פחות. רב הבנים של הורים נמוכים, נמוכים אף הם, אבל גבוהים מהוריהם. יש לנו כאן "רגרסיה לממוצע".

החלק המשעשע הוא הדיאגרמה מימין. גולטון אהב המחשות מכניות של חוקי ההסתברות. ההסבר בטקס מפורט ביותר. הוא מקדיש עמוד טקסט שלם להסברת השרטוט, עם הוראות בניה מפורטות, כולל התייחסות לקשר המכני בין הגלגלים, ומשקל הכבלים. המשקולת SD מייצגת את גובה הצאצא (הסקלה של הבנים משמאלה ושל הבנות מימינה), כאשר שתי המשקלות מימין מייצגות את משקל ההורים, אורך המשקולת SD  מייצג את הפיזור של משקלי הצאצא, והמשקולת משמאל היא לשם האיזון המכני הקדוש. עוד על אהבתו של גולטון להסבר המכני לתופעה

ההסבר של גולטון נאיבי. הצאצא יורש את תכונותיו חלקית מהוריו, וחלקית מכל הדורות שקדמו לו. אבל, ממוצע הגבהים של כל קודמיו מתכנס לממוצע האוכלוסייה. הגובה של קודמיו הולך ונהיה דומה לגובה הממוצע של האוכלוסייה, ולכן, האפקט של הדורות הקודמים הוא אפקט ממתן על גובה הצאצא.

דירר. לוט ובנותיו. בסביבות 1495

אבל, נתונים אלו, אפשרו לגולטון לגלות עוד כמה תופעות חשובות. הוא הסתכל על הפיזור במישור של הנקודות עם קורדינטות של הגמש"ה (הציר האופקי) וגובה הצאצא (הציר האנכי).  בכל נקודה במישור הוא חישב כמה ילדים יש ברבוע סביבה. אם נתייחס לכך כאל מפה טופוגרפית, אז מספר הילדים מהווים את הגובה של הנקודה במפה. כאשר הוא הסתכל על המפה הטופולוגית שקיבל, התברר לו שקווי הגובה מהווים אליפסות, אחת בתוך השניה, ועם אותם צירים. למביני דבר, אציין שמאמר נאיבי זה, הניח את הבסיס לרגרסיה, לאמידת צפיפות לא פרמטרית וסמי-פרמטרית במישור, ולהמצאת ההתפלגות הדו-נורמלית.

אבל אם יש רגרסיה של גובה הצאצאים אל הממוצע, איך זה שבכל זאת פיזור הגובה לא משתנה עם השנים? לכאורה, ניתן  היה לצפות, שכל דור יהיה מרוכז יותר סביב לממוצע. כאן הוא הציע הסבר המופרך ביולוגית, אבל הביטוי המתמטי שלו נכון. סטיית הגובה של הצאצא מהממוצע  הינה הסטייה הממוצעת של שני הוריו מוכפלת ב-2/3 ועוד רעש מקרי שאינו תלוי בגמש"ה:

משהו  + גמש"ה*2/3 + הממוצע*1/3= הגובה של הצאצא

זו משוואת הרגרסיה, וזה מקור הביטוי רגרסיה לממוצע.

דא"ג, אני באמת ממליץ לקרוא את המאמר המקורי. הוא כתוב בסגנון חופשי בשונה מכל מאמר מדעי מודרני. המאמר מרתק אם חושבים על הבעיה המדעית שעמדה בפניו (מהי רמת הדמיון בין הדורות, ומדוע יש התכנסות לממוצע של הפרטים, אבל הפיזור באוכלוסייה לא יורד לאפס במשך הדורות).

הערה למתקדמים: אבל, אם ארשה להיות חתרני, התוצאה של גולטון לגבי הגבהים, לא מדגימה את מה שאנחנו קוראים לו היום "רגרסיה לממוצע". המאמר עוסק, במונחים של היום, "ברגרסיה", לא ב"רגרסיה לממוצע". העובדה שהשיפוע קטן מאחד הינה אמפירית בלבד.

השונות של שני המשתנים אינה זהה – שונות הגמש"ה בהיותו ממוצע, היא מחצית שונות גובה הצאצא! לפי הידע התיאורטי של גולטון, כל תוצאה קטנה מ-2 הייתה אפשרית, ומאפשרת שימור השונות….לדוגמא, אם הגובה של אדם נקבע כממוצע של שני אלמנטים שקיבל אותם בשלמותם מהוריו, והוא מוריש לצאצאו באופן מקרי אחד מהם. דהיינו גובה האב הוא 2/(X+'X) של האם 2/(Y+'Y), כל ארבעת המשתנים בלתי תלויים והצאצא הוא אחד מארבע הקוניפגורציות האפשריות כמו 2/(Y+'X), אז לא היתה כאן רגרסיה לממוצע, והשונות הבין דורית הייתה נשמרת.

 הסיפור של הזרעים שונה לגמרי. העובדה ששיפועו של הניחוש הלינארי האופטימלי במקרה של הזרעים קטן מ-1 היא טענה לוגית (מתמטית) לא אמפירית. כאן יש באמת "רגרסיה לממוצע".

האנלוגיה לסיפור הזרעים היתה השוואת גובה האב לגובה הצאצא. אבל התוצאה כעת טריוויאלית, כי השפעת האם ממצעת.

דירר: מלנכוליה (מרה שחורה) 1514

אם נחזור לקבוצת כדורגל. היכולת והתוצאות של הקבוצה משתנים באופן מקרי לאורך התקופה. לכל אחד יש ימים טובים וימים רעים. יש פציעות, מזג אוויר, וסתם מזל רע. הישגי הקבוצה לאורך השנה משתנים. אם ננסה לנחש את הישגיה בעוד חודש, ננחש שהם יהיו משהו בין ממוצע השנה, לרמה שלהם היום.

 מתי מחליפים מאמן? כאשר הקבוצה עוברת עונה גרועה ובזמן הקצר לפני הפיטורים היא הייתה בתקופה גרועה במיוחד.  לפעמים קרה משהו אמיתי, בדרך כלל, פשוט המזל לא עזר. אבל מהעובדה שהבעלים החליט לפטר את המאמן דווקא אז, ניתן לנחש, שכנראה מצבה אז רע יחסית להישגיה "הממוצעים לעונה". הסטייה מהממוצע היא כלפי מטה. לכן, אם נחכה חודש, היא "תחזור לעצמה", ונקבל הישגים טובים יחסית לתקופה האחרונה של המאמן המפוטר. כמו עם הנהיגה המונעת, ניתן לצפות שבחודש אחרי החלפת המאמן הישגיה יהיו טובים יותר מאשר בחודש שקדם להם. לא בגלל האיזון הסטטיסטי, אלא בגלל ששום דבר לא קרה….. וכאשר ישוו את הישגיי שני המאמנים לאורך זמן, לא ימצא, ברוב המקרים הבדל משמעותי.

יש כמובן גם הסברים אחרים (אפקט הותורן, אבל כאן השחקנים משתדלים פחות לפני הפיטורים, ויותר אחריו, כדי להאשים את המאמן), אבל אין הם מענייננו.

ואן גוך: דיוקנו של ד"ר גאכט יושב ליד שולחן עם ענף אצבעונית, 1890

ועכשיו למה שאינו אחר לגמרי, אבל רציני הרבה יותר. ניקח תרופה נגד דכאון (SSRI כמו פרוזק, לשם המשל). נניח שהטיפול לא עוזר (הנחה סבירה למדי). החולה נבדק, ולאור שאלון שממולא (או לא) רמת הדיכאון שלו נקבעת. אם רמת הדיכאון עוברת סף מסוים הוא מקבל את הטיפול. אומרים לו בהתחלה, "לוקח זמן עד שהתרופה עובדת". אכן. בסוף התקופה מצבו נבדק מחדש. ראה זה פלא, מצבו השתפר.

רמת הדכאון אינה קבועה בזמן גם אם אין הדרדרות או שיפור,  מצב רוחו של הבן אדם עולה ויורד סביב איזשהו ממוצע אישי. מן הסתם, הטיפול מתחיל כאשר הסטיה מהמוצע שלילית וגדולה. שלשה חודשים אחרי זה, סביר שמצבו יהיה עדיין גרוע מהממוצע, אבל הרבה יותר טוב מהרגשתו בתחילה. שאלו את החברים שלכם… כמו עם הילדים והזרעים של גולטון, הרגרסיה לממוצע משחקת תפקיד דומיננטי בהסבר. אם לא למטופל, אז למתבנן מהצד.

זה היה הפרק הראשון בסדרה:

רגרסיה לממוצע, או מה שהווה, הוא שלא יהיה

ניסויים קליניים, כי בחיים זה אחרת

עלייתו הנמנעת של הפרוזק – על דכאון, תרופות, והטיית פרסום

פלסבו ומיגרנה, מה שיש, ומה שאין בו

.

מודעות פרסומת