כשמדובר בבניית מודל למידת מכונה , בדיקה והערכה הם צעדים חיוניים כדי להבטיח את האפקטיביות והדיוק שלו . בואו נצלול לעולם של טיפים לבדיקה וטכניקות הערכה שיעזרו לכם לחדד את המודלים שלכם ולקבל החלטות מושכלות יותר.
הכירו את שרה, מדענית נתונים שעבדה על פרויקט למידת מכונה לחיזוי נטישת לקוחות בחברת טלקום. היא השקיעה שעות של מאמץ לבנות מודל מורכב שמנתח מאפיינים שונים ומנבא את הסבירות שלקוח יעזוב את החברה. כשהיא מתקרבת לשלבים האחרונים של הפרויקט שלה, שרה מבינה שהיא צריכה לבדוק ולהעריך היטב את המודל שלה לפני פריסתו.
שרה מבינה את החשיבות של פיצול הרכבת/מבחן/אימות . היא מחליטה לחלק את מערך הנתונים שלה לשלושה חלקים: 70% לאימון המודל, 30% לבדיקת הביצועים שלו ותת-קבוצה קטנה למטרות אימות. בכך היא מבטיחה שהמודל שלה לא רק מיומן על מגוון רחב של נתונים אלא גם מוערך על סמך דוגמאות שלא נראו.
שרה זוכרת את החשיבות של ערבוב הנתונים לפני ביצוע הפיצולים, שרה מסדרת את הנתונים באופן אקראי כדי למנוע הטיות או דפוסים כלשהם להשפיע על התוצאות שלה. שלב זה חיוני בהשגת מדדי הערכה מדויקים .
ככל שרה מתקדמת, היא מחליטה להעריך את ביצועי המודל שלה באמצעות מדדי הערכה שונים . עבור מודלים של סיווג כמו שלה, דיוק , דיוק וזכירה הם מדדי מפתח. הדיוק מספק מדד כולל למידת היעילות של המודל מנבא, בעוד שהדיוק מתמקד בשבריר הדוגמאות הרלוונטיות מבין הכיתה החזויה. זכור , לעומת זאת, מודד עד כמה המודל מזהה את כל הדוגמאות הרלוונטיות.
שרה מתייחסת גם למושגים של הטיה ושונות בתהליך ההערכה שלה. היא מבינה שמודל עם הטיה גבוהה עשוי להתאים לנתונים, בעוד שמודל עם שונות גבוהה עשוי להתאים לו יתר על המידה. יצירת האיזון הנכון בין הטיה לשונות חיונית להשגת מודל שביצועים טובים הן בנתוני ההדרכה והן בבדיקות.
כששרה מעמיקה בתהליך ההערכה, היא חוקרת שיטות הערכה שונות . טכניקות דגימה מחדש כמו אימות צולב , פיצולים חכמים בזמן ופיצולים אקראיים מתגלים כבעלי ערך בהערכת ביצועי ההכללה של המודל שלה. שיטות אלו עוזרות לה להימנע מהתאמת יתר ומספקות הערכה אמינה של ביצועי המודל על נתונים חדשים שלא נראים.
באמצעות שיטות ההערכה והמדדים המתאימות, שרה משיגה תובנות חשובות לגבי החוזקות והחולשות של המודל שלה. זה מאפשר לה לכוונן את המודל שלה ולהפוך אותו לאמין, מדויק ויעיל יותר.
נקודות עיקריות:
- פיצול מערך הנתונים למערכות הדרכה, בדיקות ואימות חיוני להערכת מודלים של למידת מכונה בצורה יעילה.
- ערבוב הנתונים לפני ביצוע הפיצולים מבטיח הערכה חסרת פניות ומדויקת.
- מדדים כגון דיוק, דיוק וזכירה משמשים להערכת מודלים של סיווג .
- הבנת המושגים של הטיה ושונות חיונית לאיזון ביצועי המודל .
- בחירת שיטות ההערכה הנכונות , כגון טכניקות דגימה מחדש , מאפשרת הערכת מודל מהימנה.
פיצול רכבת/בדיקה/אימות
פיצול הרכבת /בדיקה/אימות הוא שלב מכריע בהערכה נכונה של מודל למידת מכונה . זה כרוך בחלוקת מערך הנתונים לתת-קבוצות נפרדות להדרכה, בדיקה ואימות.
” פיצול הרכבת/בדיקה/אימות הוא מרכיב קריטי בהערכת המודל . הוא מאפשר לנו להעריך את ביצועי המודל על נתונים שנראו ובלתי נראים כאחד, מה שמבטיח את יכולתו להכליל.”
הנוהג המקובל הוא להשתמש ב-70% מהנתונים לאימון, 30% לבדיקות ולפעמים ב-20% נוספים לצורך אימות. פיצול זה מסייע במניעת התאמת יתר לנתוני האימון ומאפשר להעריך את ביצועי המודל על נתונים בלתי נראים.
חשוב לערבב את הנתונים לפני ביצוע הפיצולים הללו כדי להבטיח שכל פיצול מייצג את מערך הנתונים בצורה מדויקת. טכניקה זו מסייעת בהימנעות מכל הטיות פוטנציאליות שעלולות להתרחש עקב הסדר של מערך הנתונים. על ידי הפצה אקראית של הנתונים, אנו מבטיחים שהמודל לומד ממגוון מגוון של דפוסים ותכונות.
מדדי סיווג
בעת הערכת מודלים של סיווג, נעשה שימוש במדדים שונים להערכת הביצועים שלהם. מדדים אלה כוללים חיוביות אמיתיות , שליליות אמיתיות , חיוביות שגויות ושליליות שגויות . כדי לקבל הבנה מקיפה של ביצועי המודל, תוצאות אלו מוצגות לרוב באמצעות מטריצת בלבול .
אחד המדדים הנפוצים המשמשים להערכת מודל סיווג הוא דיוק , המודד את אחוז התחזיות הנכונות. עם זאת, הדיוק לבדו עשוי שלא לספק תמונה מלאה של ביצועי הדגם. לכן , נעשה שימוש במדדים נוספים כגון דיוק וזיכרונות .
דיוק מתמקד בשבריר הדוגמאות הרלוונטיות מבין הכיתה החזויה. הוא מכמת את יכולתו של המודל לזהות נכון מקרים חיוביים. מצד שני, ריקול מודד את חלקיק הדוגמאות שצפוי להיות שייכות לכיתה. הוא מעריך את יכולתו של המודל לזהות את כל המקרים החיוביים, תוך מזעור מספר השליליים השגויים . מדדים אלה עוזרים להעריך את ביצועי המודל בתרחישים שונים.
הבה נסתכל על דוגמה כדי להמחיש עוד יותר את מדדי הסיווג האלה :
מודל סיווג דוא”ל מאומן לסווג מיילים כספאם או לא כספאם. במהלך הערכה, 100 הודעות דוא”ל מסווגות כספאם ו-900 הודעות דוא”ל כלא ספאם. לאחר בדיקה מדוקדקת, מתגלה כי מתוך 100 הודעות דואר זבל, 95 סווגו כראוי כדואר זבל ( חיובי אמיתי ), בעוד 5 סווגו באופן שגוי כלא ספאם ( שליליות כוזבות ). יתרה מכך, מתוך 900 הודעות הדואר האלקטרוני שאינם דואר זבל, 880 סווגו בצורה נכונה כלא דואר זבל ( שליליות אמיתיות ), בעוד 20 סווגו באופן שגוי כדואר זבל ( תוצאות חיוביות שגויות ).
באמצעות ערכים אלה, נוכל לבנות מטריצת בלבול :
ספאם חזוי | חזוי לא ספאם | |
---|---|---|
דואר זבל בפועל | חיובי אמיתי (TP) = 95 | שלילי כוזב (FN) = 5 |
ממש לא ספאם | חיובי שווא (FP) = 20 | שלילי אמת (TN) = 880 |
ממטריצת בלבול זו , אנו יכולים לחשב את הדיוק, הדיוק והזיכרון של מודל סיווג הדוא”ל :
- דיוק = (TP + TN) / (TP + TN + FP + FN)
- דיוק = TP / (TP + FP)
- Recall = TP / (TP + FN)
על ידי מינוף מדדי סיווג אלו , נוכל לקבל הערכה מקיפה יותר של ביצועי המודל ולקבל החלטות מושכלות לגבי יעילותו בתרחישי סיווג שונים.
מדדי רגרסיה
מדדי הערכה ממלאים תפקיד מכריע בהערכת הביצועים של מודלים של רגרסיה. שלא כמו מדדי סיווג , מדדי רגרסיה מתמקדים בביצוע חיזוי טווח רציף. בואו נסתכל מקרוב על כמה מדדי רגרסיה מרכזיים המשמשים להערכת מודל .
“שונות מוסברת, טעות בריבוע ממוצעת ומקדם R2 הם מדדי רגרסיה נפוצים.”
שונות מוסברת: שונות מוסברת מודדת את השונות של התוצאות החזויות ביחס לשונות של השגיאה במודל. הוא מכמת עד כמה המודל לוכד את התוצאות הצפויות ומספק תובנה לגבי הדיוק של התחזיות.
שגיאה בריבוע ממוצעת: שגיאה בריבוע ממוצעת (MSE) הוא מדד בשימוש נרחב להערכת מודלים של רגרסיה. הוא מחשב את הממוצע של ההבדלים בריבוע בין ערכי הפלט החזויים והאמיתיים. ככל שה-MSE נמוך יותר, כך ביצועי הדגם טובים יותר, שכן הם מעידים על סטייה ממוצעת קטנה יותר מהערכים האמיתיים.
מקדם R2: מקדם R2 , הידוע גם כמקדם הקביעה, מודד את שיעור השונות במשתנה התוצאה שהמודל חוזה על סמך תכונותיו. הוא נע בין 0 ל-1, כאשר 1 מציין שהמודל מנבא בצורה מושלמת את משתנה התוצאה. מקדם R2 גבוה יותר מרמז על התאמה טובה יותר של המודל לנתונים.
על ידי בחינת מדדי הרגרסיה הללו , מתרגלים יכולים להעריך את הדיוק וכוח הניבוי של מודלים הרגרסיה שלהם, לאפשר החלטות מושכלות ולשפר את איכות התחזיות.
הטיה מול שונות
בעולם של למידת מכונה, הטיה ושונות הם שני גורמים קריטיים המשפיעים באופן משמעותי על הביצועים של מודלים. הבנת המושגים הללו חיונית למפתחים ולעוסקים ביצירת מודלים יעילים של למידת מכונה. הבה נעמיק בפרטים של הטיה, שונות, התאמה נמוכה והתאמה יתר , וכיצד הם קשורים לביצועי המודל .
הֲטָיָה
הטיה מתייחסת ליכולת של המודל ללכוד את המבנה הבסיסי והקשרים בתוך הנתונים. מודל עם הטיה גבוהה מפשט את הנתונים יותר מדי, מה שמוביל לחוסר התאמה . תת-התאמה מתרחשת כאשר המודל לא מצליח לתפוס את מורכבות הנתונים ומציג ביצועים גרועים. במילים פשוטות יותר, מודל מוטה אינו לומד בצורה מספקת מנתוני האימון ומתקשה לבצע תחזיות מדויקות.
שׁוֹנוּת
שונות, לעומת זאת, מתייחסת לרגישות של דגם לרעש ולתנודות בנתונים. מודל עם שונות גבוהה הוא מורכב מדי ומאומן מדי על נתוני האימון, וכתוצאה מכך התאמה יתרה. התאמת יתר מתרחשת כאשר מודל לומד את הרעש והאי-סדירות בנתוני האימון מקרוב מדי, מה שמוביל להכללה וביצועים גרועים על נתונים חדשים, בלתי נראים.
מציאת האיזון הנכון בין הטיה לשונות חיונית לפיתוח מודלים יעילים של למידת מכונה. על ידי מזעור ההטיה והשונות, מפתחים יכולים ליצור מודלים הלוכדים במדויק את הקשרים הבסיסיים בנתונים תוך הכללה טובה לנתונים חדשים שלא נראים.
“מציאת האיזון הנכון בין הטיה לשונות חיונית לפיתוח מודלים יעילים של למידת מכונה.”
הֲטָיָה | שׁוֹנוּת | |
---|---|---|
תת התאמה | גָבוֹהַ | נָמוּך |
התאמת יתר | נָמוּך | גָבוֹהַ |
ביצועי דגם | עני | עני |
בחירת שיטות הערכה
בחירת שיטת ההערכה הנכונה היא קריטית בפיתוח המודל. שיטות הערכה עוזרות להעריך עד כמה מודל למידת מכונה מתפקד ולקבוע את התאמתו ליישומים בעולם האמיתי. להלן כמה שיטות הערכה נפוצות:
דגימה מחדש
שיטות דגימה מחדש כוללות חלוקת מערך הנתונים לתת-קבוצות כדי להעריך את ביצועי המודל. פיצולים אקראיים ופיצולים בזמן הם טכניקות דגימה חוזרת בשימוש נפוץ. פיצולים אקראיים מחלקים את מערך הנתונים באופן אקראי לקבוצות אימון ובדיקות, בעוד שפיצולים חכמים בזמן משתמשים בסדר כרונולוגי לפיצול הנתונים. שיטות דגימה מחדש עוזרות להעריך עד כמה מודל מתכלל לנתונים בלתי נראים, ומספקות תובנות חשובות לגבי יכולות הניבוי שלו.
אימות צולב
אימות צולב הוא טכניקת הערכה חזקה הכוללת חלוקת מערך הנתונים למספר משנה או קפלים. טכניקה זו עוזרת להפחית את הסיכון להטיה או התאמה יתר על ידי אימון ובדיקת המודל על תת-קבוצות שונות של נתונים. אימות צולב כפול K מחלק את הנתונים ל-k קפלים שווים בגודלם, בעוד שאימות צולב של קפלים שכבות מבטיח שההתפלגות של משתני היעד נשמרת על פני הקיפולים. אימות צולב מספק הערכה מקיפה יותר של ביצועי המודל, ומאפשר בחירת מודל אמינה.
מחזיק מעמד
שיטת holdout כוללת פיצול מערך הנתונים לסט אימון וערכת אימות. בדרך כלל, ערכת האימונים משמשת לאימון המודל, בעוד ערכת האימות משמשת להערכת הביצועים שלו. הערכת Holdout היא שיטה פשוטה וקלה ליישום. עם זאת, היא עשויה להיות נוטה לשונות בהתאם להרכב מערכי ההדרכה והאימות.
אתחול
דגימה מחדש של Bootstrap היא שיטת הערכה רבת עוצמה הכוללת דגימה אקראית של נקודות נתונים ממערך הנתונים עם החלפה. על ידי יצירת דגימות Bootstrap מרובות , כל אחת בגודל זהה למערך הנתונים המקורי, ניתן להעריך את ביצועי המודל על פני דגימות אלו. דגימה מחדש של Bootstrap עוזרת להעריך את השונות של ביצועי המודל ולהעריך את יציבותו.
“בחירת שיטת ההערכה הנכונה היא חיונית להבטחת בחירה והשוואה מהימנה של מודל. שיטות דגימה מחדש, אימות צולב, holdout ו-bootstrap resampling הן כולן טכניקות בעלות ערך המספקות תובנות לגבי ביצועי המודל. על ידי שילוב שיטות הערכה אלה בתהליך פיתוח המודל , חוקרים ומתרגלים יכולים לקבל החלטות מושכלות ולבנות מודלים חזקים של למידת מכונה.”
השוואת שיטות הערכה
שיטת הערכה | יתרונות | חסרונות |
---|---|---|
דגימה מחדש | – מספק תובנות לגבי הכללת מודל – מפחית את הסיכון של התאמת יתר – מעריך ביצועים על נתונים בלתי נראים | – דורש משאבי חישוב נוספים – עשוי להיות שונות גבוהה יותר בהערכות ביצועים |
אימות צולב | – שיטת הערכה חזקה – מפחיתה את הסיכון להטיה והתאמת יתר – מספקת הערכה מקיפה של ביצועי המודל | – תקורה חישובית מוגברת – עשויה להיות גוזלת זמן עבור מערכי נתונים גדולים |
מחזיק מעמד | – פשוט ופשוט ליישום – קל להבין ולפרש תוצאות | – נוטה לשונות בהתאם לפיצול – הערכה מוגבלת של ביצועי המודל |
אתחול | – אומדן שונות בביצועי המודל – מעריך את יציבות המודל וחוסנו | – דורש משאבי חישוב נוספים – עשוי להיות רגיש לגדלי מדגם קטנים |
מדדי הערכה למשימת סיווג
בתחום למידת מכונה, הערכה מדויקת של מודלים לסיווג חיונית למדידת ביצועיהם ולקביעת יעילותם בפתרון משימות ספציפיות. מגוון מדדי הערכה זמינים כדי להעריך את הדיוק והאמינות של מודלים אלה.
מדד הערכה נפוץ הוא דיוק , המכמת את אחוז התחזיות הנכונות שנעשו על ידי המודל. הוא מודד את היחס בין התחזיות הנכונות למספר הכולל של התחזיות ומספק סקירה כללית של הביצועים הכוללים של המודל.
דיוק הוא מדד הערכה קריטי נוסף המשמש למשימות סיווג. דיוק מודד את חלק הדוגמאות הרלוונטיות שנחזו במדויק בתוך המחלקה החזויה. זה מחושב על ידי חלוקת מספר החיוביות האמיתיות בסכום החיוביות האמיתיות והחיוביות השגויות.
ריקול , הידוע גם בתור השיעור החיובי האמיתי , מודד את חלק הדוגמאות שנחזה בצורה נכונה להשתייכות למעמד מסוים. זה מחושב על ידי חלוקת מספר החיוביות האמיתיות בסכום החיובים האמיתיים והשליליים השגויים.
ציון F1 הוא מדד הערכה המשלב גם דיוק וגם זכירה. הוא מספק מדד מאוזן של דיוק המודל על ידי התחשבות בתוצאות חיוביות שגויות ושליליות שגויות. ציון F1 מחושב כממוצע ההרמוני של דיוק והיזכרות והוא שימושי בתרחישים שבהם גם הדיוק וגם ההיזכרות חשובים באותה מידה.
כדי להבין טוב יותר את הביצועים של מודלים לסיווג ולנתח את יכולות הניבוי שלהם, נעשה שימוש לעתים קרובות במטריצת הבלבול . מטריצה זו מספקת סקירה מקיפה של חיוביות אמיתיות, שליליות אמיתיות, חיוביות שגויות ושליליות שגויות. הוא מאפשר ניתוח ופרשנות מפורטות יותר של נקודות החוזק והחולשה של המודל בחיזוי נכון של מחלקות שונות.
מטריצת בלבול לדוגמה:
חיזוי חיובי | חיזוי שלילי | |
---|---|---|
חיובי בפועל | נכון חיובי | שלילי כוזב |
שלילי בפועל | חיובי כוזב | שלילי אמיתי |
על ידי ניצול מדדי הערכה אלה וניתוח יסודי של מטריצת הבלבול, מהנדסי למידת מכונה ומדעני נתונים יכולים לקבל תובנות חשובות לגבי הביצועים של מודלי הסיווג שלהם. מדדים אלה מספקים מסגרת איתנה להערכת דיוק, דיוק, זכירה והחלפות בין גורמים אלה על מנת לקבל החלטות מושכלות בנוגע לשיפורי מודל ואסטרטגיות אופטימיזציה.
מדדי הערכה למשימת רגרסיה
בעת הערכת מודלים של רגרסיה, נעשה שימוש במדדי הערכה שונים כדי להעריך את הביצועים שלהם. מדדים אלו מספקים תובנות לגבי עד כמה המודלים מנבאים ערכים מתמשכים ומסייעים בהשוואה ובחירת המודל הטוב ביותר עבור משימה נתונה.
ממוצע שגיאה מוחלטת (MAE) מודד את ההבדל המוחלט הממוצע בין ערכים חזויים וערכים אמיתיים. הוא מחשב את הממוצע של הערכים האבסולוטיים של ההבדלים בין הערכים החזויים לערכים בפועל. MAE נמוך יותר מצביע על כך שהתחזיות של המודל קרובות יותר לערכים האמיתיים, מה שמצביע על התאמה טובה יותר לנתונים.
שגיאה ממוצעת בריבוע (MSE) מודדת את ההבדל הממוצע בריבוע בין ערכים חזויים וערכים אמיתיים. הוא מחשב את הממוצע של ההבדלים בריבוע בין הערכים החזויים לערכים בפועל. MSE מגביר את ההשפעה של שגיאות גדולות יותר, מכיוון שהוא כרוך בריבוע של ההבדלים. כמו MAE, MSE נמוך יותר מצביע על ביצועי מודל טובים יותר במונחים של חיזוי הערכים האמיתיים.
Mean Absolute Percentage Error (MAPE) משווה את ההבדל האחוז המוחלט בין ערכים חזויים וערכים אמיתיים. הוא מודד את ההפרש הממוצע באחוזים המוחלט בין הערכים החזויים והממשיים, ומספק תובנות לגבי הגודל הממוצע של השגיאות כאחוז מהערכים האמיתיים. MAPE נמוך יותר מצביע על כך שהתחזיות של המודל מדויקות יותר, עם הבדלים באחוזים קטנים יותר.
מדד הערכה | תַחשִׁיב | פרשנות |
---|---|---|
שגיאה מוחלטת ממוצעת (MAE) | MAE = (1/n) * Σ|y pred – y true | | ערכים קטנים יותר מעידים על התאמה טובה יותר של הדגם |
שגיאה ממוצעת בריבוע (MSE) | MSE = (1/n) * Σ(y pred – y true ) 2 | ערכים קטנים יותר מעידים על התאמה טובה יותר של הדגם |
אחוז שגיאה ממוצע מוחלט (MAPE) | MAPE = (1/n) * Σ(|(y pred – y true ) / y true | * 100) | ערכים קטנים יותר מעידים על התאמה טובה יותר של הדגם |
עקומת AUC-ROC
עקומת AUC-ROC היא כלי רב עוצמה להערכת הביצועים של מודלים לסיווג. זה קיצור של שטח מתחת לעקומת עקומת מאפיין הפעולה של המקלט (ROC). עקומת ה- ROC משרטטת את השיעור החיובי האמיתי (רגישות) מול השיעור החיובי השגוי (ספציפיות 1) עבור ספי סיווג משתנים. ציון AUC מייצג את הביצועים הכוללים של המודל, כאשר ציונים גבוהים יותר מצביעים על הפרדה טובה יותר בין הכיתות.
על ידי ניתוח עקומת AUC-ROC , מתרגלים יכולים להבין עד כמה מודל סיווג מבחין בין מחלקות שונות. העקומה מספקת תובנות לגבי יעילות המודל בערכי סף שונים, ומאפשרת לבחור את המודל הטוב ביותר האפשרי. השיעור החיובי האמיתי מייצג את חלק המקרים החיוביים שסווג נכון, בעוד שהשיעור החיובי השגוי מייצג את חלק המקרים השליליים שסווג באופן שגוי כחיובי. בחינת שיעורים אלה מסייעת להעריך את יכולתו של המודל לחזות במדויק תוויות מחלקות.
עקומת AUC-ROC שימושית במיוחד במצבים שבהם קיים חוסר איזון בכיתה או מעורבים עלויות שונות של סיווג שגוי. הוא מספק ייצוג חזותי של ביצועי המודל על פני כל ספי הסיווג האפשריים, ומציע הערכה מקיפה של יכולתו להבחין בין מחלקות.
סיכום
לסיכום , בדיקה והערכה נכונה הם שלבים חיוניים בעבודה עם מודלים של למידת מכונה . על ידי הערכת הביצועים שלהם, המתרגלים יכולים לבחור את המודל הטוב ביותר ולהבטיח תחזיות מדויקות. חלוקת מערך הנתונים לקבוצות משנה נפרדות לצורך הדרכה, בדיקה ואימות היא פרקטיקה חיונית המונעת התאמת יתר ומאפשרת הערכה על נתונים בלתי נראים.
בעת הערכת מודלים של סיווג, מדדים כגון דיוק, דיוק, זכירה וציון F1 מספקים תובנות חשובות לגבי הביצועים שלהם. מדדים אלו עוזרים למדוד את יכולתו של המודל לסווג נכון מופעים ולהעריך את הדיוק והזכירה שלו עבור כל מחלקה.
עבור מודלים של רגרסיה, מדדים כמו טעות בריבוע ממוצעת ומקדם R2 עוזרים להעריך את דיוק הניבוי של המודל ואת יכולתו להסביר את השונות בנתונים. מדדים אלה מאפשרים למתרגלים לבחור את המודל שתופס בצורה הטובה ביותר את הקשרים בין תכונות וערכי יעד מתמשכים.
על ידי הבנה ויישום של טכניקות הערכה אלה ביעילות, מתרגלים יכולים לשפר את הדיוק והביצועים של מודלים למידת מכונה שלהם. הקדשת הזמן לבדיקה יסודית ולהעריך מודלים תוביל בסופו של דבר לחיזוי משופר, קבלת החלטות טובה יותר ופריסה מוצלחת של מודלים של למידת מכונה ביישומים בעולם האמיתי.