מהי כריית מידע ומה חשיבותה?
כריית מידע (Data Mining) היא כלי רב עוצמה לאיתור, זיהוי וניתוח של דפוסים בבסיסי נתונים גדולים. כריית נתונים נערכת בכלים אוטומטיים והיא מאפשרת לערוך הצלבות, להסיק מסקנות ולקבל החלטות חכמות מבוססות נתונים (Data-Driven).
כריית מידע הופכת מידע לידע
הכול התחיל בשנות ה-80 של המאה ועשרים. חברות החלו לאגור עוד ועוד נתונים עסקיים ככל שיכולות האחסון של מחשבים גדלו. אט אט הצטברו הנתונים ונשמרו ב"מחסני מידע", אך השיטות הסטטיסטיות המסורתיות לניתוח כל אותם הנתונים שנאגרו – פשוט לא התאימו. נדרשו מודלים חדשים לכריית מידע, איתור דפוסים וניתוח מכלול הנתונים. לנוכח המצב החלו מומחי מחשבים להשתמש ברעיונות חדשים, כמו בינה מלאכותית ואלגוריתמים גנטיים, ובשיטות מדיסציפלינות שונות, כגון ניתוח רשתות עצביות, על מנת לגשר על הפערים ולפתח שיטות מתקדמות של ניהול מידע ונתונים רבים.
מעוניינים במידע על לימודי כריית מידע במסגרת מדעי המידע? צרו קשר דרך עמוד צור קשר או בטלפון 03-5318351
היום אנחנו חיים בעידן חדש. עידן שבו כמות המידע הדיגיטלי גדלה בהתמדה. באקלים הזה חשוב לדעת לאגור, לאסוף, לזהות, לעבד ולנתח בסיסי נתונים גדולים על מנת להפוך מידע מפוזר לידע סדור ומאורגן וכדי לשפר ולייעל תהליכים.
מדעני מידע מחוללים שינוי בעולם
כבר היום חברות, עסקים, ארגונים, מדענים וממשלות משקיעים מאמצים ומשאבים רבים בפיתוח כלים אוטומטיים וטכנולוגיות לצורך כריית מידע; עסקים מסחריים עושים שימוש נרחב בכריית נתונים על מנת לזהות פרופילים של לקוחות, לתקשר איתם ולהתאים להם מסרים, שירותים ומוצרים. חברות ביטוח ובנקים משתמשים בכריית מידע כדי לזהות הונאות וחריגות, ממשלות ממנפות טכנולוגיית כריית נתונים לזיהוי מוקדם של טרור ופשע ולחיזוק הביטחון הלאומי, ועולם המדע משתמש בטכניקות של כריית נתונים על מנת להגיע לתובנות מדעיות חשובות וחדשות שמקדמות את העולם ואת האנושות כולה.
ועל אף שתחום מדעי המידע נחשב לדיסציפלינה חדשה יחסית, חוקרים בתחום המידע כבר עכשיו מתגלים כמנוע המקדם את התפתחות המחקר והידע בתחומים רבים ומגוונים, ומדעני מידע מחוללים שינוי אמיתי בעולם.
מדעני מידע נעזרים במאגרי נתונים, בטכנולוגיות בינה מלאכותית (AI), למידת מכונה (ML), הדמיות, ניתוחים אינטגרטיביים, אלגוריתמים, שיטות סטטיסטיות ועוד לצורך כריית מידע ועל בסיס זה מנבאים נטיות התנהגות אנושיות, חוזים מגמות וטרדנים, משפרים תהליכים ומפתחים מערכות, שירותים ומוצרים חיוניים חדשים.
מודלים של כרית נתונים
כיום קיים רפרטואר די נרחב של גישות ומודלים של כריית נתונים. בין היתר ניתן להצביע על המודלים הבאים:
- מודלים תיאוריים – מודלים אלו נקראים גם ניתוח אשכולות והם המודל הבסיסי ביותר לסיווג, זיהוי דפוסים וסגמנטציה (פילוח) של מידע ונתונים. הרעיון שעומד מאחורי מודלים תיאוריים הוא שבכל אחד מן האשכולות מסווגים רשומות אשר להן מאפיינים זהים או דומים. במודל זה נעשה שימוש באלגוריתם לניתוח אשכולות, למשל.
- מודלים לחיזוי – במודלים מסוג זה של כריית מידע למעשה לוקחים מערך נתונים גדול ומחלקים אותו לקבוצות מוגדרות ומסווגות. לאחר מכן, מחפשים דפוסים חוזרים ונשנים כמו גם נתונים מבדילים. על סמך זיהוי דפוסים והבדלים אלו ניתן להקיש ולבצע חיזויים למקרים אחרים. במודל זה נעשה שימוש למשל בפונקציות ניתוח רגרסיה.
- מודלים לכריית דפוסים – מודלים אלו מתרכזים בזיהוי דפוסים בתוך מאגרי נתונים גדולים. אלו מגלים לא רק חוקיות כי אם גם יוצרים אסוציאציות שפחות נראות לעין האנושית במסדי נתונים וחושפות מידע בלתי צפוי שיכול לתרום למניעת שגיאות כמו גם מניעת סיכונים, פגמים ותקלות.
- מודלים לזיהוי אנומליה – לצד מודלים שמזהים חוקיות ודפוסים קבועים פותחו גם מודלים הפוכים אך יחד עם זאת – משלימים. מודלים אלו נועדו לאתר, לזהות ולנתח חריגות שאינן נכנסות לשום תבנית ידועה או קבועה.
טכנולוגיות כריית נתונים מעניקות לנו הזדמנות לנתח בסיסי נתונים גדולים שלא ניתן היה לנתח באופן ידני או אנושי. שימוש נכון בפרקטיקות כריית מידע יכול לספק תובנות מרחיקות לכת שלא ניתן להשיגן בשום דרך אחרת.