'ביג דאטה', מה זה בכלל? ביג-דאטה, משמש ליצירת 'תובנות' בתהליכי 'בינה עסקית' במגוון תחומים.
המונח 'Big Data' (בעברית 'ביג דאטה' או בתרגום ישיר 'נתוני עתק') הפך שכיח בשנים האחרונות ועם המונח 'BI' (או 'Business Intelligence'), מאתגר בעלי עסקים ומנהלים רבים בצורך והדרך המתאימות והאם תובנות עסקיות וניהול ביג-דאטה בכלל נדרש לארגון או לעסק.
אולם ובאופן מפתיע, המונח 'נתוני עתק' והמתייחס בפרט להיקף הנתונים אינו משקף נכונה את משמעות המונח בתהליכי הקש ותובנות המתבססים עליו.
המידע הנצבר, מגיע ממגוון ערוצים כמו טקסט, תמונות, שמע, וידאו וכן מהשלמת חלקים חסרים באמצעות מיזוג נתונים וטיוב שלהם. נהוג לקבוע כי התחום "מתייחס למאגר מידע הכולל נתונים בתפזורת, שאינם מאורגנים לפי שיטה כלשהי, ומגיעים ממקורות רבים, בכמויות אדירות, בפורמטים לא אחידים, ובאיכויות שונות" (רועי חרמש, IIA). מכן שלאיכות הנתונים, מרחב המדגם ומשתנים נוספים השפעה מהותית על איכות והיקף התובנות ולא בהכרח רק לכמות הנתונים.
ביג דאטה, חמשת ה-Vים
נהוג לסווג את אופי הנתונים לפי חמישה מאפיינים מרכזיים (הידועים גם בתור "חמשת ה-V-ים"), אך אפשר גם לצמצם (ולאחד אותם) לשלושה (ויש הנוהגים לסווג לארבעה):
- נפח (Volume): כמות הנתונים, המשפיעה על איכות התובנות העסקיות שאפשר לגזור מהם. יש להתייחס לכמות היחסית של הנתונים בהתחשב בגודל מרחב המדגם. לכן אפשריים מקרים בהם ובנפחים נמוכים הרבה יותר מהמקובל בעולם העסקי (שבו נמדדים במטה-בתים ופטא-בייט), אפשר יהיה לייצר תובנות איכותיות.
- מהירות (Velocity): זמינות הנתונים, בשאיפה לנתוני זמן-אמת רציפים ותכופים ככל האפשר. למאפיין זה שני תתי-מאפיינים של 'תדירות הדגימה' (ייצור) ושל 'תדירות הטיפול'. ככל שקבוע הזמן ובהתייחס למרחב המדגם בדגימת הנתונים גדול יותר, כך אמינותם פוחתת.
- גיוון (Variety): מתייחס לסוג ואופי הנתונים עצמם ולמקורות המידע ודרכי האיסוף.
והרחבתם לחמישה:
- אי-יציבות (Volatility): תנודתיות הנתונים (השוני באיכות, בכמות וזמינות), משפיעה על תדירות הדגימה והטיפול ועל איכותם ביחס למרחב המדגם.
- אי-אמינות (Veracity): מאפיין המתייחס לאיכות, אמינות וערכם של הנתונים. כמובן שלאיכות הנתונים (Quality) השפעה משמעותית על איכות התובנות ומכן שמאפיין זה נחשב להגדרה "חליפית" נפרדת למהו ביג-דאטה.
המאפיין המזוהה ביותר עם המונח 'ביג דאטה' הוא כמובן ה-V הראשון 'נפח' (כמות, או 'Volume' בלעז) ובזכות השימוש במילה 'Big' במונח עצמו והתרגום הישיר שלה לעברית 'עתק' (או, 'גדול'). עם זאת, חשוב להבהיר כי למרחב הדגימה, לגיוון ולאיכות הנתונים משקל לא פחות ולכן לעיתים תוצרי תהליך BI יכולים להתבסס על 'גודל יחסי' ובנפחים קטנים הרבה יותר. במובן זה, גם אם לכאורה לא מדובר על 'ביג דאטה' כשמו - הרי שהשיטה והתהליך נותרים זהים ומכאן החובה לקבל ולהשתמש גם במדדי 'נפח' קטנים.
בינה עסקית ותובנות
הביג-דאטה מאפשר 'בינה עסקית ארגונית' (לחצו כדי ללמוד עוד) ואשר בתורה מייצרת 'תובנות עסקיות:
"בינה עסקית, מאפשרת תובנות עסקיות המבוססות על ניתוח עסקי מקיף ומהיר וצריכות להיות נגישות באופן מידי, בכל מקום וזמן ובלחיצת כפתור. לכן, יישום עכשווי של BI יתבסס על כלים טכנולוגים מתקדמים המחוברים ישירות למאגרי המידע הארגוניים ובכך מאפשרים איסוף, חיתוך, חישוב והצגת תובנות עסקיות עדכניות, בזמן אמת ובצורה גמישה ונגישה" ("בינה BI", שם).
מערכות עסקיות מתקדמות המספקות 'בינה עסקית' חייבות להיות מסוגלות להתמודד עם ביג-דאטה בזמן אמת, בנפח ובזמינות גבוהים ובכל מקום ובכל מכשיר. פתרונות BI כאלו הפכו נפוצים וזמינים כמערכות מותקנות באתר (On Premise) ובענן (Cloud) במודל SaaS או PaaS.
עם זאת, המונח הנפוץ ליישום מבוסס 'Big Data' מטעה בהיותו כרוך ולכאורה בעולם העסקי (המונח כאמור בלעז, 'Business Intelligence'). בפועל תהליכי 'בינה' משמשים במגוון תחומים בחיים שאינם 'עסקיים' במהותם וכמו במערכות בריאות, יחסים בינלאומיים ופוליטיקה.
כמובן כי שימוש בביג-דאטה אינו מוגבל תעשייה או תחום בודד והוא כבר מיישום בתחומים עסקים, ציבורים, אקדמיים, בריאות ואחרים. עם זאת, ייתרון משמעותי שלו הוא יכולת 'ניהול סיכונים' ובמובן שמאפשר לאתר מגמות היסטוריות, צווארי בקבוק וסטיות (אנומליות) שניתוח ממקור אחד לא היו מאפשרים לזהות. כאן, כמובן, מודגשת חשיבות הטכנולוגיה ביכולת ליישם תובנות עיסקיות בנפחי מידע גדולים וביעילות כלכלית.
פרטיות ואבטחת מידע
עם הפיכת 'ביג דאטה' למקור עבור 'תובנות' זמינות והמבוססות על איסוף ועיבוד מידע בנפחים גדולים - עולה אתגר חדש: פרטיות הנתונים ואבטחת המידע הנוגעת לאופן האיסוף, האחסון, הניתוח וההפצה (והצגה) שלהם. סיכונים ברמת פרטיות-הנתונים יכולים להתקיים מהרמה האישית ודרך העסקית\ארגונית, המדינתית והבינלאומית ובהתאם להיקף איסוף והפצת הנתונים ותוצרי הניתוח.
כיום וככל שהכלים הזמינים ליישום BI נוגעים - היבטי אבטחת מידע ופרטיות כמוקבל בתקנים כמו GDPR (התקן האירופי 'General Data Protection Regulation' שהתפרסם -25/5/2018) וכן "תקנות הגנת הפרטיות (אבטחת מידע)" שפרסמה הרשות למשפט טכנולוגיה ומידע במשרד המשפטים (ראו בקישור), אינם מקבלים מענה שלם ומקיף. לכן יש לתת על כך את הדעת מבחינת החשיפה המשפטית והעסקית לארגון.
את החשיבות הרבה שמייחסות לנושא רשויות החוק והממשל, אפשר להבין מתוך דברי עו"ד אלון בכר, ראש הרשות למשפט טכנולוגיה ומידע: "השאלות המוסריות והאתיות לא נגמרות והיכולת לבססן על ניתוחי מידע אישי ו- BIG DATA היא שמעלה את הצורך למחשבה מעמיקה של אסדרה בתחום בכללותו. לסיכום, עלינו להבין שהמידע האישי שלנו הוא יותר מאוסף של נתונים עלינו, המידע האישי שלנו הוא עתידנו וגורלנו. הצעד הראשון להתמודדות עם האח הגדול החדש הוא בראש ובראשונה מודעות לקיומו ולהשלכותיו על כל חלק וחלק מחיינו" (הרצאה, המכללה למינהל).
מה עושים עם Big Data?
אחרי כל זה, מה בעצם עושים עם 'Big Data' ואיך מנצלים אותו לטובת הבנה טובה יותר של התהליכים אותם אנחנו מנהלים? אם בארגון עסקי, ממשלתי, מגזר שלישי או אחר.
ההחלטה לגבי הטמעת מערכת BI המתבססת על ביג-דאטה בארגון, צריכה לקחת בחשבון 3 גורמים:
- מערכות המידע: כמה ואילו מערכות מידע קיימות בעסק, והאם הן מתממשקות עם התוכנה המבוקשת. Power BI מבית MS נוצר מתוך הבנת מגוון הכלים הקיימים אצל עסקים קטנים ובינוניים, ועל כן מותאם לרוב המערכות הנפוצות.
- נתונים: אילו נתונים קיימים במערכות-המידע של הארגון, אילו חסרים ומאילו מקורות פנימיים או חיצוניים נדרש להשלים את המידע החסר.
- צרכי העסק: מה הצורך ומה המטרות לשמן מבקשים לעשות את השינוי? ניתן להסיק מסקנות שונות מנתונים שונים בעסק, אך חשוב להבין מראש מאילו נתונים תגיע התועלת הגדולה ביותר.
אחרי מיפוי המערכות והנתונים, מגיע שלב הגדרת התובנות הדרושות ובהמשך להן יישום של סביבת BI בהתבסס על אחד מהפתרונות הנפוצים והזמינים כיום כ-SaaS או PaaS. אולם זה אינו סוף הדרך - לאחר הפעלת מערכת ה-BI, איסוף הנתונים והרצת דו"חות כתוצרי התובנות שנבחרו - צפים ועולים אתגרים חדשים כמו מידע לא מתאים, מקורות מידע חסרים, תשתיות חומרה ותקשורת מגבילות, כשלים בתהליכים ארגוניים ועוד.
הביג-דאטה אמנם פותח בפני הארגון עולם ומלואו ויכולת כמעט בלתי מוגבלת לקבל החלטות מבוססות מידע, אבל עלולות גם להציב בפני המנהלים מראה למציאות ארגונית הדורשת טיפול שורש.
לכן, כניסה לתהליך אימוץ מערכת BI ופיתוח תלות בעולם ה-Big Data כורח בתוכו הבנה כי המאמץ הארגוני לא ידרוש רק משאבים כספיים ותשתיתיים - אלא התגייסות ארגונית מקיפה ועמוקה לטווח ארוך.