נתונים מובנים למחצה

מוסד לימוד
מקצוע
מילות מפתח , , , ,
שנת הגשה 2007
מספר מילים 31089
מספר מקורות 10

תקציר העבודה

תקציר מנהלים בשנים האחרונות הפך המידע שעל הרשת להיות עצום וכמעט אינסופי. הדבר הוא כמובן מבורך וניתן למצוא חומר כמעט בכל נושא שקיים, אולם גם ישנו חומר רב שהולך לאיבוד במהלך חיפושים אלו. ישנן לכך כמה סיבות, כשהמרכזיות שבהן:
1 . לא כל המידע נמצא בפורמט שהוא נגיש למנועי החיפוש. ישנו מידע בתוך קבצי PDF, Word וכו' ומנועי החיפוש לא מחפשים בתוך הקבצים. למעשה, המנועים מחפשים רק בשכבת ה-Metadata שזה מידע על המידע, כלומר תגיות שמחברי המסמך בחרו לשים עליו.
2. אין אונטולוגיה משותפת ומרכזית. יכולים להיות שני מאמרים באותו נושא, שמחבריו בחרו במלים נרדפות ולכן סוכן שיחפש תוצאות רק עבור אחת משתי המילים- לא יגלה את המסמך השני.
אם נסכם את שני הסעיפים, נגלה בעצם שאנו מדברים על נתונים מובנים למחצה, או:
Semi-structured data.
אין אפילו הסכמה מלאה על ההגדרה של המושג הזה, אך ניתן באופן כללי להגדיר אותו במידע שהוא מובנה- אך לא באופן סכמאטי (כמו בסיס נתונים), ואינו מתאים בצורה נקייה למודל היחסים. הן על מסמכים בפורמט Word והן על מסמכים עם תגיות מסוימות (כמו בסעיף2 לעיל) לא ניתן להגיד שזה מידע בלתי מובנה: יש סדר מסוים, יש היגיון. אלא שהעובדה שהסדר בו הוא לא נגיש לכולם ולא משותף לכולם- מונעת ממנו להיות מידע מובנה ממש. מכאן השם: נתונים מובנים למחצה.
ישנה עבודה רבה בשנים האחרונות בנושא זה, ואנו נציג בסמינר זה חלק ממנה. ישנם גם דברים שהתקבלו בפועל ועונים על חלק מהדרישות, כגון מסמכי XML. ה-XML הוא שיטה לסימון מסמך או רצף תווים לזיהוי יחידות מבניות או אחרות בתוך הנתונים, והוא מספק ייצוג טבעי למבנים הירארכיים ולשדות ומבנים חוזרים.  ההגדרות נמצאות בתחילת המסמך ונכונות לאותו מסמך- ולכן יכול המחפש "ללמוד" את ההגדרות ועל פיהן לחפש בתוך המסמך.
אנו דנים גם ברשת הסמנטית. רשת סמנטית היא הרחבה של ה-WWW אשר בה משמעות המידע מוגדרת היטב, ומאפשרת למחשבים ואנשים לעבוד בשיתוף פעולה יותר טוב. פעילות הרשת הסמנטית של ה-W3C, הנעשית בשיתוף מספר רב של חוקרים ושותפים מהתעשייה, נועדה להגדיר תקנים וטכנולוגיות שיאפשרו לנתונים המצויים ברשת להיות מוגדרים ומקושרים בצורה כזו שתאפשר שימוש יעיל יותר לאיתור, אוטומציה, אינטגרציה, ושימוש חוזר של יישומים. הרשת תגיע למיצויה המיטבי כאשר היא תהיה סביבה אשר בה ניתן יהיה לשתף ולעבד נתונים באמצעות כלים אוטומטים כמו גם באמצעות אנשים. אנו נסקור גם מודלים וכלים שחוקרים מנסים בעזרתם לטפל בנתונים מובנים למחצה; אנו נסקור כאן את מודל GSMM, שאילתות P ונלמד על SST (Semi Structured Toolkit).
נסקור גם את הניסיון לבנות אונטולוגיה מתפתחת של קבוצת מחקר מאוניברסיטת ברקלי במיזם בשם Mariposa.
ההשלכות של המחקר הזה הן עצומות. התועלת שניתן יהיה להפיק מכלים או סוכנים שיידעו להתמודד עם נונים מובנים למחצה ישפיעו על כל תחום בחיים, החל מחיפושים טובים יותר וכלה בהפעלת סוכנים אישיים לביצוע פעולות כגון חיפוש ואיתור רופא מתאים, סנכרון מול היומן שלו וקביעת תור וכן בהפעלת סוכנים מסחריים שיבליטו את המוצרים של הגופים ששולחים אותם.
תקציר מנהלים.. 2
מבוא. 3
רקע. 4
רקע עסקי 4
רקע טכנולוגי 4
רקע תיאורטי 4
סיכום מאמרים.. 5
מאמרים בסיסיים.. 5
Semi structured data- October 2005, ACM Queue, volume 3 Issue 8. 5
Why your data won't mix- October 2005, ACM Queue, volume 3 Issue 8. 8
Order from chaos- October 2005, ACM Queue, volume 3 Issue 8. 15
Learning from the WEB- October 2005, ACM Queue, volume 3 Issue 8. 20 XML and semi-structured data – October 2005, ACM Queue, volume 3 Issue 8. 26
מאמרים נוספים.. 32
Information retrieval techniques- Conference on Hypertext & Hypermedia. 32
Managing semantic heterogeneity in DB's- ACM 1997 symposium.. 36
Management of unspecified semi-structured data- ACM 2006 symposium.. 42
Specifying temporal data models- ACM 2004 symposium.. 48
Enabling queries for semantic associations- International conference www 03. 53
הדיון העיקרי 59
אתגרים טכניים.. 59
משמעויות חברתיות/ארגוניות ועסקיות של הטכנולוגיה. 59
כיוונים עתידיים.. 60 סיכום ומסקנות. 61
ביבליוגרפיה. 62
נספחים.. 63
נספח 1: גרף נתונים מובנים למחצה. 63
נספח 2: דוגמא למודל RDF. 66
נספח 3: מודל הנתונים הפורמאלי 68