סינון הקשר באמצעות סיווג טקסט text classification & Big Data

מוסד לימוד
סוג העבודה
מקצוע ,
מילות מפתח , , , , , ,
ציון 90
שנת הגשה 2020
מספר מילים 6589
מספר מקורות 36

תקציר העבודה

תקציר 3
פרק 1: מבוא 4
פרק 2: הגדרות מושגים 5
פרק 3: סינון הקשר באמצעות מאגרי מידע דיגיטליים וסיווג טקסט כספאם 9
פרק 4: סיכום 15
ביבליוגרפיה 16
נספחים 19

תקציר
נושא העבודה שלנו מתמקד בסיווג טקסט text classification או (text categorization ) למטרת סינון תוכן ולמטרות הנוגעות במניעת סכנות הטמונות ברשת החברתית, כגון חשיפה לתכנים פוגעניים או תכנים שאינם מתאימים למשתמש ברשת האינטרנט. סינון התוכן מייעל את הביטחון ברשת האינטרנט ומונע חשיפה של המשתמש לגורמים עבריינים המנסים להוציא מידע אישי או להזיק בכוונת זדון למשתמש הקצה. שימוש בסינון תוכן נועד למטרות שונות תחת קטגורית הגנה על המידע האישי והארגוני. בנוסף סינון תוכן מסייע לעצירה של דואר ספאם (זבל) או דואר פישינג (דיוג).
במסגרת העבודה הצגנו מושגים בתחומי הרשת הסמנטית והביג דאטה והראנו כיצד מסווגים טקסט ועושים שימוש במאגרי מידע לצורך אבטחת מידע ומניעת דואר ספאם ונזקיו. קשרנו את המושגים האלה על ידי הצגת נושא יעילות השימוש במאגרי מידע שונים המשמשים כטקסונומיה לקביעת דמיון סמנטי ומדידת התייחסות סמנטית באמצעות מודלים לסינון תוכן על ידי חילוץ מילות מפתח לזיהוי תוכן. הצגנו שיטות שונות לסינון, הבנת התוכן וסיווג הטקסט כספאם בנוסף להצגת מאגרי המידע ויעילותם. העבודה מכילה מודלים לסינון תוכן על ידי חילוץ מילות מפתח אוטומטיות בעלי מאפיינים דומים המסוגלים להבדיל בין תוכן מזויף לתוכן אמין.