چکیده
شناسایی تشکلهای پنهان بر اساس لینک و محتوا
به کوشش
فرحناز حاجی پور
امروزه شبکههای اجتماعی نظیر فیسبوک از محبوبیت زیادی برخوردار شده اند، چرا که به مردم سرتاسر جهان این اجازه را میدهد که بدون تماس فیزیکی، با دوستان خود ارتباط برقرار کرده، برای آنها پیغام گذاشته و نظرات خود را در مورد موضوعات گوناگون بیان کنند. شناسایی تشکل ها در شبکه های اجتماعی کاربرد بسیار زیادی در زمینه های مختلف دارد، بنابراین این موضوع یک زمینهی تحقیقاتی بسیار جالب در میان محققان بسیاری از رشته ها است. مطالعات پیشین تنها از اطلاعات ساختاری و لینکهای موجود در شبکه استفاده میکردند و اطلاعات مفید دیگری که در شبکه وجود داشتند مورد غفلت واقع میشدند. در حالی که در بسیاری از شبکه های اجتماعی، دادههای بسیار مفیدی وجود دارد که توسط کاربران تولید میشوند، نظیر محتوای متن های تولید شده توسط هر کاربر. با قرار دادن این اطلاعات در کنار ساختار لینک شبکه میتوان تعاملات و ارتباطات بین کاربران را تفسیر کرد. در این مطالعه با استفاده از اطلاعات فوق، نشان داده میشود کاربرانی که لینک های نزدیکی به هم دارند در یک حوزه کاری شبیه به هم قرار میگیرند. بهطور خاصتر،در این پژوهش مدلی برای کشف تشکل ها ارائه میگردد که در ابتدا سعی میکند با استفاده از یک راهکار بیزی تشکل ها را بر اساس ساختار لینک شبکه شناسایی کند. سپس با استفاده از ابزار های پیمایش متنف در صورتی که متن های منتسب به یک کاربر دارای شباهتهای زیادی با عناوین اسناد منتسب به یک تشکل داشته باشد، آن کاربر به تشکل جدید منتقل میشود. از این رو، افرادی که در یک تشکل مشترک هستند در یک حوزهی کاری شبیه به هم نیز قرار دارند. نتایج حکایت از توانایی روش پیشنهادی در کشف تشکلهایی را دارد که به لحاظ معنایی کاملا معنی دار هستند.
واژگان کلیدی: شبکههای اجتماعی، تشکل، شناسایی تشکل ها، پیمایش متن
فهرست مطالب
عنوان صفحه
فصل 1- مقدمه 7
1-1- شبکه های اجتماعی 7
1-2- تقسیمبندی شبکههای اجتماعی 9
1-3- اهمیت شبکههای اجتماعی 10
1-4- تحلیل شبکههای اجتماعی 11
1-5- شبکهها و ویژگی آنها 11
1-6- تشکلها در شبکههای اجتماعی 13
1-7- اهمیت شناسایی تشکلها 16
1-8- انگیزه از انجام این پایان نامه 17
1-9- نگاه کلی به فصول رساله 19
فصل 2- فصل دوم: مروری بر کارهای انجام شده 21
2-1- مقدمه 21
2-2- روشهای ارائه شده 22
2-3- روشهای مبتنی بر لینک 22
2-3-1- بهینه کردن یک هدف سراسری 22
2-3-2- بدون بهینه سازی هیچ معیاری 27
2-3-3- روشهای مبتنی بر مدل 27
2-4- روشهی مبتنی بر محتوا 29
2-4-1- روش CUT 29
2-4-2- روش LTCA 30
فصل 3- ارائه راه حل و روشهای پیشنهادی 32
3-1- مقدمه 32
3-2- روش SBM 34
3-3- روش LDA 37
3-4- روش پیشنهادی 40
3-4-1- روش CDBLC 41
3-5- جمعبندی 51
فصل 4- نتایج 53
4-1- مقدمه 53
4-2- مجموعه دادهها 54
4-2-1- مجموعه دادهی Cora 54
4-2-2- مجموعه دادهی Twitter 55
4-3- معیارهای ارزیابی 56
4-3-1- معیار Modularity 57
4-3-2- معیار Normalized Mutual Information 58
4-3-3- معیار Perplexity 59
4-4- نتایج و تحلیلها 60
4-4-1- مجموعه دادهی Cora 61
فصل 5- بحث و نتیجهگیری 67
5-1- نتیجه گیری 67
5-2- پیشنهادات برای کارهای آتی 71
فهرست منابع 72
فهرست شکلها
شکل 1-1- تشکلها. 14
شکل2-1- افراز گراف. 25
شکل 2-2- الف) خوشهبندی سلسله مراتبی. ب) خوشهبندی تودهای 26
شکل 2-3- نمایش گرافیکی مدل GSB. 30
شکل 2-4- نمایش گرافیکی روش CUT. 31
شکل 3-1- نمایش گرافیکی روش مدل بلوک تصادفی (SBM). 37
شکل 3-2- نمایش گرافیکی روش LDA. 39
شکل3-3- روند کشف تشکلهای پنهان در CDBLC 43
شکل 3-4- گراف مبتنی بر لینک برای شبکه مثال. 43
شکل 3-5- اعمال روش SBM بر روی گراف شبکه. 44
شکل 3-6- انتساب اسناد به تشکلها. 45
شکل 3-7- اعمال روش LDA بر روی اسناد درون هر تشکل. 45
شکل 3-8- محاسبه شباهت محتوای اسناد در دیگر تشکلها با عناوین یک تشکل به خصوص. 46
شکل 3-9- همگرایی الگوریتم CDBLC. 47
شکل 3-10- تمایش گرافیکی قدم دوم از الگوریتم CDBLC . 48
شکل 3-11- فلوچارت الگوریتم CDBLC 51
.................................................... 62
شکل 4-1- کارایی الگوریتم با توجه به معیار MI بر روی مجموعه دادهی Cora. 62
شکل 4-2- Perplexity تمام تشکلها در تمام مراحل بر روی مجموعه داده Cora. 63
شکل 4-3- خروجی Perplexity برای هر تشکل در مراحل مختلف بر روی مجموعه داده Cora . 64
شکل 4-4- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=50 و K=5. 65
شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=30 و K=10. 65
شکل 4-5- نمودار مقایسه Perplexity روش LDA و CDBLC برای T=100 و K=20 66
فهرست جدولها
جدول 3-1 علائم و تعاریف بکار رفته 33
تعداد مشاهده: 3636 مشاهده
فرمت فایل دانلودی:.docx
فرمت فایل اصلی: docx
تعداد صفحات: 95
حجم فایل:1,113 کیلوبایت