یانگر کارگردانi ام و Ai مشخص کننده بازیگر i ام فیلم باشد. فیلم M و T را با مجموعه ویژگیهای زیر در نظر بگیرید:

M={G1, G2, D1, D2, A1, A2, A3}

T={G1, G2, G3, D3, A2, A3}

اجتماع مجموعه ویژگیهای این دو فیلم برابر است با:

M∪T={G1, G2, G3, D1, D2, D3,A1, A2, A3}

بنابراین بردار ساخته شده برای هر فیلم به صورت زیر میباشد:

M=(1, 1, 0, 1, 1, 0, 1, 1, 1)

T=(1, 1, 1, 0, 0, 1, 0, 1, 1)

طبق آنچه که در مرحله پیش پردازش توضیح داده شد، تعداد بازیگران استخراج شده برای هر فیلم متفاوت میباشد. بنابراین در هنگام مقایسه هر فیلم با فیلم هدف، فقط بازیگران مشترک بین آنها در نظر گرفته میشود. بدین منظور در مثال بالا بازیگر A1 از بردار فیلمهای M و T حذف خواهد شد:

M∪T={G1, G2, G3, D1, D2, D3, A2, A3}

M=(1, 1, 0, 1, 1, 0, 1, 1)

T=(1, 1, 1, 0, 0, 1, 1, 1)

اکنون که توانستیم نمایه هر فیلم را در قالب بردار نشان دهیم، از معیار کسینوس برای تعیین میزان شباهت دو بردارM و T به صورت زیر استفاده میکنیم:

w_(T,M)=cos⁡〖(θ)〗=□((T . M)/‖T‖‖M‖ )=□(( ∑_(i=1)^n▒〖T_i M_i 〗)/(√(□(∑_(i=1)^n▒〖T_i〗^۲ )) √(□(∑_(i=1)^n▒〖M_i〗^۲ )) )) (۹)

M_i نشان دهنده مولفه i ام از بردار M وT_i نشان دهنده مولفه i ام از بردار T میباشد. توجه شود که حاصل این کسر عددی بین ۰ و ۱ است. عدد ۱ به معنای تشابه کامل و عدد ۰ به معنای عدم تشابه کامل است.
از آنجا که مولفههای دو بردار مورد مقایسه ۰ و ۱ میباشد، مقدار محاسبه شده در صورت کسر بالا، برابر با تعداد یکهای مشترک و به بیان دیگر برابر با تعداد ویژگیهای مشترک بین دو فیلم است. بنابراین برای اقلامی که هیچ ویژگی مشترکی با قلم هدف ندارند وزن صفر در نظر گرفته میشود. از سوی دیگر مبنای فیلترینگ اشتراکی محاسبه میزان شباهت بین کاربران میباشد که بعضی از این کاربران به تعداد محدودی از اقلام امتیاز دادهاند. بنابراین اقلامی وجود دارند که به اندازه کافی امتیازدهی نشدهاند. و این باعث مشکل پراکندن بودن ماتریس کابران- اقلام شده است. در این حالت اندازهگیری شباهت روی تعداد امتیازهای ابراز شده اندکی صورت میپذیرد که قابل اعتماد نمیباشد. حال با صفر در نظر گرفتن وزن اقلامی که ویژگی مشترک با قلم هدف ندارند، این مشکل تشدید میشود. برای جلوگیری از این مسئله، برای این اقلام وزنی کوچکتر از سایر اقلام در نظر گرفته شده است. بنابراین اعمال وزن به اقلام به صورت زیر انجام میشود:

w_(T,M)=□((۱ + ∑_(i=1)^n▒〖T_i×M_i 〗)/(√(□(∑_(i=1)^n▒〖T_i〗^۲ )) ×√(□(∑_(i=1)^n▒〖M_i〗^۲ )) )) if k≥۱ (۱۰)

w_(T, M)=□(۱/(√(□(∑_(i=1)^n▒〖T_i〗^۲ )) ×√(□(∑_(i=1)^n▒〖〖MV〗_i〗^۲ )) )) otherwise

k مشخص کننده تعداد ویژگیهای مشترک بین دو قلم (تعداد یکهای مشترک بین دو بردار) است. MVنمایانگر فیلمی است که دارای بیشترین تعداد ویژگی (برداری با بیشترین تعداد یک) میباشد

۴-۴-۳- انتخاب همسایگی

بر طبق آنچه توضیح داده شد، نتیجه حاصل شده از مرحله قبل، وزن مربوط به هر قلم بر اساس میزان شباهت آن با قلم هدف میباشد. برای پیشبینی یا ارائه پیشنهاد توسط روش فیلترینگ اشتراکی ابتدا میبایست شبیهترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه همسایگی او در نظر گرفت. کاربر فعال کاربری است که هدف پیشبینی امتیاز قلم هدف برای او میباشد. برای ایجاد مجموعه همسایگی، فقط کاربرانی که به قلم هدف رای دادهاند مورد بررسی قرار میگیرند. معیار همبستگی پیرسون پایه برای سنجیدن میزان وابستگی بین الگوی امتیازدهی کاربر فعال و سایر کاربران استفاده میگردد و به صورت زیر محاسبه میشود:

PC(a,u)=(∑_i▒〖(r_(a,i)-r ̅_a).(r_(u,i)-r ̅_u)〗)/√(∑_i▒〖〖(r_(a,i)-r ̅_a)〗^۲.∑_i▒〖(r_(u,i)-r ̅_u)〗^۲ 〗) (۱۱)

r ̅_a و r ̅_u میانگین کل امتیازهایی هستند که به ترتیب کاربران aو uبه اقلام نسبت دادهاند. r_(a,i) و r_(u,i) امتیازهایی هستند که به ترتیب کاربران aو uبه قلم iام نسبت دادهاند.
در این مرحله، برای سنجیدن میزان وابستگی بین الگوی امتیازدهی کاربر فعال و سایر کاربران از معیار همبستگی پیرسون وزندار استفاده میشود. تنها تفاوت این معیار با معیار همبستگی پیرسون پایه این است که در زمان مقایسه نحوه امتیازدهی دو کاربر به هر قلم، وزن آن قلم نیز دخیل میشود. این وزن میزان اهمیت مشابه عمل کردن دو کاربر را در امتیازدهی به این قلم مشخص میکند. معیار همبستگی پیرسون وزندهی شده به صورت زیر میباشد:

WPC(a,u,j)=(∑_i▒〖(w_(j,i) (r_(a,i)-r ̅_a)).(w_(j,i) (r_(u,i)-r ̅_u)) 〗)/√(∑_i▒〖(w_(j,i) (r_(a,i)-r ̅_a))^2.∑_i▒(w_(j,i) (r_(u,i)-r ̅_u))^2 〗) (۱۲)

j نشان دهنده قلم هدف است که پیشبینی امتیاز آن مورد نظر میباشد. w_(j,i) نشان دهنده وزن قلم i ام و به عبارت دیگر میزان شباهت قلم i ام با قلم هدف است.
علاوه بر این، با ادغام یک وزن دهی مفید و کاهش دادن همبستگی بر اساس تعداد اقلامی که دو کاربر مشترکا به آنها امتیاز دادهاند، میتوان دقت پیشبینی را به شکل قابل توجهی افزایش داد.
با فرض اینکه x تعداد اقلامی است که کاربران a و u به طور مشترک به آنها رای دادهاند، در نهایت شباهت دو کاربر مذکور به صورت زیر به دست میآید:

sim(a,u)=WPC(a,u,j).CF (13)

CF=1 if x50
CF=□(x/50 Otherwise)

پس از اینکه شباهت تمامی کاربران با کاربر فعال سنجیده شد نوبت به انتخاب مجموعه همسایگی میرسد. برای این منظور کاربران بر اساس میزان شباهتشان به طور نزولی مرتب میشوند. سپس با انتخاب تعداد ثابتی از بهترین آنها، مجموعه همسایگی کاربر فعال تشکیل داده میشود.
همچنین میتوان برای انتخاب مجموعه همسایگی کاربر فعال از فرمول زیر استفاده نمود. به صورتی که مقدار w_(j,i) موجود در فرمول شماره ۱۲ از فرمول شماره ۹ به دست آمده و نهایتا TPC حاصل از این فرمول جایگزین WPC در فرمول شماره ۱۳ میشود.

TPC=α.PC+βWPC (۱۴)

که بهترین نتیجه با تنظیم α=۰.۳ و β=۰.۷ حاصل میشود.

۴-۴-۴- پیش بینی

نتیجه به دست آمده از مرحله قبل مجموعه همسایگی کاربر فعال میباشد. در این مرحله با استفاده از امتیازهایی که توسط کاربران موجود در مجموعه همسایگی به قلم هدف تخصیص یافته، امتیاز مربوط به قلم هدف پیشبینی میشود. برای این منظور از فرمول شماره ۱۵ که به طور معمول در فیلترینگ اشتراکی مبتنی بر کاربر به کار برده میشود[۹] ، استفاده میگردد.

r ̅_(a,t)=r ̅_a+(∑_(v∈N_t(a) )▒〖(r_(u,t)-r ̅_u ).sim(A , U) 〗)/(∑_(v∈N_t(a) )▒sim(A , U) ) (15)

Nt(a)مجموعه همسایگی کاربر فعال میباشد. r ̅_a و r ̅_u میانگین کل امتیازهایی هستند که به ترتیب کاربران aو uبه اقلام نسبت دادهاند. r_(u,t) نمرهای است که کاربر u به قلم هدف اختصاص داده است.

فصل پنجم
آزمایشها و نتایج

۵- آزمایشها و نتایج

۵-۱- پایگاه دادههای مورد استفاده

MovieLensو EachMovie دو پایگاه داده۶۲ معروف و رایج هستند که هر دو مربوط به سایتهای پیشنهادگر فیلم میباشند .روش پیشنهادی روی هر دوی این پایگاه دادهها مورد آزمایش و بررسی قرار گرفته است.

۵-۲- نحوه اجرای روش پیشنهادی روی پایگاه داده MovieLens

MovieLens متشکل از ۲۰۹,۰۰۰,۱ امتیاز میباشد که توسط ۰۴۰,۶ کاربر به ۹۵۲,۳ فیلم اختصاص یافته است. این پایگاه داده توسط پروژه پژوهشی GroupLens در دانشگاه Minnesota تهیه شده است.
برای آزمایش روش ارائه شده از روش اعتبار سنجی پنج قسمت برابر۶۳ استفاده کردهایم. به این صورت که امتیازهای داده شده به هر فیلم را به ۵ قسمت تقریبا مساوی تقسیم کرده سپس یک قسمت یعنی حدود %۲۰ را برای تست۶۴ و مابقی را برای آموزش۶۵ جدا کردهایم. یعنی با استفاده از %۸۰ امتیازها، %۲۰ باقی مانده امتیازها را با این روش پیشبینی میکنیم. در کل مجموعه تست تقریبا شامل ۷۱۰,۱۹۲ امتیاز و مجموعه آموزش تقریبا شامل ۴۹۹,۸۰۷ امتیاز میباشد.

۵-۳- نحوه اجرای روش پیشنهادی روی پایگاه داده EachMovies

EeachMovie متشکل از ۹۸۳,۸۱۱,۲ امتیاز میباشد این پایگاه داده شامل ۹۱۶,۷۲ کاربر میباشد که به ۶۲۸,۱ فیلم امتیاز دادهاند. برای آزمایش روش ارائه شده بر روی این پایگاه داده نیز از روش اعتبار سنجی پنج قسمت برابر استفاده کردهایم. در کل مجموعه تست تقریبا شامل  ۳۹۶,۵۶۲ امتیاز و مجموعه آموزش تقریبا شامل ۵۸۷,۲۴۹,۲ امتیاز میباشد.

۵-۴- معیارهای ارزیابی

معیارهای ارزیابی سیستمهای پیشنهادگر بر اساس وظیفهای که به عهده دارند انتخاب میشوند. در اینجا چون هدف ارزیابی توانایی سیستم پیشنهادگر در پیشبینی امتیاز اقلام دیده نشده میباشد، معیارهای زیر برای سنجش روش پیشنهادی به کار برده شدهاند.

۵-۴-۱- میانگین خطای مطلق۶۶ :

این معیار بر اساس دقت است و فاصله بین امتیازهای پیشبینی شده و امتیازهای واقعی را اندازه گیری میکند که با فرمول زیر محاسبه میشود. توجه کنید r_i امتیاز واقعی و r ̂_i امتیاز پیشبینی شده میباشد.

MAE=1/n ∑_(i=1)^n▒〖(r_(i-) r ̂_i)〗 (۱۶)

۵-۴-۲- دقت۶۷ و فراخوانی۶۸

در سیستمهای پیشنهادگر آنچه که برای کاربر فعال مهم است این میباشد که یک لیست اقلام مرتب شده بر اساس تمایلاتش دریافت کند. این دو معیار، معیارهای ارزیابی بازیابی اطلاعات۶۹ میباشند که برای ارزیابی سیستمهای پیشنهادگر نیز به کار میروند.
در حیطه بازیابی اطلاعات توسط موتورهای جستجوگر، دقت، نسبت تعداد اسناد۷۰ بازیابی شده مرتبط به تعدا کل اسناد بازیابی شده است. فراخوانی، نسبت تعداد اسناد بازیابی شده مرتبط نسبت به تعداد کل اسناد مرتبط میباشد. این مفاهیم در شکل شماره ۱۴ نشان داده شدهاند.

شکل شماره ۱۴: نمایش مفاهیم دقت و فراخوانی در حوزه بازیابی اطلاعات

دقت در سیستمهای پیشنهادگر یعنی نسبت پیشنهاداتی که خوب هستند و به کاربر ارائه شدهاند

دسته بندی : No category

دیدگاهتان را بنویسید