است که این الگوریتمها نیازمند حافظه بیشتری هستند. از نظر کارایی الگوریتمهای موجود در گروه مدل محور نتایج قابل توجهی را ارائه میدهند. اما از نظر دقت به جز تحقیقات اخیر[۲۱] نتایج خوبی به دست نیاوردهاند. الگوریتمهای حافظه محور به طور عمده بر الگوریتم KNN استوار میباشند.
از تلفیق دو دسته مدل محور و حافظه محور مدل تلفیقی به وجود میآید که هدف آن تلفیق مزیت هر دو دسته است . [۲۲]هم اکنون تحقیقات در راه پیشروی به سمت مدل تلفیقی میباشد .[۲۳]
در راهکار مبتنی بر حافظه پیشبینی به دو صورت براساس کاربران و براساس اقلام انجام میپذیرد .[۲۴]اختلاف نظرهایی در مورد اینکه پیشبینی بر اساس اقلام مبتنی بر حافظه و یا مبتنی بر مدل است وجود دارد ؛ در [۲۵] اعلام شده است که الگوریتمهای بر اساس اقلام همیشه مبتنی بر حافظه هستند و در [۲۶] این الگوریتمها بر اساس مدل کلاس بندی شدهاند.

۲-۵-۱- فیلترینگ اشتراکی مبتنی بر حافظه

در فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه سرتاسر ماتریس کاربران – اقلام بررسی میشود (شکل شماره ۶). در این ماتریس که در حافظه ذخیره شده است امتیازهایی که کاربران به اقلام مختلف دادهاند وجود دارد. این ماتریس به صورت مستقیم برای پیشبینی نمره اقلامی که تا کنون هیچ امتیازی دریافت نکردهاند به کار میرود [۱۹]. یعنی این محاسبات به صورت برون خط۴۲ انجام نمیپذیرد و همه چیز به صورت بر خط انجام میشود و همواره کل دادهها مورد نیاز میباشد. مزیت این روش این است که در هر زمان کل اطلاعات در دسترس میباشد اما با بزرگ شدن ماتریس یعنی تعداد کاربران و اقلام، فضای جستجو، حافظه مورد نیاز و زمان محاسبه افزایش مییابد.
همانطور که گفته شد در راهکار مبتنی بر حافظه پیشبینی به دو صورت پیشبینی بر اساس کاربران۴۳ و پیشبینی براساس اقلام۴۴ انجام میشود.

۲-۵-۱-۱- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس کاربران

در سیستمهای مبتنی برکاربر پیشبینی بر اساس ارزیابی امتیازهایی که توسط کاربران مشابه با کاربر فعال به اقلام مورد نظر تخصیص یافته انجام میپذیرد [۲۷]. کاربران شبیه آنهایی هستند که الگوی امتیازدهیشان شبیه به کاربر فعال باشد (شکل شماره ۶(.
یکی از چالشهای اصلی در این مدل نحوه پیدا کردن میزان شباهت بین کاربران میباشد. زیرا با استفاده از معیار شباهت شبیهترین همسایگان به کاربر فعال انتخاب و در پیشبینی استفاده میشوند.

۲-۵-۱-۲- فیلترینگ اشتراکی مبتنی بر حافظه با پیش بینی براساس اقلام

سیستمهای مبتنی بر اقلام امتیاز یک قلم خاص را بر اساس امتیازهایی که کاربر به اقلام مشابه داده است پیشبینی میکنند [۲۸] . دو قلم در صورتی به هم شبیه هستند که چند کاربر به طور مشابه به آنها رای داده باشند (شکل شماره ۷).

شکل شماره ۶: فیلترینگ اشتراکی مبتنی بر قلم شکل شماره ۷ : فیلترینگ اشتراکی مبتنی بر کاربر

۲-۵-۱- ۳- تفاوت فیلترینگ اشتراکی بر اساس کاربران و بر اساس اقلام
فیلترینگ اشتراکی بر اساس اقلام زمانی به کار میرود که روند افزایش اقلام کندتر از روند افزایش کاربران باشد [۲۸]. ولی در زمانی که روند افزایش اقلام سریعتر از روند افزایش کاربران باشد فیلترینگ اشتراکی بر اساس کاربران به کار می رود .[۲۹] به عنوان مثال اگر اقلامی مانند اخبار، مورد پژوهش باشد استفاده از روش قلم مبنا نامناسب خواهد بود و در صورتی که از این روش به عنوان مدل محور استفاده گردد به علت افزایش بسیار سریع اقلام مشکل سربار زیاد محاسباتی برای به روز رسانی مدل به وجود خواهد آمد. بر عکس اگر اقلامی مانند فیلم یا کتاب مورد پژوهش باشد استفاده از این روش مناسب خواهد بود.

۲-۵-۲- فیلترینگ اشتراکی مبتنی بر مدل

برخلاف سیستمهای مبتنی بر حافظه که امتیازهای ذخیره شده را به طور مستقیم درپیشبینی به کار میبرند، سیستمهای مبتنی بر مدل از این امتیازها برای یادگیری یک مدل پیشبینی استفاده میکنند. یعنی پارامترهای مدل به صورت برون خطی یاد گرفته میشوند و دیگر نیازی نیست که هر بار ماتریس امتیازدهی کاربران- اقلام بررسی شود. این مدل بر اساس دادههای موجود آموزش۴۵ داده میشود و در آینده برای پیشبینی امتیازهایی که کاربران به اقلام جدید خواهند داد به صورت روی خط به کار میرود [۴]. به همین دلیل نسبت به فیلترینگ اشتراکی مبتنی بر حافظه از سرعت بیشتری برخوردار است. این مدل میتواند یک الگوریتم یادگیری ماشین۴۶ یا داده کاوی۴۷ باشد [۳۰]. در گذشته الگوریتمهای موجود در حوزه یادگیری ماشین مانند شبکههای بیز۴۸ [۸] و خوشه بندی۴۹ [۳۱,۳۲] بسیار مورد توجه بودهاند .[۲۸] اگر چه امروزه الگوریتمهای فاکتورسازی ماتریس بسیار مورد توجه واقع شدهاند اما همچنان الگوریتمهای خوشه بندی جایگاه خود را حفظ کردهاند.

۲-۶- نحوه تشخیص علائق کاربران

تشخیص میزان علائق کاربران نسبت به اقلام متفاوت یکی از مهمترین وظایف فیلترینگ اشتراکی میباشد. هر بار که کاربری در مورد قلمی خاص ابراز علاقه میکند مقدار جدیدی در نمایه او اضافه میشود. به دو صورت صریح و ضمنی میتوان علائق کاربر را استخراج نمود.

۲-۶-۱- تشخیص علائق به صورت صریح

برای این منظور سیستمهای پیشنهادگر تمایلی که کاربر به صورت واضح و آشکار نسبت به محصولات نشان میدهد مثل نمرههایی که به اقلام نسبت داده است را در یک پایگاه داده جمع آوری میکند. کاربر میتواند علائق خود را به طور صریح در غالب تک بیتی باینری یک و صفر به معنای خوب و بد و یا به صورت بازهای از اعداد که نشان دهنده میزان تمایل کاربر به قلم است نشان دهد. .به عنوان مثال اگر بازه امتیازدهی، اعداد ۱ تا ۵ باشد نسبت دادن امتیاز ۱ از سوی کاربر به معنای عدم علاقه و اختصاص دادن امتیاز ۵ به معنای علاقه کاربر به قلمی خاص میباشد [۷,۹].

۲-۶-۲- تشخیص علائق به صورت ضمنی

برای این منظور سیستم به صورت ضمنی بعضی رویدادها مثل حرکت اشارهگر به سمت محصولی خاص را در نظر میگیرد [۲۴]. در این روش کاربر تمایلاتش را به طور صریح و در قالب امتیاز نشان نمیدهد بلکه از رفتارش علائقاو محاسبه میشود .[۳۳,۳۴,۳۵,۳۶]
این پایان نامه فقط بر استنباط علائق به طور صریح متمرکز شده است. یعنی تمایلات کاربران باید به صورت نسبت دادن امتیاز به اقلام مشخص شده باشد.

۲-۷- محاسبه شباهت

برای پیشبینی یا ارائه پیشنهاد توسط فیلترینگ اشتراکی میبایست شبیهترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه همسایگی کاربر فعال در نظر گرفت. برای اندازهگیری میزان شباهت بین دو کاربر راهکارهای متفاوتی ارائه شده است که در اینجا دو مورد از معیارهای شباهت رایج که در فیلترینگ اشتراکی استغاده میشوند را معرفی میکنیم.

۲-۷-۱- معیار همبستگی پیرسون

این معیار میزان وابستگی بین الگوهای امتیازدهی دو کاربر (دو قلم) را میسنجد (فرمول شماره ۴). نتیجه حاصل از این فرمول عددی بین ۱ و ۱- میباشد. عدد ۱ نشان دهنده بیشترین شباهت، ۱- نمایانگر کمترین شباهت میباشد و اگر نتیجه عدد ۰ باشد یعنی دو موجودیت مورد مقایسه با هم هیچ ارتباطی ندارند.

PC(u,v)=(∑_j▒〖(r_(u,j)-r ̅_u ).(r_(v,j)-r ̅_v)〗)/√(∑_j▒〖〖〖(r〗_(u,j)-r ̅_u)〗^۲.∑_j▒〖〖(r〗_(v,j)-r ̅_v)〗^۲ 〗) (۴)
از فرمول فوق برای اندازهگیری میزان شباهت دو کاربر u و v استفاده میشود. r_(u,j) نشان دهنده امتیازی که کاربر u به قلم j ام اختصاص داده میباشد. r ̅_u میانگین کل امتیازهایی که کاربر u به اقلام نسبت داده است میباشد.
فرمول زیر با کمی تغییر شباهت بین دو قلم i و j را اندازهگیری میکند.

PC(i,j)=(∑_u▒〖(r_(u,i)-r ̅_i ).(r_(u,j)-r ̅_j)〗)/√(∑_j▒〖〖〖(r〗_(u,i)-r ̅_i)〗^۲.∑_j▒〖〖(r〗_(u,j)-r ̅_j)〗^۲ 〗) (۵)

۲-۷-۲- معیار اندازهگیری کسینوس

معیار شباهت کسینوسی در حوزه بازیابی اطلاعات بسیار رایج است و برای اندازه گیری شباهت بین دو سند به کار میرود [۳۷]. این معیار میزان شباهت دو کاربر (دو قلم) را با استفاده از کسینوس زاویه بین بردارهای امتیازدهی آنها مشخص میکند (فرمول شماره ۶). نتیجه حاصل عددی بین ۱- و ۱ میباشد. هر چه عدد حاصل شده بزرگتر باشد یعنی دو موجودیت مورد مقایسه بیشتر به هم شبیه هستند و هر چه این عدد کوچکتر باشد یعنی دو موجودیت کمتر به هم شبیه هستند.

Cos⁡(U,V)=(∑_(i∈r_u∩r_v)▒〖r_(u,i) r_(v,j) 〗)/√(∑_(i∈r_u)▒〖r_(u,i)^2 ∑_(i∈r_v)▒r_(v,j)^2 〗) (۶)
اگرچه این معیار در حوزه بازیابی اطلاعات به خوبی کار میکند [۳۷,۳۸]اما برای محاسبه شباهت در فیلترینگ اشتراکی کاربر مبنا به خوبی معیار همبستگی پیرسون عمل نمیکند [۱۲].
در این پایان نامه با کمی تغییر از معیار همبستگی پیرسون برای اندازه گیری میزان شباهتها استفاده شده که در فصل ۴ به تفصیل توضیح داده شده است.

۲-۸- انتخاب همسایه

وقتی میزان شباهت تمام کاربران با کاربر فعال به دست آمد هم از نظر صحت و هم از نظر کارایی بهتر است زیر مجموعهای از شبیهترین آنها را انتخاب و با استفاده از آنها امتیاز قلم دیده نشده را پیشبینی کرد [۱۸,۳۴]. برای این کار دو راه استفاده از حد آستانه و انتخاب تعداد ثابتی از همسایگان وجود دارد.

۲-۸-۱- استفاده از حد آستانه

در این روش یک حد آستانه تعیین میشود. کاربرانی که میزان شباهتشان بیشتر یا مساوی با این حد آستانه باشد به عنوان بهترین همسایهها انتخاب میشوند .[۹]تعیین این حد آستانه مقداری مشکل میباشد چون در یک مسئله با توجه به کاربران فعال مختلف این حد آستانه باید مدام تغییر کند.

۲-۸-۲- انتخاب تعداد ثابتی از همسایگان

در این روش کاربران با توجه به میزان شباهتشان به کاربر فعال مرتب شده سپسN تا از شبیهترین آنها به عنوان بهترین همسایهها انتخاب میشوند [۷] در [۱۶] بیان شده است که انتخاب تعداد ثابتی از همسایگان (معمولا بین ۲۰ تا ۶۰) نسبت به استفاده از حد آستانه منجر به نتیجه بهتری خواهد شد.
در این پایان نامه فقط از روش دوم یعنی انتخاب تعداد ثابتی از همسایگان استفاده شده است.

۲-۹- پیشبینی و تخمین رتبه

پس از انتخاب همسایهها نوبت به پیشبینی امتیاز قلم دیده نشده میرسد. روشهای متفاوتی برای تخمین رتبه وجود دارد که در اینجا به اختصار به

دسته بندی : No category

دیدگاهتان را بنویسید