در سال ۱۹۹۶ تکنولوژی GroupLens تحت NetPerceptionبه صورت تجاری درآورده شد. یکی از اولین کاربران تجاری GroupLens سرویس الکترونیکی خرده فروشی آمازون بود که به عنوان فروشگاه کتاب برخط راه اندازی شد.
در [۹]سیستم پیشنهادگر موزیک ۲۸Ringoبراساس الگوریتم اصلی Grouplens توسعه یافت. Ringo اقلام را بر اساس امتیازهایی که کاربران مشابه به آنها داده بودند فیلتر میکرد. زمانی که کاربر در سیستم ثبت نام مینمود یک لیست از ۱۲۵ موسیقیدان محبوب که به طور تصادفی انتخاب شده بودند را در اختیار او قرار میداد و از کاربر میخواست که به اعضای این لیست امتیازهای بین ۱ تا ۷ بدهد. سپس ازکاربر یک نمایه میساخت. Ringo میزان شباهتها را با استفاده از همبستگی پیرسون محدود شده محاسبه کرد و برای تولید پیشنهاد میانگین تمامی کاربران موجود در همسایگی را به کار برد و مدعی کارایی بهتر شد. همانطور که در فرمول شماره ۳ نشان داده شده است عدد ۴ به این دلیل انتخاب شده که حد وسط بازه امتیازهای ۱ تا ۷ است. Ringo عضویت در همسایگی را فقط با انتخاب همسایگانی که همبستگی آنها بیشتر از یک حد آستانه ثابت است محدود کرد. با بزرگتر شدن حد آستانه دقت بیشتر میشود ولی تعداد اقلامی که سیستم پیشنهادگر قادر به پیشبینیشان است کاهش مییابد.

w_(a,u)=(∑_(i=1)^m▒〖[(〗 r_(a,i)-4)(r_(u,i)-4)])/√(∑_(i=1)^m▒〖(r_(a,i)-4)^2 ∑_(i=1)^m▒〖(〖r_(u,i)-4)〗^۲ 〗〗) (۳)
به تدریج این سیستم به صورت تجاری در آورده شد و در سال ۱۹۹۵ نام آن به Firefly تغییر یافت. این سیستم حاوی یک رابط به صورت صفحه وب و فروشگاه دیسک فشرده۲۹ رویخط بود و همچنین قادر بود برای انواع فیلم پیشتهاد تولید کند. این سیستم گسترش وسیعی کرد تا جایی که درسال ۱۹۹۸ توسطMicrosoft پذیرفته شد و به
Microsoft Passport تغییر یافت.
در [۱۰]سیستم پیشنهادگر ویدیو ۳۰Bellcoreنیز بر اساس الگوریتم اصلی Grouplens توسعه یافت. سیستم پیشنهادگر ویدیو Bellcore از همبستگی پیرسون برای وزندهی تعدادی از همسایهها که به طور تصادفی انتخاب شده بودند استفاده نمود. سپس بهترین همسایگان را انتخاب و برای پیشبینی یک رگرسیون۳۱ کامل چندگانه روی آنها اعمال کرد.
مهمترین اتفاق اخیر در رابطه با سیستمهای پیشنهادگر اعلام جایزهی Netflix در اواخر سال ۲۰۰۶ بوده است.Netflix انجمن کرایه DVDاز آمریکا، پایگاه دادهای از امتیازهایی که کاربران به فیلمها اختصاص دادهاند منتشر کرد که به روز بود و همچنان به عنوان بزرگترین مجموعه امتیازدهی کاربران باقی مانده است. آنها اجتماع وسیعی را برای بهترکردن پیشبینی سیستمشان به میزان حداقل ۱۰% به رقابت طلبیدند و جایزه یک میلیون دلاری برای آن درنظر گرفتند. بیشتر از ۲۰۰۰۰ تیم درطی ۳ سال به این موضوع پرداختند و طی این رقابت مسائلی ازقبیل فاکتورگیری ماتریس۳۲، متدهای جمعی۳۳ و دینامیکهای موقتی۳۴ یاد گرفته شد[۱۱] .
در [۱۲] یک تحلیل تجربی روی الگوریتمهای فیلترینگ اشتراکی مبتنی بر همسایگی انجام شد. برای تعیین میزان شباهت معیارهای همبستگی پیرسون و کسینوس۳۵ با هم مقایسه شدند و دریافته شد که همبستگی پیرسون بهتر کار میکند. اگرچه پس از آن در [۱۲] اظهار شد که این دو معیار ممکن است یکسان عمل کنند.
در [۱۳] راهکار امید بخش تشخیص هویت۳۶ برای سیستمهای فیلترینگ اشتراکی ارائه شده که مدل Bayesian و روشهای مبتنی بر همسایگی را ترکیب میکند. خصوصیت خوبی که این راهکار دارد این است که یک توزیع احتمالی از امتیاز به جای مقدار واقعی امتیاز تولید میکند. این توزیع میتواند برای مشخص کردن میزان اعتماد به پیشبینی استفاده شود. همچنین ادعا شده است که این راهکار برای دادههای فیلم که شبیه به دادههایی است که ما در پژوهشها استفاده میکنیم در انتخاب نزدیکترین همسایهها دقیقتر از همبستگی عمل میکند.

در [۱۴] روشی ارائه شده که با استفاده از آن میتوان پارامترهای مربوط به فیلترینگ اشتراکی را برای هر کاربر شخصیسازی کرد. از جمله این پارامترها تعداد افرادی میباشد که در گروه همسایگی هر کاربر شرکت میکنند. این کار توسط شبیهسازی تکراری مجموعه دادههای آموزشی و درستی سنجی برای هر کاربر بهطور جداگانه صورت میگیرد.
در [۱۵] روشی برای حل مشکل پراکندگی امتیازها در ماتریس کاربران- اقلام ارائه شده است. این مشکل زمانی به وجود میآید که تعداد اقلام بدون امتیاز بسیار بیشتر از تعداد اقلام امتیازدهی شده باشد. در این روش ابتدا مدلهایی از فیلترینگ اشتراکی به کار برده میشوند تا امتیازهای اقلام بدون امتیاز پیشبینی شوند. سپس با استفاده از نتایج حاصل شده امتیاز قلم مورد نظر با اطمینان بیشتر تعیین میگردد.
در [۱۶]راه حلی برای مشکل شروع سرد۳۷ در سیستمهای فیلترینگ اشتراکی ارائه شده است. مشکل شروع سرد زمانی به وجود میآید که سیستم بخواهد برای کاربری جدید که تا کنون امتیازی به اقلام نداده و یا قلمی جدید که تا کنون امتیازی از کاربران دریافت نکرده پیشبینی نماید. این روش به جای استفاده از بردار امتیازدهی به تنهایی، از ترکیب خطی یا آبشاری بردارهای شخصیت و بردارهای امتیازدهی برای تعیین میزان شباهت کاربران به یکدیگر استفاده میکند. بردار شخصیت، برداری دو قطبی است که هر مولفه آن تعیین کننده یک خصوصیت از شخصیت کاربر مورد نظر میباشد.
در [۱۷] راهکاری ارائه شده که توسط آن میتوان به گروهی از کاربران گروهی از اقلام را پیشنهاد کرد. در سیستمهای فیلترینگ اشتراکی معمولی اقلامی که برای پیشنهاد به هر کاربر میتوانند مناسب باشند به طور جداگانه مشخص و سپس از نتایج حاصل شده اشتراک گرفته میشود. در روش پیشنهاد شده از نزدیکترین همسایگان تمامی کاربران موجود در گروه موردنظر اشتراک گرفته میشود. حاصل یک مجموعه مشترک از همسایگان برای تمام کاربران موجود در گروه میباشد. سپس با استفاده از این همسایگان مشترک قلم یا اقلامی به گروه مذکور پیشنهاد میگردد.
در [۱۸] یک معیار جدید برای اندازهگیری میزان شباهت کاربران در سیستمهای فیلترینگ اشتراکی ارائه شده است. در این روش مشکل اختلاف ابعاد بین بردارهای امتیازدهی کاربران حل شده است. به بیان دیگر میزان شباهت دو کاربر با توجه به تعداد اقلامی که هر دو به آنها رای دادهاند تعیین میگردد. در صورتی که واحدهای اندازهگیری مانند همبستگی پیرسون این اختلاف ابعاد را در نظر نمیگیرند.
در [۱۹]راهکاری جدید برای فیلترینگ اشتراکی مبتنی بر حافظه ارائه شده است. در این روش پیشنهاد اقلام مستقل از بازه امتیازات کاربر و بر اساس احتمال۳۸ پیشبینی است و بررسی شده است که چطور این احتمالات میتوانند برای جمع آوری انواع مختلف وابستگیها-ی بین امتیازها در راستای انتخاب نزدیکترین همسایهها مورد استفاده قرار گیرند. در این روش معیار انتخاب همسایگی به توانایی کاربر در پیشبینی امتیازهای گذشته بستگی دارد. فرضیه این بوده است که اگر کاربری در پیشبینی امتیازهای گذشته کاربر مورد نظرخوب بوده است در آینده هم برای پیشبینی امتیازهای او خوب خواهد بود.
در [۲۰] یک راهکار مبتنی بر هسته ارائه شده است. ایده اصلی این راهکار یافتن یک نگاشت چند خطی بین دو فضای برداری است. این راهکار بر اساس کاربران و بر اساس اقلام و همچنین تلفیق این دو مورد ارائه شده است. همچنین نشان داده شده است که چگونه میتوان اطلاعات تکمیلی نظیر ژانر فیلمها را در این راهکار استفاده و چگونه پیشنهاداتی قابل اعتماد با وجود مشکلاتی مانند پراکندگی و شروع سرد به کاربران ارائه نمود.

۲-۳- مبانی فیلترینگ اشتراکی

فیلترینگ اشتراکی یکی از بهترین راهکارها در سیستمهای پیشنهادگر میباشد. این روش به خاطر استفادهاش در سایتهای تجارت الکترونیک مانند AMAZOONو NETFLIX به خوبی شناخته شده است. این متد کاربرانی که علائقشان شبیه به کاربر فعال میباشند را پیدا کرده و از این طریق پیشنهادات را به او ارائه میدهد. یعنی فرض بر این است که کاربرانی که در گذشته تمایلاتی شبیه به هم داشتهاند احتمالا در آینده هم تمایلات مشابه دارند و چون قبلا به اقلام به طور مشابه ابراز علاقه کردهاند به اقلامی که تا کنون ندیدهاند نیز به طور مشابه علاقه نشان خواهند داد. فیلترینگ اشتراکی معمولا به مشارکت داشتن کاربران فعال، راهی برای نشان دادن سلیقه کاربران به سیستم و الگوریتمی که کاربران با سلیقه مشابه را شناسایی کند نیازمند میباشد.
به طور کلی فضای اطلاعاتی در فیلترینگ اشتراکی مبتنی بر یک ماتریس M * N است که ماتریس کاربران – اقلام نام دارد. M نشان دهنده تعداد کاربران و N نشان دهنده تعداد اقلام میباشد. همانطور که در (شکل شماره ۵) مشاهده میکنید rm,n نشان دهنده نمرهای میباشد که کاربر m ام به قلم n ام اختصاص داده است.

شکل شماره ۵ : ماتریس امتیازدهی کاربران- اقلام

۲-۴- وظایف فیلترینگ اشتراکی

وظایف فیلترینگ اشتراکی به دو دسته ارائه پیشنهاد به کاربران و پیشبینی امتیاز اقلام دیده نشده تقسیم میشوند که در ادامه هر کدام را به تفکیک توضیح خواهیم داد.

۲-۴-۱- پیشنهاد

در این حالت لیستی از اقلام به کاربران ارائه میشود که بر حسب میزان مفید بودنشان برای کاربر مرتب شدهاند. یعنیN مورد از بهترین پیشنهادات را به او ارائه میدهد. برای تولید پیشنهاد، اطلاعات مربوط به تمام اقلام نیاز نمیباشد.

۲-۴-۲- پیشبینی

در این حالت پیشبینی میشود که کاربر به قلمی که تا کنون ندیده است چه امتیازی خواهد داد. برای پیشبینی اطلاعات مربوط به تمام اقلام حتی آنهایی که به ندرت امتیازدهی شدهاند مورد نیاز است. همچنین الگوریتمهایی که سیستم برای پیشبینی به کار میبرد به حافظه و زمان محاسباتی بیشتری نسبت به الگوریتمهای تولید پیشنهاد نیاز دارد.

۲-۵- دسته بندی متدهای فیلترینگ اشتراکی

متدهای فیلترینگ اشتراکی به دو گروه کلی فیلترینگ اشتراکی مبتنی بر همسایگی۳۹ یا مبتنی بر حافظه۴۰ و فیلترینگ اشتراکی مبتنی بر مدل۴۱ تقسیم میشوند.[۱۲]
الگوریتمهای موجود در گروه فیلترینگ اشتراکی مبتنی بر همسایگی یا مبتنی بر حافظه نسبت به الگوریتمهای موجود در فیلترینگ اشتراکی مبتنی بر مدل رایجتر میباشند اما قابل ذکر است که این الگوریتمها نیازمند حافظه بیشتری هستند. از نظر کارایی الگوریتمهای موجود در گروه مدل محور نتایج قابل توجهی را ارائه میدهند. اما از نظر دقت به جز تحقیقات اخیر[۲۱] نتایج خوبی به دست نیاوردهاند. الگوریتمهای حافظه محور به طور

دسته بندی : No category

دیدگاهتان را بنویسید