راهنما قطعی به هوش مصنوعی

مدل پاداش همزمان با اینکه عامل هوش مصنوعی دارد از او یادمیگیرد، خود نیز از رفتارهای انسان آموزش میبیند. در مدلسازی با پاداش، یک عامل به جای دریافت سیگنالهای پاداش مستقیماً از انسان یا از یک تابع پاداش ایستا، سیگنالهای پاداش خود را از طریق یک مدل آموزش دیده توسط انسان دریافت میکند که این مدل آموزش دیده میتواند مستقل از انسان عمل کند. متخصصان در حال حاضر نمیدانند چگونه میتوان مقادیر انتزاعی مانند خوشحالی یا خودمختاری را بهطور قابل اعتمادی در دستگاه برنامهریزی کرد. همچنین در حال حاضر مشخص نیست که چگونه میتوان مطمئن بود که که یک هوش مصنوعی پیچیده، قابل ارتقا و احتمالاً حتی خود اصلاح شونده، اهداف خود را در به روزرسانیهای متعدد حفظ میکند. «ترجیحی» که راسل به آن اشاره میکند، «همه جانبه است؛ یعنی هر آنچه که ممکن است برای شما مهم باشد، حتی اگر در آینده دور باشد». همانطور که گفتیم، زمانی که یک وب سایت در بخشی از محتوای خود به وب سایت دیگری اشاره میکند (همراه با لینک آن وب سایت)، این عمل اصطلاحا بک لینک نامیده میشود. موتور جستجوی گوگل روشهای متفاوتی برای تشخیص خرید بک لینک توسط سایتهای اینترنتی دارد.

همانند هنجار سازی مستقیم، در حال حاضر مشخص نیست که چگونه میتوان بهطور قابل اعتماد حتی مفاهیمی مانند ” داشتن ” را در ۱ و ۰، که یک ماشین بر اساس آن عمل میکند، ترجمه کرد و همچنین چگونه میتوان از حفاظت از هدفهای فرادست هوش مصنوعی به هنگام تغییر یا خود-تغییری هوش مصنوعی مطمئن شد. در حالی که هنجار سازی مستقیم، مانند سه قانون داستانی رباتیک، مستقیماً نتیجه هنجاری مورد نظر را مشخص میکند، پیشنهادهای (شاید موفق تر) دیگر، نوعی فرایند غیرمستقیم برای فرا هوش را پیشنهاد میدهند تا تعیین کند که چه اهداف انسان دوستانه ای را در بر میگیرد. پیشنهادهای متفاوتی از انواع هنجار سازی غیرمستقیم، با اهداف فرادست متفاوت (و بعضاً نامفهوم) وجود دارد (مانند “انجام آنچه درست است”) و با فرضیات غیر همگرا مختلف برای نحوه تمرین نظریه تصمیمگیری و معرفتشناسی همراه است. حتی اگر این دو مشکل بهطور عملی قابل حل باشد، هر گونه تلاش برای ایجاد یک فوق هوشمند با اهداف صریح و کاملاً سازگار با انسان، با یک مسئله خطای اکتشافی روبرو خواهد شد. برای حل چنین مشکلاتی ممکن است نیاز به «ایجاد نسل جدیدی از الگوریتمها با ملاحظات ایمنی در هسته اصلی آنها» وجود داشته باشیم. برای اینکه یک backlink با کیفیت باشد باید از بخشی که مرتبط با موضوع باشد بیاید ( یعنی از جای نامربوط به یک صفحه کاربر ارسال نشود ) .

هرچند برخی کاربران تصور میکنند با خرید رای میتوانند موتور جستجو را فریب داده و رتبه خوبی در نتایج جستجو کسب کنند، اما باید این موضوع را مورد توجه قرار داد که نظارت گوگل بر خرید بک لینک بسیار پیچیده و قدرتمند است. 177 و عدم اطمینان به حدی است که برخی از احتمالات، که ممکن است اندک باشد، باید به هر ترجیحِ منطقیِ ممکن انسان نسبت داده شود. سال 2023 برخی از پژوهشگران و مدیران شرکت های اٌپن ای آی و شرکت دیپ مایند گوگل و برخی از متخصصین پیش بینی کردند تا کمتر از ۱۵ سال آینده سیستم AGI (هوش جامع مصنوعی) که بتواند در آزمون تورینگ و تست های چند وجهی دیگر قبول شود در دسترس خواهد بود. در سال ۲۰۱۷، دیپ مایند چارچوب ایمن جهانی برای هوش مصنوعی را منتشر کرد، که الگوریتمهای هوش مصنوعی را در ۹ ویژگی ایمنی ارزیابی میکند، از جمله اینکه آیا الگوریتم میخواهد کلید کشتار خود را خاموش کند. در سال ۲۰۱۷، محققان اوپن ای آی و دیپ مایند گزارش دادند که یک الگوریتم یادگیری تقویتی با استفاده از مدل پیشبینی کننده پاداش، قادر به یادگیری رفتارهای پیچیده جدید در یک محیط مجازی بودهاست. مدلسازی با پاداش به سیستمی از یادگیری تقویتی گفته میشود که در آن یک عامل، سیگنالهای پاداش را از یک مدل پیشبینی، که همزمان با بازخورد انسان آموزش میبیند.