ربات ارزانی که از طریق یادگیری تقویتی میآموزد
تاریخ انتشار: ۱۶ آذر ۱۳۹۹ | کد خبر: ۳۰۲۲۹۲۳۵
یک ربات ارزان قیمت و منبع باز میتواند بدون نیاز به آموزش طولانی مدت مبتنی بر شبیهسازی و با تکیه بر فناوری یادگیری تقویتی آموزش ببیند.
به گزارش ایسنا و به نقل از آی ای، محققان دانشگاه "آلتو"(Aalto) و شرکت "OTE Robotics" ربات کم هزینهای را تولید کردهاند که میتواند برای آزمایش الگوریتمهای "یادگیری تقویتی"(RL) مورد استفاده قرار گیرد.
بیشتر بخوانید:
اخباری که در وبسایت منتشر نمیشوند!
این ربات که "RealAnt" نامیده میشود تنها با قیمت ۸۹۹ یورو(۱۰۹۰ دلار آمریکا) کاملا مقرون به صرفه است.
یادگیری تقویتی یکی از گرایشهای یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام میگیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاداشش انجام دهد. این مسئله با توجه به گستردگیاش در زمینههای گوناگونی مانند نظریه بازیها، نظریه کنترل، تحقیق در عملیات، نظریه اطلاعات، سامانه چندعامله، هوش ازدحامی، آمار، الگوریتم ژنتیک، بهینهسازی بر مبنای شبیهسازی بررسی میشود.
در مبحث تحقیق در عملیات و در ادبیات کنترل، حوزهای که در آن روش یادگیری تقویتی مطالعه میشود "برنامهنویسی تخمینی پویا"(approximate dynamic programming) خوانده میشود. این مسئله در تئوری کنترل بهینه نیز مطالعه شده است. البته دغدغه اصلی بیشتر مطالعات در این زمینه، اثبات وجود پاسخ بهینه و یافتن ویژگیهای آن است و به دنبال جزئیات یادگیری یا تخمین نیست. یادگیری تقویتی در اقتصاد و نظریه بازیها بیشتر به بررسی تعادلهای ایجاد شده تحت عقلانیت محدود میپردازد.
در یادگیری ماشینی با توجه به این که بسیاری از الگوریتمهای یادگیری تقویتی از تکنیکهای برنامهنویسی پویا استفاده میکنند. تفاوت اصلی بین روشهای سنتی و الگوریتمهای یادگیری تقویتی این است که در یادگیری تقویتی نیازی به داشتن اطلاعات راجع به فرآیند تصمیمگیری نیست.
یادگیری تقویتی با یادگیری با نظارت معمول دو تفاوت عمده دارد، نخست اینکه در آن زوجهای صحیح ورودی و خروجی در کار نیست و رفتارهای ناکارآمد نیز از بیرون اصلاح نمیشوند و دیگر آنکه تمرکز زیادی روی کارایی زنده وجود دارد که نیازمند پیدا کردن یک تعادل مناسب بین اکتشاف چیزهای جدید و بهرهبرداری از دانش اندوخته شده دارد.
"جوسی ساینیو" یکی از بنیانگذاران شرکت "Ote Robotics" میگوید: الهامات اولیه برای کار ما مطالعات یادگیری تقویتی(RL) بود که با موفقیت، یادگیری راه رفتن از ابتدا از روی شبیهسازیهای رباتهای چهارپا و شبه انسان را نشان داد.
وی افزود: پیش فرض اساسی در مورد الگوریتمهای یادگیری تقویتی این است که برنامه نویسی یک ربات برای انجام کارها با آن بسیار آسانتر و طبیعیتر میشود و تنها به تعریف اندازهگیری های حسگر موجود، اقدامات حرکتی و سپس تعیین یک هدف و اتصال همه آنها به یک الگوریتم یادگیری تقویتی است که بقیه کارها را این الگوریتم انجام میدهد.
"یادگیری تقویتی"(RL) قبلاً به هزاران ساعت آموزش شبیهسازی ربات نیاز داشت. با این حال، اخیراً محققان موفق شدهاند با دادههای آموزشی بسیار کم، راه رفتن را به این رباتها آموزش دهند. این بدان معناست که رباتها اکنون میتوانند بدون استفاده از آموزش طولانی مدت مبتنی بر شبیه سازی، در محیطهای واقعی آموزش ببینند.
"ساینیو" توضیح داد: ما متوجه شدیم که رباتهای متحرک مانند "RealAnt" به ویژه برای یادگیری تقویتی به راحتی و با قیمت مناسب در دسترس نیستند و این موضوع میتواند به رباتها آسیب برساند.
وی افزود: در مقایسه با محیط شبیهسازی شده، هیچ پشتوانه ترکیبی نرم افزاری و سخت افزاری کاملی وجود ندارد که بتوان با آن یادگیری تقویتی را در دنیای واقعی شروع کرد. بنابراین من شروع به ساخت نمونههای اولیه نرم افزار ربات و رابط خودم کردم.
در نهایت "ساینیو" موفق به ساخت نمونههای اولیه قابل توجهی شد.
بنا به اعلام وبسایت "Ote robotics"، پلتفرم ربات "RealAnt" برای تحقیق و توسعه یادگیری تقویتی در دنیای واقعی طراحی شده است.
انتهای پیام
منبع: ایسنا
کلیدواژه: یادگیری تقویتی ربات یادگیری تقویتی شبیه سازی ربات ها
درخواست حذف خبر:
«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را بهطور اتوماتیک از وبسایت www.isna.ir دریافت کردهاست، لذا منبع این خبر، وبسایت «ایسنا» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۰۲۲۹۲۳۵ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتیکه در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.
خبر بعدی:
چرا اینستاگرام الگوریتم خود را تغییر میدهد؟
ایتنا - اینستاگرام اعلام کرد که الگوریتم خود را با هدف کمک به حسابهای کاربری که دنبالکنندگان کمتری دارند، تغییر میدهد.
بر اساس اعلام اینستاگرام، محتواسازان کوچک که مخاطبان کمتری دارند با تغییر الگوریتم این رسانه اجتماعی به راحتی محتواهای دست اول خود را بهدست کاربران میرسانند.
شرکت متا با تغییراتی که در الگوریتم پیشنهاد بخش لیز اعمال میکند، محتواهای دست اول را بیشتر از گذشته به کاربران پیشنهاد میدهد.
همچنین با این تغییرات، سیستم رتبهبندی محتوای اینستاگرام پستهایی که فقط محتواهای دیگران را بازنشر میکنند، کمتر پیشنهاد میدهد.
در گذشته، سیستم رتبهبندی محتوای اینستاگرام پستهای محتواسازانی که دنبالکنندگان بیشتری داشتند، و همچنین اکانتهایی که محتواهای دیگران را بازنشر میکردند را بیشتر از تولیدکنندگان محتواهای دست اول و کوچک به کاربران پیشنهاد میکرد.
با تغییرات جدید در الگوریتم اینستاگرام، اکانتهایی که دنبالکنندگان بیشتری دارند دیگر در اولویت قرار نمیگیرند.
بر اساس اعلام اینستاگرام، این تغییرات در ماههای آینده قابل مشاهده خواهد بود.
اینستاگرام مدتی است که تغییرات مهمی را در نحوه استفاده کاربران از این پلتفرم ایجاد کرده است. شرکت متا تصمیم گرفته است که به توصیه محتوای سیاسی و اجتماعی پایان دهد. این شرکت پیشتر اقدامهای متعددی را برای محافظت از کاربران کودک انجام داده است.