تربيت

سرمايه گذاري

تربيت در يونان قديم

۱۱ بازديد

در دهه 300 قبل از ميلاد، مرد جواني به نام اسكندر در سن 20 سالگي پادشاه پادشاهي يونان باستان مقدونيه شد. اسكندر از همه مزيت هاي اوليه براي تبديل شدن به يك رهبر برخوردار بود: او توسط ارسطو آموزش داده شد و پدرش، فيليپ دوم، يك جنگجوي قدرتمند و موفق بود. اسكندر در جواني پتانسيل زيادي از خود نشان داد:پكيج آموزش تربيت فرزند در سن 10 سالگي اسبي را كه هيچ كس ديگري نمي توانست مديريت كند رام كرد و در 16 سالگي شورش را سركوب كرد و شهر خود را تأسيس كرد - كه به نام خود نامگذاري كرد.

اسكندر در 20 سالگي پس از ترور پدرش به پادشاهي رسيد تربيت كودك و به سرعت تكه تكه بر آسياي صغير تسلط يافت. اما اسكندر "كبير" افتخار مي كرد. خيلي مغرور. در افسانه ها آمده است كه المپياس، مادر اسكندر به او گفت كه او واقعاً پسر فيليپ نيست، بلكه پسر پادشاه خدايان يونان است: خود زئوس.

و اسكندر در پايان زندگي خود واقعاً معتقد بود كه او يك خداست.

هنگامي كه يكي از دوستان قديمي به نام كليتوس سعي كرد او را از غرور فزاينده خود آگاه كند، اسكندر او را با عصبانيت سلاخي كرد. بعداً اسكندر به بيماري شديد و دردناكي مبتلا شد و زماني كه تنها 32 سال داشت درگذشت. مانند داستان هيروديس كتاب مقدس كه وقتي جسارت پذيرفتن پرستش رعاياي خود را به عنوان خدا داشت، كشته شد، اسكندر نيز در اوج زندگي خود مدتي پس از اينكه خود را خدا اعلام كرد، از بين رفت.

اتفاقي؟ شايد.

شايد نه.

غرور ← درد

آيا تا به حال در مورد توهين كردن، به اطرافيان بي گناهي كه سر راه شما قرار مي گيرند، خورش كرده ايد؟ آيا تا به حال از اينكه براي ارتقاء يا جايزه از شما دور مي‌شوند ناراحت شده‌ايد و به اين فكر كرده‌ايد كه چرا موجودات كوچك‌تر ديگر توانسته‌اند پاداشي را كه شايسته آن هستيد از شما بدزدند؟

اگر چنين است، شما قرباني غرور شده ايد.

غرور باعث مي شود نسبت به توهين و آسيب بيش از حد حساس باشيم. تحمل درد عاطفي ما را كاهش مي دهد و ما را شكننده و ضعيف مي كند - به راحتي آسيب مي بينيم، به راحتي ناراحت مي شويم.

اما يك استراتژي موثر وجود دارد كه مي‌توانيم از آن براي جلوگيري از اكثر دردهاي عاطفي كه به خودمان وارد مي‌كنيم استفاده كنيم:

خودمان را تحقير كنيم.

يادگيري از لينكلن

مشكل اين است كه برخي از مردم تواضع را با تواضع اشتباه مي گيرند. اما فروتني واقعي، همانطور كه خواهيم ديد، نشان دهنده فقدان شجاعت يا اعتماد به نفس نيست.

آبراهام لينكلن يكي از بزرگترين روساي جمهور آمريكا بود.

در مدت كوتاهي كه در مقام رياست جمهوري خود بود، به لغو برده داري كمك كرد، اتحاديه را در طي يك جنگ داخلي خونين و وحشتناك به پيروزي رساند و پايه و اساس بازسازي را پي ريزي كرد.

لينكلن كه در يك كلبه چوبي ساده متولد شد، يك بار نوشت:

من به دنيا آمدم و هميشه در فروتن‌ترين جنبه‌هاي زندگي [به‌طور] باقي مانده‌ام.»

افراد متواضع در خانه نيستند

يك فرد متواضع لزوماً اجازه نمي دهد ديگران هر كاري كه مي خواهند با او انجام دهند. افراد فروتن هنوز هم مرزهاي سالم و معقول را حفظ مي كنند. آنها شخصيت، احساس خود يا مسئوليت اعمال خود را از دست نمي دهند.

افراد متواضع اهل فشار نيستند.

افراد فروتن در مورد خود بد فكر نمي كنند

به نوعي، بد فكر كردن نسبت به خود در واقع نوعي غرور است. اين نشان مي دهد كه شما بيش از حد به خود فكر مي كنيد، و از اين گذشته، ويژگي بارز فروتني اين است كه كمتر به خود فكر كنيد.

افراد مغرور اغلب نسبت به خود احساس بدي دارند، زيرا تصور مي كنند كه در اعماق وجودشان چنين است بهتر از ديگران وقتي واقعيت منعكس كننده اين فرض نباشد، افراد مغرور بدبين، دلسرد و افسرده مي شوند.

از سوي ديگر، افراد فروتن اهميتي به درخشان و موفق بودن يا ظاهر شدنشان نمي دهند. آنها اصلاً زمان زيادي را صرف فكر كردن به خودشان نمي كنند، چه مثبت يا منفي - آنها بيش از حد مشغول فكر كردن به ديگران هستند.

متواضع بودن شجاعت مي خواهد

در طول جنگ جهاني دوم، يك مخالف وظيفه شناسي پرورش به نام دزموند دوس به عنوان يك پزشك نظامي خدمت مي كرد.

دوس به خاطر ايمان و عقايد صلح‌طلبانه‌اش توسط سربازان و مافوق‌هايش مورد آزار و اذيت قرار گرفت. اما به جاي معامله توهين با توهين، داس بي سر و صدا از طريق آموزش رنج مي برد، سپس به تنهايي بيش از 75 مرد را زير آتش دشمن در نبرد نجات داد.

براي اين و ساير اقدامات شجاعانه، به داس ستاره برنز  و مدال افتخار اعطا شد - تنها مخالف وظيفه شناسي كه چنين مورد تجليل قرار گرفت.

فروتني دزموند داس به او كمك كرد تا توهين‌ها پرورش را تحمل كند، شكنجه‌گرانش را ببخشد و جان كساني را كه به او آسيب رسانده‌اند نجات دهد. اين به او قدرت مي داد تا غرايز خود را براي حفظ خود سركوب كند تا ديگران را نجات دهد.

اين همان تواضع واقعي است.


دزموند داس مدال افتخار را دريافت مي‌كند، به لطف ويكي‌مديا مشترك

چرا خودت را فروتن كني؟

بنابراين ديگران مجبور نخواهند شد.

افتادن از روي پايه باعث درد مي شود. اما پرورش اگر خود را روي يك پايه قرار ندهيد، هيچ كس نمي تواند شما را زمين بزند.

منبع:

https://masiresaabz.com/product/%D8%AA%D8%B1%D8%A8%DB%8C%D8%AA-%DA%A9%D9%88%D8%AF%DA%A9-%D8%B4%D8%A7%D8%AF-%D9%85%D9%88%D9%81%D9%82/

تربيت اصولي كودكان چگونه صورت ميگيرد؟

۱۲ بازديد

انسان‌ها گونه‌ اي هستند كه مي‌توانند خود را با چالش‌هاي محيطي وفق دهند، و در طول سال‌ها اين ما را قادر به تكامل بيولوژيكي كرده است - يك ويژگي اساسي كه در حيوانات يافت مي‌شود اما در هوش مصنوعي تربيت كودك وجود ندارد. اگرچه يادگيري ماشين در بازي‌ هاي پيچيده‌اي مانند Go و Dota 2 پيشرفت چشمگيري داشته است، مهارت‌هاي تسلط بر اين عرصه‌ها لزوماً به كاربردهاي عملي در سناريوهاي دنياي واقعي تعميم نمي‌يابند. هدف تعداد فزاينده‌اي از محققين ساختن هوش ماشيني است كه بيشتر شبيه انسان‌ها رفتار مي‌كند، ياد مي‌گيرد و تكامل مي‌يابد.

مقاله ايي جديد من باب تربيت اصولي

مقاله جديدي از OpenAI مستقر در سانفرانسيسكو پيشنهاد پكيج آموزش تربيت كودك مي‌كند كه آموزش مدل‌ها در بازي پنهان كردن كودكان و قرار دادن آن‌ها در مقابل يكديگر در ده‌ها ميليون مسابقه، منجر به اين مي‌شود كه مدل‌ها به طور خودكار رفتارهاي انسان‌مانندي را ايجاد كنند كه هوش آن‌ها را افزايش مي‌دهد و پس از آن بهبود مي‌يابد. كارايي.

پنهان كاري كودكان

چرا پنهان كاري؟ بوئن بيكر، محقق OpenAI، اولين نويسنده مقاله ميگويد كه پنهان كاري به عنوان يك نقطه شروع سرگرم كننده بيشتر به دليل قوانين ساده آن انتخاب شد.

قوانين بازي: همه عوامل به عنوان اشياء كروي شبيه سازي شده اند كه مي توانند سه نوع عمل انجام دهند: پيمايش. چنگ زدن و حركت دادن اشيا؛ و اشياء را قفل كنيد كه فقط توسط هم تيمي هاي آن عامل باز مي شود.

دلايل پنهان كاري كودكان

محققان يك تا سه «پنهان‌گر» و يك تا سه «جستجو» را در محيط‌هاي شبيه‌سازي‌شده و زمين‌بندي‌شده فيزيكي با اتاق‌هايي كه با ديوارهاي ساكن مرزبندي شده بودند، قرار دادند. محيط ها همچنين شامل جعبه هاي متحرك با اندازه هاي مختلف و رمپ هاي متحرك بودند. محققان از يادگيري تقويتي براي آموزش عواملي استفاده كردند كه سيگنال پاداش آنها - مكانيسم تشويقي براي تحريك عوامل براي دستيابي به اهدافشان - از قوانين ساده پنهانكاري پيروي مي كرد: پنهان كاران وقتي از ديد جويندگان پنهان مي مانند، پاداش دريافت مي كنند و جويندگان پاداش دريافت مي كنند. وقتي مخفي گاه ها را پيدا مي كنند.

 

چگونه هوش مصنوعي مخفي كاري مي كند

در طول فرايند آموزش، عوامل هوش مصنوعي در چندين مرحله از استراتژي ها تكامل يافتند. در آغاز پنهان كاران (آبي) فقط فرار از جويندگان (قرمز) را آموختند. با پيشرفت گيم پلي، پنهان كنندگان شروع به استفاده از ابزارهايي به نفع خود كردند، به عنوان مثال، جعبه ها را براي مسدود كردن درها حركت دادند تا جويندگان نتوانند وارد اتاق آنها شوند.

در پاسخ، مخفي كاران ياد گرفتند كه سطح شيب دار را به داخل اتاق خود ببرند تا جويندگان نتوانند از آن براي عبور از ديوارها استفاده كنند

محققان از تكامل اين استراتژي‌هاي مختلف به عنوان «پيشرفت مهارت‌هاي نوظهور از برنامه‌هاي آموزشي چند عاملي» ياد مي‌كنند. اصطلاح "خودكار آموزشي" امسال توسط DeepMind ابداع شد و براي چندين عامل به كار مي رود كه به تدريج وظايف جديدي را براي به چالش كشيدن يكديگر در يك محيط خاص ايجاد مي كنند. محققان OpenAI بر اين باورند كه اين فرآيند مشابهاتي در انتخاب طبيعي دارد.

"چرا ما واقعاً در مورد اين موضوع هيجان زده هستيم اين است كه به نوعي پويايي هاي مشابهي را مي بينيم كه روي زمين با تكامل ديده ايم. بنابراين شما همه اين نوع موجودات را روي زمين داريد كه در حال رقابت و تكامل با هم بودند. و در نهايت از آن انسان هايي به دست آمد كه به نوعي AGI جهان طبيعي هستند.

چرا اين تحقيق اهميت دارد: با توجه به هدف نسبتاً ساده پنهانكاري، چندين عامل آموزش ديده از طريق خودبازي رقابتي ياد گرفتند كه از ابزارها استفاده كنند و مهارت هاي مربوط به انسان را براي پيروزي به كار گرفتند. OpenAI معتقد است كه اين يك جهت تحقيقاتي اميدواركننده براي توسعه و استقرار عامل هوشمند آينده است.

OpenAI به منظور تشويق تحقيقات بيشتر در اين زمينه، كدها و محيط هاي خود را منبع باز مي كند. يكي از نويسندگان مقاله، محقق OpenAI، يي وو، به Synced گفت: «جامعه دانشگاهي واقعاً به محيط‌ها و مشكلات خوب و جالب براي مطالعه نياز دارد. اين محيط كمي پيچيده‌تر از دنياي ذرات دو بعدي است و مانند StarCraft فوق‌العاده پيچيده نيست.

تحقيقات تربيتي

اين تحقيق پنهان‌كاري OpenAI را نيز هيجان‌زده مي‌كند زيرا با افزايش پيچيدگي محيط، عوامل به طور مداوم با استراتژي‌هاي جديد خود را با چالش‌هاي جديد سازگار مي‌كنند. بيكر مي‌گويد: «اگر فرآيندي مانند اين بتواند بزرگ‌تر شود و در محيط بسيار پيچيده‌تري قرار گيرد، ممكن است عواملي به‌قدري پيچيده‌تر دريافت كنيد كه بتوانند وظايف واقعي را براي ما حل كنند.

الگوريتم تربيت و پرورش كودك

الگوريتم اصلي: عوامل هستند تربيت كودكان از دو شبكه تشكيل شده است: يك شبكه سياست براي توليد توزيع كنش و يك شبكه انتقادي براي پيش بيني بازده هاي مربوطه در آينده. محققان OpenAI از Proximal Policy Optimization (PPO)، تكنيكي كه در آموزش برنامه هاي كامپيوتري Dota2 استفاده كرده اند، براي بهينه سازي خط مشي استفاده كردند. معماري در زير نشان داده شده است.

آموزش كودك براي بازي كامپيوتري

عوامل هوش مصنوعي ميليون ها بار به طور موازي آموزش ديده اند. آموزش به سمت مرحله نهايي (دفاع موج سواري) در پيچيده ترين تربيت كودكان محيط سه تا چهار روز بر روي 16 GPU و 4000 CPU طول كشيد.

چالش هاي تربيت كودك

براي مثال، مخفي‌كاران آموختند كه اگر يك سطح تربيت كودكان شيبدار را در گوشه‌ها به ديوارها فشار دهند، به دلايلي سطح شيبدار از ديوارها عبور مي‌كند و سپس ناپديد مي‌شود. چنين «تقلب‌هايي» نشان مي‌دهد كه چگونه ايمني الگوريتم‌ها مي‌تواند نقش مهمي در يادگيري ماشين بازي كند. قبل از اينكه اين اتفاق بيفتد، هرگز نمي دانيد. اين نوع سيستم ها هميشه ايراداتي دارند. آنچه ما انجام داديم اساساً مشاهده و تجسم سياست است تا بتوانيم اين اتفاق عجيب را ببينيم. وو مي‌گويد سپس سعي مي‌كنيم فيزيك را درست كنيم.

منبع:

https://masiresaabz.com/product/%D8%AA%D8%B1%D8%A8%DB%8C%D8%AA-%DA%A9%D9%88%D8%AF%DA%A9-%D8%B4%D8%A7%D8%AF-%D9%85%D9%88%D9%81%D9%82/

 

تربيت اصولي كودكان چگونه صورت ميگيرد؟

۹ بازديد

انسان‌ها گونه‌ اي هستند كه مي‌توانند خود را با چالش‌هاي محيطي وفق دهند، و در طول سال‌ها اين ما را قادر به تكامل بيولوژيكي كرده است - يك ويژگي اساسي كه در حيوانات يافت مي‌شود اما در هوش مصنوعي تربيت كودك وجود ندارد. اگرچه يادگيري ماشين در بازي‌ هاي پيچيده‌اي مانند Go و Dota 2 پيشرفت چشمگيري داشته است، مهارت‌هاي تسلط بر اين عرصه‌ها لزوماً به كاربردهاي عملي در سناريوهاي دنياي واقعي تعميم نمي‌يابند. هدف تعداد فزاينده‌اي از محققين ساختن هوش ماشيني است كه بيشتر شبيه انسان‌ها رفتار مي‌كند، ياد مي‌گيرد و تكامل مي‌يابد.

مقاله ايي جديد من باب تربيت اصولي

مقاله جديدي از OpenAI مستقر در سانفرانسيسكو پيشنهاد پكيج آموزش تربيت كودك مي‌كند كه آموزش مدل‌ها در بازي پنهان كردن كودكان و قرار دادن آن‌ها در مقابل يكديگر در ده‌ها ميليون مسابقه، منجر به اين مي‌شود كه مدل‌ها به طور خودكار رفتارهاي انسان‌مانندي را ايجاد كنند كه هوش آن‌ها را افزايش مي‌دهد و پس از آن بهبود مي‌يابد. كارايي.

پنهان كاري كودكان

چرا پنهان كاري؟ بوئن بيكر، محقق OpenAI، اولين نويسنده مقاله ميگويد كه پنهان كاري به عنوان يك نقطه شروع سرگرم كننده بيشتر به دليل قوانين ساده آن انتخاب شد.

قوانين بازي: همه عوامل به عنوان اشياء كروي شبيه سازي شده اند كه مي توانند سه نوع عمل انجام دهند: پيمايش. چنگ زدن و حركت دادن اشيا؛ و اشياء را قفل كنيد كه فقط توسط هم تيمي هاي آن عامل باز مي شود.

دلايل پنهان كاري كودكان

محققان يك تا سه «پنهان‌گر» و يك تا سه «جستجو» را در محيط‌هاي شبيه‌سازي‌شده و زمين‌بندي‌شده فيزيكي با اتاق‌هايي كه با ديوارهاي ساكن مرزبندي شده بودند، قرار دادند. محيط ها همچنين شامل جعبه هاي متحرك با اندازه هاي مختلف و رمپ هاي متحرك بودند. محققان از يادگيري تقويتي براي آموزش عواملي استفاده كردند كه سيگنال پاداش آنها - مكانيسم تشويقي براي تحريك عوامل براي دستيابي به اهدافشان - از قوانين ساده پنهانكاري پيروي مي كرد: پنهان كاران وقتي از ديد جويندگان پنهان مي مانند، پاداش دريافت مي كنند و جويندگان پاداش دريافت مي كنند. وقتي مخفي گاه ها را پيدا مي كنند.

 

چگونه هوش مصنوعي مخفي كاري مي كند

در طول فرايند آموزش، عوامل هوش مصنوعي در چندين مرحله از استراتژي ها تكامل يافتند. در آغاز پنهان كاران (آبي) فقط فرار از جويندگان (قرمز) را آموختند. با پيشرفت گيم پلي، پنهان كنندگان شروع به استفاده از ابزارهايي به نفع خود كردند، به عنوان مثال، جعبه ها را براي مسدود كردن درها حركت دادند تا جويندگان نتوانند وارد اتاق آنها شوند.

در پاسخ، مخفي كاران ياد گرفتند كه سطح شيب دار را به داخل اتاق خود ببرند تا جويندگان نتوانند از آن براي عبور از ديوارها استفاده كنند

محققان از تكامل اين استراتژي‌هاي مختلف به عنوان «پيشرفت مهارت‌هاي نوظهور از برنامه‌هاي آموزشي چند عاملي» ياد مي‌كنند. اصطلاح "خودكار آموزشي" امسال توسط DeepMind ابداع شد و براي چندين عامل به كار مي رود كه به تدريج وظايف جديدي را براي به چالش كشيدن يكديگر در يك محيط خاص ايجاد مي كنند. محققان OpenAI بر اين باورند كه اين فرآيند مشابهاتي در انتخاب طبيعي دارد.

"چرا ما واقعاً در مورد اين موضوع هيجان زده هستيم اين است كه به نوعي پويايي هاي مشابهي را مي بينيم كه روي زمين با تكامل ديده ايم. بنابراين شما همه اين نوع موجودات را روي زمين داريد كه در حال رقابت و تكامل با هم بودند. و در نهايت از آن انسان هايي به دست آمد كه به نوعي AGI جهان طبيعي هستند.

چرا اين تحقيق اهميت دارد: با توجه به هدف نسبتاً ساده پنهانكاري، چندين عامل آموزش ديده از طريق خودبازي رقابتي ياد گرفتند كه از ابزارها استفاده كنند و مهارت هاي مربوط به انسان را براي پيروزي به كار گرفتند. OpenAI معتقد است كه اين يك جهت تحقيقاتي اميدواركننده براي توسعه و استقرار عامل هوشمند آينده است.

OpenAI به منظور تشويق تحقيقات بيشتر در اين زمينه، كدها و محيط هاي خود را منبع باز مي كند. يكي از نويسندگان مقاله، محقق OpenAI، يي وو، به Synced گفت: «جامعه دانشگاهي واقعاً به محيط‌ها و مشكلات خوب و جالب براي مطالعه نياز دارد. اين محيط كمي پيچيده‌تر از دنياي ذرات دو بعدي است و مانند StarCraft فوق‌العاده پيچيده نيست.

تحقيقات تربيتي

اين تحقيق پنهان‌كاري OpenAI را نيز هيجان‌زده مي‌كند زيرا با افزايش پيچيدگي محيط، عوامل به طور مداوم با استراتژي‌هاي جديد خود را با چالش‌هاي جديد سازگار مي‌كنند. بيكر مي‌گويد: «اگر فرآيندي مانند اين بتواند بزرگ‌تر شود و در محيط بسيار پيچيده‌تري قرار گيرد، ممكن است عواملي به‌قدري پيچيده‌تر دريافت كنيد كه بتوانند وظايف واقعي را براي ما حل كنند.

الگوريتم تربيت و پرورش كودك

الگوريتم اصلي: عوامل هستند تربيت كودكان از دو شبكه تشكيل شده است: يك شبكه سياست براي توليد توزيع كنش و يك شبكه انتقادي براي پيش بيني بازده هاي مربوطه در آينده. محققان OpenAI از Proximal Policy Optimization (PPO)، تكنيكي كه در آموزش برنامه هاي كامپيوتري Dota2 استفاده كرده اند، براي بهينه سازي خط مشي استفاده كردند. معماري در زير نشان داده شده است.

آموزش كودك براي بازي كامپيوتري

عوامل هوش مصنوعي ميليون ها بار به طور موازي آموزش ديده اند. آموزش به سمت مرحله نهايي (دفاع موج سواري) در پيچيده ترين تربيت كودكان محيط سه تا چهار روز بر روي 16 GPU و 4000 CPU طول كشيد.

چالش هاي تربيت كودك

براي مثال، مخفي‌كاران آموختند كه اگر يك سطح تربيت كودكان شيبدار را در گوشه‌ها به ديوارها فشار دهند، به دلايلي سطح شيبدار از ديوارها عبور مي‌كند و سپس ناپديد مي‌شود. چنين «تقلب‌هايي» نشان مي‌دهد كه چگونه ايمني الگوريتم‌ها مي‌تواند نقش مهمي در يادگيري ماشين بازي كند. قبل از اينكه اين اتفاق بيفتد، هرگز نمي دانيد. اين نوع سيستم ها هميشه ايراداتي دارند. آنچه ما انجام داديم اساساً مشاهده و تجسم سياست است تا بتوانيم اين اتفاق عجيب را ببينيم. وو مي‌گويد سپس سعي مي‌كنيم فيزيك را درست كنيم.

منبع:

https://masiresaabz.com/product/%D8%AA%D8%B1%D8%A8%DB%8C%D8%AA-%DA%A9%D9%88%D8%AF%DA%A9-%D8%B4%D8%A7%D8%AF-%D9%85%D9%88%D9%81%D9%82/

 

تربيت اصولي كودكان چگونه صورت ميگيرد؟

۹ بازديد

انسان‌ها گونه‌ اي هستند كه مي‌توانند خود را با چالش‌هاي محيطي وفق دهند، و در طول سال‌ها اين ما را قادر به تكامل بيولوژيكي كرده است - يك ويژگي اساسي كه در حيوانات يافت مي‌شود اما در هوش مصنوعي تربيت كودك وجود ندارد. اگرچه يادگيري ماشين در بازي‌ هاي پيچيده‌اي مانند Go و Dota 2 پيشرفت چشمگيري داشته است، مهارت‌هاي تسلط بر اين عرصه‌ها لزوماً به كاربردهاي عملي در سناريوهاي دنياي واقعي تعميم نمي‌يابند. هدف تعداد فزاينده‌اي از محققين ساختن هوش ماشيني است كه بيشتر شبيه انسان‌ها رفتار مي‌كند، ياد مي‌گيرد و تكامل مي‌يابد.

مقاله ايي جديد من باب تربيت اصولي

مقاله جديدي از OpenAI مستقر در سانفرانسيسكو پيشنهاد پكيج آموزش تربيت كودك مي‌كند كه آموزش مدل‌ها در بازي پنهان كردن كودكان و قرار دادن آن‌ها در مقابل يكديگر در ده‌ها ميليون مسابقه، منجر به اين مي‌شود كه مدل‌ها به طور خودكار رفتارهاي انسان‌مانندي را ايجاد كنند كه هوش آن‌ها را افزايش مي‌دهد و پس از آن بهبود مي‌يابد. كارايي.

پنهان كاري كودكان

چرا پنهان كاري؟ بوئن بيكر، محقق OpenAI، اولين نويسنده مقاله ميگويد كه پنهان كاري به عنوان يك نقطه شروع سرگرم كننده بيشتر به دليل قوانين ساده آن انتخاب شد.

قوانين بازي: همه عوامل به عنوان اشياء كروي شبيه سازي شده اند كه مي توانند سه نوع عمل انجام دهند: پيمايش. چنگ زدن و حركت دادن اشيا؛ و اشياء را قفل كنيد كه فقط توسط هم تيمي هاي آن عامل باز مي شود.

دلايل پنهان كاري كودكان

محققان يك تا سه «پنهان‌گر» و يك تا سه «جستجو» را در محيط‌هاي شبيه‌سازي‌شده و زمين‌بندي‌شده فيزيكي با اتاق‌هايي كه با ديوارهاي ساكن مرزبندي شده بودند، قرار دادند. محيط ها همچنين شامل جعبه هاي متحرك با اندازه هاي مختلف و رمپ هاي متحرك بودند. محققان از يادگيري تقويتي براي آموزش عواملي استفاده كردند كه سيگنال پاداش آنها - مكانيسم تشويقي براي تحريك عوامل براي دستيابي به اهدافشان - از قوانين ساده پنهانكاري پيروي مي كرد: پنهان كاران وقتي از ديد جويندگان پنهان مي مانند، پاداش دريافت مي كنند و جويندگان پاداش دريافت مي كنند. وقتي مخفي گاه ها را پيدا مي كنند.

 

چگونه هوش مصنوعي مخفي كاري مي كند

در طول فرايند آموزش، عوامل هوش مصنوعي در چندين مرحله از استراتژي ها تكامل يافتند. در آغاز پنهان كاران (آبي) فقط فرار از جويندگان (قرمز) را آموختند. با پيشرفت گيم پلي، پنهان كنندگان شروع به استفاده از ابزارهايي به نفع خود كردند، به عنوان مثال، جعبه ها را براي مسدود كردن درها حركت دادند تا جويندگان نتوانند وارد اتاق آنها شوند.

در پاسخ، مخفي كاران ياد گرفتند كه سطح شيب دار را به داخل اتاق خود ببرند تا جويندگان نتوانند از آن براي عبور از ديوارها استفاده كنند

محققان از تكامل اين استراتژي‌هاي مختلف به عنوان «پيشرفت مهارت‌هاي نوظهور از برنامه‌هاي آموزشي چند عاملي» ياد مي‌كنند. اصطلاح "خودكار آموزشي" امسال توسط DeepMind ابداع شد و براي چندين عامل به كار مي رود كه به تدريج وظايف جديدي را براي به چالش كشيدن يكديگر در يك محيط خاص ايجاد مي كنند. محققان OpenAI بر اين باورند كه اين فرآيند مشابهاتي در انتخاب طبيعي دارد.

"چرا ما واقعاً در مورد اين موضوع هيجان زده هستيم اين است كه به نوعي پويايي هاي مشابهي را مي بينيم كه روي زمين با تكامل ديده ايم. بنابراين شما همه اين نوع موجودات را روي زمين داريد كه در حال رقابت و تكامل با هم بودند. و در نهايت از آن انسان هايي به دست آمد كه به نوعي AGI جهان طبيعي هستند.

چرا اين تحقيق اهميت دارد: با توجه به هدف نسبتاً ساده پنهانكاري، چندين عامل آموزش ديده از طريق خودبازي رقابتي ياد گرفتند كه از ابزارها استفاده كنند و مهارت هاي مربوط به انسان را براي پيروزي به كار گرفتند. OpenAI معتقد است كه اين يك جهت تحقيقاتي اميدواركننده براي توسعه و استقرار عامل هوشمند آينده است.

OpenAI به منظور تشويق تحقيقات بيشتر در اين زمينه، كدها و محيط هاي خود را منبع باز مي كند. يكي از نويسندگان مقاله، محقق OpenAI، يي وو، به Synced گفت: «جامعه دانشگاهي واقعاً به محيط‌ها و مشكلات خوب و جالب براي مطالعه نياز دارد. اين محيط كمي پيچيده‌تر از دنياي ذرات دو بعدي است و مانند StarCraft فوق‌العاده پيچيده نيست.

تحقيقات تربيتي

اين تحقيق پنهان‌كاري OpenAI را نيز هيجان‌زده مي‌كند زيرا با افزايش پيچيدگي محيط، عوامل به طور مداوم با استراتژي‌هاي جديد خود را با چالش‌هاي جديد سازگار مي‌كنند. بيكر مي‌گويد: «اگر فرآيندي مانند اين بتواند بزرگ‌تر شود و در محيط بسيار پيچيده‌تري قرار گيرد، ممكن است عواملي به‌قدري پيچيده‌تر دريافت كنيد كه بتوانند وظايف واقعي را براي ما حل كنند.

الگوريتم تربيت و پرورش كودك

الگوريتم اصلي: عوامل هستند تربيت كودكان از دو شبكه تشكيل شده است: يك شبكه سياست براي توليد توزيع كنش و يك شبكه انتقادي براي پيش بيني بازده هاي مربوطه در آينده. محققان OpenAI از Proximal Policy Optimization (PPO)، تكنيكي كه در آموزش برنامه هاي كامپيوتري Dota2 استفاده كرده اند، براي بهينه سازي خط مشي استفاده كردند. معماري در زير نشان داده شده است.

آموزش كودك براي بازي كامپيوتري

عوامل هوش مصنوعي ميليون ها بار به طور موازي آموزش ديده اند. آموزش به سمت مرحله نهايي (دفاع موج سواري) در پيچيده ترين تربيت كودكان محيط سه تا چهار روز بر روي 16 GPU و 4000 CPU طول كشيد.

چالش هاي تربيت كودك

براي مثال، مخفي‌كاران آموختند كه اگر يك سطح تربيت كودكان شيبدار را در گوشه‌ها به ديوارها فشار دهند، به دلايلي سطح شيبدار از ديوارها عبور مي‌كند و سپس ناپديد مي‌شود. چنين «تقلب‌هايي» نشان مي‌دهد كه چگونه ايمني الگوريتم‌ها مي‌تواند نقش مهمي در يادگيري ماشين بازي كند. قبل از اينكه اين اتفاق بيفتد، هرگز نمي دانيد. اين نوع سيستم ها هميشه ايراداتي دارند. آنچه ما انجام داديم اساساً مشاهده و تجسم سياست است تا بتوانيم اين اتفاق عجيب را ببينيم. وو مي‌گويد سپس سعي مي‌كنيم فيزيك را درست كنيم.

منبع:

https://masiresaabz.com/product/%D8%AA%D8%B1%D8%A8%DB%8C%D8%AA-%DA%A9%D9%88%D8%AF%DA%A9-%D8%B4%D8%A7%D8%AF-%D9%85%D9%88%D9%81%D9%82/