Reproduktivlikni oshirish va boshqalarga nashr etilgan ishlarni osonroq qurish imkoniyatini berish maqsadida biz ML kodining to'liqligini tekshirish ro'yxatini taqdim etamiz. ML kodining to'liqligini tekshirish ro'yxati unda saqlangan skriptlar va artefaktlar asosida kodlar do'konini baholaydi.
Kirish
O'tgan yili Joel Pino OA konferentsiyalarida (NeurIPS, ICML,…) taqdim etiladigan takrorlanuvchi tadqiqotlarni osonlashtirish uchun takrorlanuvchanlikni nazorat ro'yxatini chiqardi. Tekshirish ro'yxatidagi elementlarning aksariyati qog'oz tarkibiy qismlariga qaratilgan. Ushbu tekshiruv ro'yxatidagi bitta narsa "manba kodiga havolani taqdim eting", ammo bundan tashqari, ozgina tavsiyalar berilgan.
Eng yaxshi amaliyotlar ML kodining to'liqligini tekshirish ro'yxatida umumlashtirildi, bu endi NeurIPS 2020 kodini rasmiy yuborish jarayonining bir qismi bo'lib, sharhlovchilar o'zlari xohlaganicha foydalanishlari mumkin.
ML to'liqligini tekshirish ro'yxati
M kodi to'liqligini tekshirish ro'yxati kod do'konini tekshiradi:
- Bog'liqliklar - omborda qaramlik to'g'risidagi ma'lumot yoki atrof-muhitni sozlash bo'yicha ko'rsatmalar bormi?
- O'quv stsenariylari - omborda hujjatda tasvirlangan modellarni tayyorlash / moslashtirish usuli mavjudmi?
- Baholash stsenariylari - omborda o'qitilgan model (lar) ning ishlash ko'rsatkichlarini hisoblash yoki modellarda tajribalar o'tkazish uchun stsenariy mavjudmi?
- Oldindan tayyorlangan modellar - omborxona oldindan tayyorlangan model og'irliklariga bepul kirishni ta'minlaydimi?
- Omborda asosiy natijalar jadvali / grafigi va ushbu natijalarni ko'paytirish uchun skript mavjudmi?
Har bir ombor 0 (yo'q) dan 5 gacha (barchasi bor) Shomilni qabul qilishi mumkin. Har bir element mezonlari haqida ko'proq ma'lumotni Github omborida topishingiz mumkin.
Tekshiruvlar ro'yxati foydali omborlarga yordam beradigan dalillar nimada?
Jamiyat odatda GitHub yulduzlarini omborning foydaliligi uchun proksi sifatida ishlatadi. Shuning uchun, ML to'liqligini nazorat qilish ro'yxatida yuqori ball to'plagan repolarda GitHub yulduzlari ko'proq bo'lishi kutilmoqda. Ushbu gipotezani sinab ko'rish uchun NeurIPS 2019 hujjatlarida rasmiy dastur sifatida 884 GitHub repo taqdim etilgan edi. Ushbu 884 reponing 25% to'plami tasodifiy tanlangan va ML to'liqligi nazorat ro'yxatida qo'lda tekshirilgan. Ular ushbu namunadagi NeurIPS 2019 GitHub reposlarini ML kodining to'liqligini tekshirish ro'yxatidagi Shomil soni bo'yicha guruhlashdi va har bir guruhdagi GitHub median yulduzlarini xaritaga tushirishdi. Natija quyida:
0 katakchali NeurIPS 2019 reposlari GitHub-da 1,5 yulduz medianasiga ega edi. Aksincha, 5 ta katakchali reposlar 196,5 GitHub yulduzidan iborat edi. Repolarning atigi 9 foizida 5 ta, repolarning aksariyatida (70 foizida) 3 yoki undan kam Shomil bor edi. Wilcoxon martabali yig'indisi testi o'tkazildi va 5 ta Shomil sinfidagi yulduzlar soni 5 ga nisbatan 4 ga nisbatan boshqa barcha sinflarga qaraganda sezilarli darajada (p.value <1e-4) ko'pligini aniqladi (bu erda p.value chegara). 0,015 da). Ushbu raqam uchun ma'lumotlar va kodni Github omborida ko'rishingiz mumkin.
Ushbu munosabatlar yanada kengroq kengayib borayotganligini tekshirish uchun README omboridan va tegishli koddan tekshiruv ro'yxatini hisoblashni avtomatlashtirish uchun skript yaratildi. Keyinchalik biz 884 NeurIPS 2019 omborlari to'plamini va shuningdek, 2019 yilda nashr etilgan barcha ML maqolalari uchun 8926 kodli omborlarni qayta tahlil qildik. Ikkala holatda ham, mutaxassislar statik jihatdan muhim bo'lgan Shomillardan monotonik ravishda ko'payadigan o'rtacha yulduzlar bilan sifat jihatidan bir xil natijaga erishdilar (p.value <1e-4). Va nihoyat, mustahkam chiziqli regressiyadan foydalanib, oldindan tayyorlangan modellar va natijalarni GitHub yulduzlariga eng katta ijobiy ta'sir ko'rsatadigan natijalarni topdik.
Bu tahlilchilar tomonidan tadqiqotchilarni ML-ning to'liqligini tekshirish ro'yxati talab qiladigan barcha tarkibiy qismlarni kiritishga undash yanada foydali omborlarga olib kelishini va tekshiruvlar ro'yxatidagi ballar sifatli materiallarni taqdim etishini ko'rsatadigan foydali dalillar deb hisoblanadi.
Hozirgi vaqtda ekspertlar taklif qilingan 5 ta nazorat ro'yxati ombori mashhurligining yagona yoki hatto eng muhim omili ekanligini da'vo qilmaydilar. Boshqa omillar mashhurlikka ta'sir qilishi mumkin, masalan: ilmiy hissa hajmi, marketing (masalan, blogdagi xabarlar va Twitter postlari), hujjatlar (keng qamrovli README'lar, o'quv qo'llanmalari va API hujjatlari), kod sifati va oldingi ish.
5 ta katakchali NeurIPS 2019 omborlarining ba'zi bir misollari:
Mutaxassislarning ta'kidlashicha, ular nazorat ro'yxatini iloji boricha umumiy qilib olishga harakat qilgan bo'lsalar-da, ammo bu hujjatlar barcha turlariga, masalan, nazariy yoki hujjatlar to'plamiga to'liq tatbiq etilmasligi mumkin. Ammo, agar maqolaning asosiy maqsadi ma'lumotlar to'plamini namoyish etish bo'lsa ham, u dastlabki stsenariylarni, shu jumladan o'quv stsenariylarini, baholash stsenariylarini va natijalarini chiqarishda foyda ko'rishi mumkin.
Foydalanishni boshlang
Sharhlovchilar va foydalanuvchilar omborda nima borligini tushunishlari va mutaxassislar uni to'g'ri baholashlarini osonlashtirish uchun README.md fayllarini yozish, bog'liqliklarni aniqlash va oldindan tayyorlangan modellar, ma'lumotlar to'plamlari va natijalarni chiqarish uchun eng yaxshi amaliyotlar to'plami taqdim etiladi. O'zingizning omboringizda ushbu 5 elementni aniq belgilashingiz va foydalanuvchilaringiz uchun ko'proq kontekst va ravshanlikni ta'minlash uchun ularni hujjatlar va etakchilar jadvallari kabi har qanday tashqi manbalarga bog'lashingiz tavsiya etiladi. Bu NeurIPS 2020-ga kodni taqdim etish bo'yicha rasmiy ko'rsatmalar.