تقدم Google مجموعات بيانات وصفية مجانية مع عدد قليل من اللقطات للذكاء الاصطناعي للتعلم العميق وخوارزميات التعلم الآلي لتصنيف الصور بسرعة وكفاءة في TensorFlow و PyTorch

تقنية / تقدم Google مجموعات بيانات وصفية مجانية مع عدد قليل من اللقطات للذكاء الاصطناعي للتعلم العميق وخوارزميات التعلم الآلي لتصنيف الصور بسرعة وكفاءة في TensorFlow و PyTorch 2 دقيقة للقراءة

جوجل بيكسل 5؟



جوجل لديه عن توفر مجموعات بيانات متعددة تتألف من صور طبيعية متنوعة ولكنها محدودة. عملاق البحث واثق من أن البيانات المتاحة للجمهور ستقود وتيرة التعلم الآلي والذكاء الاصطناعي مع تقليل الوقت المستغرق لتدريب نماذج الذكاء الاصطناعي على الحد الأدنى من البيانات. تطلق Google على المبادرة الجديدة 'مجموعات البيانات الوصفية المجانية' التي ستساعد نماذج الذكاء الاصطناعي على 'التعلم' باستخدام بيانات أقل. تم تحسين 'Few-Shot AI' من الشركة لضمان تعلم الذكاء الاصطناعي لفصول جديدة من عدد قليل من الصور التمثيلية.

إدراكًا للحاجة إلى تدريب نماذج الذكاء الاصطناعي والتعلم الآلي بسرعة باستخدام مجموعات بيانات أقل ، أطلقت Google 'Meta-Dataset' ، وهي مجموعة صغيرة من الصور التي من المفترض أن تساعد في تقليل كمية البيانات اللازمة لتحسين دقة الخوارزميات. تدعي الشركة أن استخدام تقنيات تصنيف الصور قليلة اللقطات ، سيكتسب طرازا AI و ML نفس الرؤى من عدد أقل بكثير من الصور التمثيلية.



تعلن Google AI عن Meta-Dataset: A Dataset of Datasets For Few-Shot Learning:

ينمو التعلم العميق للذكاء الاصطناعي والتعلم الآلي بشكل كبير لبعض الوقت. ومع ذلك ، فإن المطلب الأساسي هو توافر بيانات عالية الجودة وبكميات كبيرة أيضًا. غالبًا ما يكون من الصعب شراء الكميات الكبيرة من بيانات التدريب المشروحة يدويًا وقد تكون غير موثوقة في بعض الأحيان. من خلال فهم مخاطر مجموعات البيانات الكبيرة ، أعلنت Google عن توفر مجموعة من مجموعات البيانات الوصفية.



عبر ' Meta-Dataset: مجموعة بيانات من مجموعات البيانات لتعلم التعلم من أمثلة قليلة '(مقدمة في ICLR 2020 ) ، اقترحت Google معيارًا واسعًا ومتنوعًا لقياس كفاءة نماذج تصنيف الصور المختلفة في إعداد قليل اللقطات الواقعية والصعبة ، مما يوفر إطارًا يمكن للمرء من خلاله التحقيق في العديد من الجوانب المهمة لتصنيف عدد قليل من اللقطات. بشكل أساسي ، تقدم Google 10 مجموعات بيانات للصور الطبيعية متاحة للجمهور ومجانية. تتكون مجموعات البيانات هذه من ImageNet و CUB-200-2011 وفطريات وشخصيات مكتوبة بخط اليد ورسومات الشعار المبتكرة. الكود هو عامة ويتضمن أ دفتر يوضح كيف يمكن استخدام مجموعة البيانات الوصفية في ملفات TensorFlow و PyTorch .



يتجاوز تصنيف اللقطات القليلة نطاق التدريب القياسي ونماذج التعلم العميق . يستغرق التعميم لفصول جديدة تمامًا في وقت الاختبار. بمعنى آخر ، الصور المستخدمة أثناء الاختبار لم تُشاهد في التدريب. في تصنيف قليل اللقطات ، تحتوي مجموعة التدريب على فصول منفصلة تمامًا عن تلك التي ستظهر في وقت الاختبار. تحتوي كل مهمة اختبار على ملف مجموعة الدعم من عدد قليل من الصور المصنفة التي يمكن للنموذج من خلالها التعرف على الفئات الجديدة والفصل مجموعة الاستعلام من الأمثلة التي يُطلب من النموذج بعد ذلك تصنيفها.

تعد مجموعة البيانات الوصفية مكونًا كبيرًا فيه دراسات النموذج التعميم على مجموعات البيانات الجديدة تمامًا ، والتي لم تُشاهد منها أي صور لأي فصل أثناء التدريب. هذا بالإضافة إلى تحدي التعميم الصعب للفئات الجديدة المتأصلة في إعداد التعلم قليل اللقطات.

كيف تساعد مجموعة البيانات الوصفية في التعلم العميق لنماذج الذكاء الاصطناعي والتعلم الآلي؟

تمثل Meta-Dataset أكبر مقياس مرجعي منظم لمجموعة البيانات المتقاطعة ، وتصنيف الصور قليل اللقطات حتى الآن. يقدم أيضًا خوارزمية لأخذ العينات لتوليد المهام ذات الخصائص المتنوعة والصعوبة ، من خلال تغيير عدد الفئات في كل مهمة ، وعدد الأمثلة المتاحة لكل فئة ، وإدخال اختلالات في الفئة ، وبالنسبة لبعض مجموعات البيانات ، تغيير درجة التشابه بين فصول لكل مهمة.



تقدم Meta-Dataset تحديات جديدة لتصنيف قليل اللقطات. لا تزال أبحاث Google أولية وهناك الكثير من الأمور الواجب تغطيتها. ومع ذلك ، فقد ادعى عملاق البحث أن الباحثين يحققون نجاحًا. تتضمن بعض الأمثلة البارزة استخدام المصمم بذكاء مهمة تكييف ، اكثر تطورا ضبط hyperparameter ، إلى ' ميتا الأساس 'الذي يجمع بين مزايا ما قبل التدريب والتعليم التلوي ، وأخيراً الاستخدام اختيار ميزة لتتخصص في تمثيل عالمي لكل مهمة.

العلامات جوجل