يجمع الباحثون صورًا مربكة لفضح النقاط الضعيفة في رؤية الذكاء الاصطناعي
لقد تحسنت رؤية الكمبيوتر بشكل كبير في السنوات الأخيرة ، لكنها لا تزال قادرة على ارتكاب أخطاء جسيمة. لدرجة أن هناك مجالًا كاملاً من الأبحاث المخصصة لدراسة الصور التي يتم التعرف عليها بشكل روتيني بواسطة الذكاء الاصطناعي ، والمعروفة باسم "adversarial images". فكر في هذه الصور على أنها أوهام بصرية لأجهزة الكمبيوتر. بينما ترى قطة فوق شجرة ، فالذكاء الاصطناعي يرى سنجابًا.
هناك حاجة كبيرة لدراسة هذه الصور. نظرًا لأننا نضع أنظمة رؤية آلية في قلب التكنولوجيا الجديدة مثل الكاميرات الأمنية بالذكاء الاصطناعي والسيارات ذاتية القيادة ، فإننا على ثقة بأن أجهزة الكمبيوتر ترى العالم بنفس الطريقة التي نراها بها. لكن " adversarial images " تثبت أنهم لا يفعلون ذلك.
الـ "adversarial images" تستغل نقاط الضعف في أنظمة التعلم الآلي
ولكن في حين يركز الكثير من الاهتمام في هذا المجال على الصور التي تم تصميمها خصيصًا لخداع الذكاء الاصطناعي AI ، فإن هذه الأنواع من الصور المرئية المربكة تحدث بشكل طبيعي أيضًا. هذه الفئة من الصور ، إن وجدت ، فهي تعتبر أكثر إثارة للقلق ، حيث إنها تظهر أن أنظمة الرؤية يمكن أن ترتكب أخطاء غير قسرية.
لإثبات ذلك ، قامت مجموعة من الباحثين من جامعة كاليفورنيا في بيركلي ، وجامعة واشنطن ، وجامعة شيكاغو ، بإنشاء مجموعة بيانات تضم حوالي 7500 "امثلة على الصور الطبيعية المربكة للذكاء الاصطناعي". قاموا باختبار عدد من أنظمة رؤية الماكينات على هذه البيانات ، ووجدوا أنه قد انخفضت دقتها بنسبة تصل إلى 90 في المئة ، مع البرنامج قادرة فقط على تحديد اثنين أو ثلاثة في المئة فقط من الصور في بعض الحالات.
يمكنك أن ترى كيف تبدو هذه "الامثلة من الصور المربكة الطبيعية " أدناه:


يقول الباحثون أن البيانات ستساعد . نأمل في تدريب أنظمة رؤية أكثر قوة. يشرحون أن الصور تستغل "العيوب العميقة" التي تنبع من "الاعتماد المفرط على برامج و اللون والملمس و الخلفية" لتحديد ما يراه.
في الصور أدناه ، على سبيل المثال ، يخطئ AI في الصور الموجودة على اليسار على انها لمسمار ، على الأرجح بسبب الخلفيات الخشبية. في صور اليمين ، يركزون على وحدة تغذية الطائر الطنان ، لكنهم يفوتون حقيقة أنه لا توجد طيور طنانة فعلية.
أن إرتكاب الذكاء الاصطناعي لهذه الاخطاء ليس خبرًا جديدًا. لقد حذر الباحثون منذ سنوات من أن أنظمة الرؤية التي تم إنشاؤها باستخدام التعلم العميق (نكهة التعلم الآلي المسؤولة عن العديد من التطورات الحديثة في الذكاء الاصطناعى) ليست بالمستوى المطلوب - وأنهم لا يفهمون العالم بنفس الفوارق الدقيقة والمرونة كإنسان.
يتم تدريب هذه الأنظمة على آلاف الصور من الأمثلة لمعرفة ما تبدو عليه الأشياء ، لكننا لا نعرف غالبًا العناصر الدقيقة داخل الصور التي يستخدمها AI لإصدار أحكامه.
تشير بعض الأبحاث إلى أنه بدلاً من النظر إلى الصور بشكل كلي ، مع مراعاة الشكل العام والمحتوى ، تركز الخوارزميات على مواد وتفاصيل محددة. يبدو أن النتائج المقدمة في مجموعة البيانات هذه تدعم هذا التفسير ، على سبيل المثال ، يتم التعرف على الصور التي تظهر ظلالًا واضحة على سطح مضاء بريقًا على أنها مزولة.
ولكن هل هذا يعني أن أنظمة رؤية الماكينات هذه مكسورة بشكل لا رجعة فيه؟ على الاطلاق. غالبًا ما تكون الأخطاء التي يتم ارتكابها تافهة للغاية ، مثل تحديد غطاء الصرف الصحي باعتباره فتحة أو فتحة سيارة ليموزين.
وبينما يقول الباحثون إن هذه "الأمثلة للصور المربكة الطبيعية" سوف تخدع مجموعة واسعة من أنظمة الرؤية ، فإن هذا لا يعني أنهم سوف يخدعونهم جميعًا. العديد من أنظمة رؤية الماكينة متخصصة بشكل لا يصدق ، مثل تلك المستخدمة لتحديد الأمراض في الفحص الطبي ، على سبيل المثال. وعلى الرغم من وجود عيوب خاصة بهم ، فإن عدم قدرتهم على فهم العالم و الإنسان لا يمنعهم من اكتشاف ورم سرطاني.
قد تكون رؤية الماكينة سريعة وقذرة في بعض الأحيان ، ولكنها غالبًا ما تحصل على نتائج. مثل هذه الأبحاث توضح لنا النقاط العمياء التي نحتاج إلى إصلاحها .
![]() |
من أعلى إلى أسفل ومن اليسار إلى اليمين ، يتم التعرف على هذه الصور على أنها "ساعة رقمية" ، "منارة" ، "عضو" ، "محقنة" ، "طوقان" ، "قطة فارسية". |
لقد تحسنت رؤية الكمبيوتر بشكل كبير في السنوات الأخيرة ، لكنها لا تزال قادرة على ارتكاب أخطاء جسيمة. لدرجة أن هناك مجالًا كاملاً من الأبحاث المخصصة لدراسة الصور التي يتم التعرف عليها بشكل روتيني بواسطة الذكاء الاصطناعي ، والمعروفة باسم "adversarial images". فكر في هذه الصور على أنها أوهام بصرية لأجهزة الكمبيوتر. بينما ترى قطة فوق شجرة ، فالذكاء الاصطناعي يرى سنجابًا.
هناك حاجة كبيرة لدراسة هذه الصور. نظرًا لأننا نضع أنظمة رؤية آلية في قلب التكنولوجيا الجديدة مثل الكاميرات الأمنية بالذكاء الاصطناعي والسيارات ذاتية القيادة ، فإننا على ثقة بأن أجهزة الكمبيوتر ترى العالم بنفس الطريقة التي نراها بها. لكن " adversarial images " تثبت أنهم لا يفعلون ذلك.
الـ "adversarial images" تستغل نقاط الضعف في أنظمة التعلم الآلي
ولكن في حين يركز الكثير من الاهتمام في هذا المجال على الصور التي تم تصميمها خصيصًا لخداع الذكاء الاصطناعي AI ، فإن هذه الأنواع من الصور المرئية المربكة تحدث بشكل طبيعي أيضًا. هذه الفئة من الصور ، إن وجدت ، فهي تعتبر أكثر إثارة للقلق ، حيث إنها تظهر أن أنظمة الرؤية يمكن أن ترتكب أخطاء غير قسرية.
لإثبات ذلك ، قامت مجموعة من الباحثين من جامعة كاليفورنيا في بيركلي ، وجامعة واشنطن ، وجامعة شيكاغو ، بإنشاء مجموعة بيانات تضم حوالي 7500 "امثلة على الصور الطبيعية المربكة للذكاء الاصطناعي". قاموا باختبار عدد من أنظمة رؤية الماكينات على هذه البيانات ، ووجدوا أنه قد انخفضت دقتها بنسبة تصل إلى 90 في المئة ، مع البرنامج قادرة فقط على تحديد اثنين أو ثلاثة في المئة فقط من الصور في بعض الحالات.
يمكنك أن ترى كيف تبدو هذه "الامثلة من الصور المربكة الطبيعية " أدناه:

![]() |
حشرات على ورقة تم تعريفها من قبل AI بأنها "سفينة غارقة ".
|

![]() |
اعتقد AI أن هذه الصورة أظهرت "ساعة شمسية". |
![]() |
تبدو هذه الصورة من الذرة "خنافس" بالنسبة لـ AI.
|
![]() |
ربما كان التلوين بالأبيض والأسود هو الذي جعل AI يعتقد أن هذه الصورة لـ "لاعب بيسبول". |
![]() |
الذكاء الاصطناعى ذكَّر شيء عن الإضاءة في هذه الصورة بـ "شعلة". |
![]() |
كل ما تمكن الذكاء الاصطناعى من رؤيته في هذه الصورة هو شخص يركب "Go-kart |
![]() |
اعتقدت أن هذا "دب أسود" ، لكن هذا لا يفسر رباط العنق
|
![]() |
بالون حزين مع القليل من الأوساخ في الشارع ؟ بالنسبة للذكاء الاصطناعي ، إنها "طاولة بلياردو" |
يقول الباحثون أن البيانات ستساعد . نأمل في تدريب أنظمة رؤية أكثر قوة. يشرحون أن الصور تستغل "العيوب العميقة" التي تنبع من "الاعتماد المفرط على برامج و اللون والملمس و الخلفية" لتحديد ما يراه.
في الصور أدناه ، على سبيل المثال ، يخطئ AI في الصور الموجودة على اليسار على انها لمسمار ، على الأرجح بسبب الخلفيات الخشبية. في صور اليمين ، يركزون على وحدة تغذية الطائر الطنان ، لكنهم يفوتون حقيقة أنه لا توجد طيور طنانة فعلية.
أن إرتكاب الذكاء الاصطناعي لهذه الاخطاء ليس خبرًا جديدًا. لقد حذر الباحثون منذ سنوات من أن أنظمة الرؤية التي تم إنشاؤها باستخدام التعلم العميق (نكهة التعلم الآلي المسؤولة عن العديد من التطورات الحديثة في الذكاء الاصطناعى) ليست بالمستوى المطلوب - وأنهم لا يفهمون العالم بنفس الفوارق الدقيقة والمرونة كإنسان.
يتم تدريب هذه الأنظمة على آلاف الصور من الأمثلة لمعرفة ما تبدو عليه الأشياء ، لكننا لا نعرف غالبًا العناصر الدقيقة داخل الصور التي يستخدمها AI لإصدار أحكامه.
تشير بعض الأبحاث إلى أنه بدلاً من النظر إلى الصور بشكل كلي ، مع مراعاة الشكل العام والمحتوى ، تركز الخوارزميات على مواد وتفاصيل محددة. يبدو أن النتائج المقدمة في مجموعة البيانات هذه تدعم هذا التفسير ، على سبيل المثال ، يتم التعرف على الصور التي تظهر ظلالًا واضحة على سطح مضاء بريقًا على أنها مزولة.
ولكن هل هذا يعني أن أنظمة رؤية الماكينات هذه مكسورة بشكل لا رجعة فيه؟ على الاطلاق. غالبًا ما تكون الأخطاء التي يتم ارتكابها تافهة للغاية ، مثل تحديد غطاء الصرف الصحي باعتباره فتحة أو فتحة سيارة ليموزين.
وبينما يقول الباحثون إن هذه "الأمثلة للصور المربكة الطبيعية" سوف تخدع مجموعة واسعة من أنظمة الرؤية ، فإن هذا لا يعني أنهم سوف يخدعونهم جميعًا. العديد من أنظمة رؤية الماكينة متخصصة بشكل لا يصدق ، مثل تلك المستخدمة لتحديد الأمراض في الفحص الطبي ، على سبيل المثال. وعلى الرغم من وجود عيوب خاصة بهم ، فإن عدم قدرتهم على فهم العالم و الإنسان لا يمنعهم من اكتشاف ورم سرطاني.
قد تكون رؤية الماكينة سريعة وقذرة في بعض الأحيان ، ولكنها غالبًا ما تحصل على نتائج. مثل هذه الأبحاث توضح لنا النقاط العمياء التي نحتاج إلى إصلاحها .