يبذل العلماء جهودا كبيرة لتطوير ما يسمى نظام "الرؤية الحاسوبية" التي تستند إلى تقنيات الذكاء الاصطناعي وتجعل الحاسوب قادرا على وصف الصور بعبارات مفهومة، ورغم أن معظم تلك الأنظمة تجد صعوبة بمجاراة قدرة الإنسان في التعرف على الصور ووصفها بعبارات بسيطة فإن هذا الأمر في طريقه إلى التغير. فقد طو�'رت مجموعتان من العلماء من جامعة ستانفورد وشركة غوغل برنامجا للذكاء الاصطناعي بمقدوره إدراك ووصف محتويات الصور العادية والفيديو بدقة عالية جداً لم تبلغها أنظمة "الرؤية الحاسوبية" المُطورة مسبقا، وبدرجة تُضاهي في بعض الأحيان قدرة الإنسان على فهم المشهد ووصفه. وتنحصر قدرة أنظمة "الرؤية الحاسوبية" الموجودة بأيامنا هذه في إدراك الأشياء مُنفرِدةً، في حين يستطيع البرنامج الذي كشف عنه الباحثون تعليم نفسه والتعرف على مشهد معين ووصفه بالتفصيل. ويستطيع البرنامج وصف الصورة بتعليق بالإنجليزية بشكل وصفه الباحثون بأنه دقيق ويضاهي أسلوب الإنسان، كأن يُشاهد الحاسوب صورة لأشخاص يلعبون الكرة ويصفها بأنها "تضم مجموعة من الشبان يلعبون كرة القدم، أو يتعرف على صورة أُخرى ويصفها بأنها "تضم قطيعا من الفيلة التي تمشي على العُشب الأخضر". ووظف باحثو غوغل وجامعة ستانفورد تقنية الشبكات العُصبونية لتطوير نظامين، يستطيع أحدهما التعرف على الصور في حين يستطيع الآخر فهم لغة الإنسان، وتم تدريب هذين النظامين بإدخال مجموعات من الصور الرقمية المُرفقة بتعليقات كتبها الإنسان. وبعد أن تم تدريب البرمجيات على فهم الصور والتعليقات المرفقة معها، أُدخلَت صور جديدة إلى النظام، استطاع التعرف عليها، على الرغم من عدم تلقيه كميات كبيرة من بيانات التدريب، وفق ما أوضح عالم الحاسوب لدى غوغل، أوريول فينالس. وتضم الصور ومقاطع الفيديو الكثير من العناصر المعقدة، مما يجعل التعرف عليها وفهم واستخلاص الموقف الظاهر في المشهد أمرا صعبا، وفقا لعالمة الحاسوب بجامعة كارولاينا الشمالية، تمارا بيرغ، التي تدرب الشبكات العُصبونية بإدخال صور مرفق معها تعليقات مكتوبة، وتعتزم "بيرغ" إدخال مليون صورة لتدريب النظام. ويتوقع فريقا أبحاث ستانفورد وغوغل تحسن دقة النظام في التعرف على الصور بشكلٍ كبير في الفترة القادمة، وذلك من خلال تطوير البرنامج وتدريبه بإدخال أعداد كبيرة من الصور.