Автоматизираното надписване на изображения на Google и ключът към изкуственото "видение"

Не е тайна, че през последните години Google се активизира по-активно в изследванията, особено след като се реорганизира значително през 2015 г. На 22 септември 2016 г. тя обяви освобождаването с отворен код на софтуер, който може да открие обектите и настройка на изображение, за да генерира автоматично надпис, който го описва. Разбира се, тя няма същото ниво на творчество, което човешките същества правят при създаването на прозата в надписите, но изображението енкодер, познат като Inception V3, би трябвало да привлече вниманието по причини, които надхвърлят повърхностния "поглед към надписите може да направи "мотив. Софтуер като този, всъщност, може да бъде стъпка към нещо по-голямо по пътя към по-напреднал изкуствен интелект.

Очите могат да се видят, но разузнаването "възприема"

Изкуствената гледка е била с нас повече от век. Всичко с камера може да се види. Това е много основно нещо. Но дори слепецът може да надмине разбирането на камерата за това, което гледа. Доскоро компютрите не успяха лесно и точно да назоват обектите, които се намират в снимките, без много специфични параметри. Да кажем наистина, че даден обект, създаден от човека, има "визия" би означавал, че той поне има конкретна способност да уточнява какво гледа, а не просто да го гледа, без да събира контекст. По този начин устройството може да реагира на околната среда, основаващо се на зрението, както и ние. Възприятието е абсолютна необходимост. Без него всеки смисъл, който имаме, е безполезен.

Възприемане чрез автоматично надписване на изображения

Въпреки че като цяло смятаме, че всяка картина струва хиляда думи, Inception V3 не споделя непременно това мнение. Софтуерът за автоматично надписване на изображения има много малко неща, които да се каже за това, което вижда, но има поне едно основно конкретно разбиране за това, което се съдържа в представената му рамка.

С тази елементарна информация направихме стъпка към способността на софтуера да разбере визуалните стимули. Даването на такъв робот на робот би му позволило да реагира на такива стимули, като довежда интелигентността си до нивото на най-основните водни животни. Това може да не звучи много, но ако погледнете как вървят роботите в момента (когато тествате извън техните много ограничаващи параметри), ще откриете, че това би било доста скок в разузнаването в сравнение с амебичния начин, по който те могат да възприемат собствената си обстановка.

Какво означава това за AI (и защо това е далеч от Perfect)

Фактът, че вече разполагаме с софтуер, който (с 93% точност) може да изобрази надписи, означава, че сме преодолели малко препятствието на компютрите да имат смисъл в средата си. Разбира се, това не означава, че сме близо до край в този отдел. Заслужава да се отбележи също, че Въвеждането V3 беше обучено от хората с течение на времето и използва информацията, която "научи" за дешифриране на други изображения. За да имате истинско разбиране за околната среда, човек трябва да може да постигне по-абстрактно ниво на възприятие. Дали човекът в образа е ядосан? Двама души се бият? Каква е жената на пейката?

Горепосочените въпроси представляват видовете неща, които си задаваме, когато срещаме други човешки същества. Това е абстрактното запитване, което ни задължава да екстраполираме повече информация от това, което може да направи едно изображение с надписи. Нека не забравяме, че ледът върху тортата ни харесва да наричаме емоционална (или "ирационална") реакция на това, което виждаме. Ето защо ние считаме цветя красиви, канали отвратителни, и пържени картофки вкусно. Това е нещо, което все още се чудим дали някога ще постигнем на ниво машина, без всъщност да го кодираме твърдо. Истината е, че този вид "човешки" феномен е вероятно невъзможен без ограничително програмиране. Разбира се, това не означава, че няма да спрем да опитваме. Ние сме, в края на краищата, човешки .

Смятате ли, че нашите роботистки владетели някога ще се научат да оценят сложността на розовите листенца под микроскоп? Кажете ни в коментар!