Tek kollu bir robot bir masanın önünde duruyordu. Masanın üzerinde üç plastik figür vardı: bir aslan, bir balina ve bir dinozor.
Bir mühendis robota şu talimatı verdi: “Nesli tükenmiş hayvanı topla.”
Robot bir an vızıldadı, sonra kolu uzandı ve pençesi açılıp aşağı indi. Dinozoru yakaladı.
Geçen hafta Mountain View, California’daki Google’ın robotik bölümündeki bir podcast röportajında tanık olduğum bu gösteri çok yakın zamana kadar imkansızdı. Robotlar, daha önce hiç görmedikleri nesneleri güvenilir bir şekilde manipüle edemiyorlardı ve kesinlikle “soyu tükenmiş hayvan”dan “plastik dinozor”a mantıklı bir sıçrama yapamıyorlardı.
Google’ın robotundan soyu tükenmiş hayvanı alması isteniyor. Kredi Kredi… New York Times için Kelsey McClellan’ın videosu
Ancak, ChatGPT, Bard ve diğer sohbet botlarına güç sağlayan aynı tür yapay zeka sistemi olan büyük dil modellerindeki son gelişmelere dayanan robotikte sessiz bir devrim yaşanıyor.
Google son zamanlarda robotlarına son teknoloji dil modellerini takmaya başladı ve onlara yapay beyinlerin eşdeğerini verdi. Gizli proje, robotları çok daha akıllı hale getirdi ve onlara yeni anlama ve problem çözme güçleri verdi.
Google’ın RT-2 adlı en son robotik modelinin özel bir tanıtımı sırasında bu ilerlemeye bir göz attım. Cuma günü tanıtılan model, Google yöneticilerinin robotların inşa edilmesi ve programlanmasında büyük bir sıçrama olarak tanımladığı şeye doğru atılan ilk adım anlamına geliyor.
Google DeepMind’ın robotik başkanı Vincent Vanhoucke, “Bu değişikliğin bir sonucu olarak tüm araştırma programımızı yeniden gözden geçirmek zorunda kaldık” dedi. “Daha önce üzerinde çalıştığımız birçok şey tamamen geçersiz kılındı.”
Google DeepMind robotik başkanı Vincent Vanhoucke, “Daha önce üzerinde çalıştığımız birçok şey tamamen geçersiz kılındı” dedi. Kredi… The New York Times için Kelsey McClellan
Robotlar hala insan seviyesindeki el becerisinin gerisinde kalıyor ve bazı temel görevlerde başarısız oluyor, ancak Google’ın robotlara yeni muhakeme ve doğaçlama becerileri kazandırmak için AI dil modellerini kullanması, umut verici bir atılımı temsil ediyor. Berkeley.
“Çok etkileyici olan, semantiği robotlarla nasıl ilişkilendirdiğidir” dedi. “Bu robotik için çok heyecan verici.”
Bunun büyüklüğünü anlamak için, robotların geleneksel olarak nasıl inşa edildiği hakkında biraz bilgi sahibi olmak yardımcı olur.
Google ve diğer şirketlerdeki mühendislerin yıllarca robotları mekanik bir görevi (örneğin bir burgeri çevirmek) yapmaları için eğitme yöntemi, onları belirli bir talimat listesiyle programlamaktı. (Spatulayı 6,5 inç alçaltın, dirençle karşılaşana kadar ileri kaydırın, 4,2 inç yükseltin, 180 derece döndürün vb.) Robotlar daha sonra görevi tekrar tekrar uygularlar ve mühendisler her seferinde talimatları düzeltirler. O doğru.
Bu yaklaşım belirli, sınırlı kullanımlar için işe yaradı. Ancak robotları bu şekilde eğitmek yavaş ve yoğun emek gerektirir. Gerçek dünya testlerinden çok sayıda veri toplamayı gerektirir. Ve bir robota yeni bir şey yapmayı öğretmek isterseniz – örneğin hamburger yerine pankek çevirmeyi – genellikle onu sıfırdan yeniden programlamanız gerekirdi.
Kısmen bu sınırlamalar nedeniyle, donanım robotları yazılım tabanlı kardeşlerinden daha yavaş gelişti. ChatGPT’nin üreticisi OpenAI, yavaş ilerleme ve yüksek kaliteli eğitim verilerinin olmaması nedeniyle robotik ekibini 2021’de dağıttı. 2017’de Google’ın ana şirketi Alphabet, satın aldığı robotik şirketi Boston Dynamics’i Japon teknoloji şirketi SoftBank’a sattı. (Boston Dynamics artık Hyundai’ye ait ve görünüşe göre esasen korkunç çeviklik becerileri sergileyen insansı robotların viral videolarını üretmek için var.)
Son yıllarda Google’daki araştırmacıların aklına bir fikir geldi. Ya robotlar, belirli görevler için tek tek programlanmak yerine, kendilerine yeni beceriler öğrenmek için bir AI dil modelini (çok geniş internet metinleri üzerinde eğitilmiş bir model) kullanabilseydi?
Google araştırma uzmanı Karol Hausman, “Yaklaşık iki yıl önce bu dil modelleriyle oynamaya başladık ve daha sonra içlerinde çok fazla bilgi olduğunu fark ettik” dedi. “Böylece onları robotlara bağlamaya başladık. ”
Google’ın dil modelleri ile fiziksel robotları birleştirme konusundaki ilk girişimi, geçen yıl ortaya çıkarılan PaLM-SayCan adlı bir araştırma projesiydi. Biraz ilgi gördü ama faydası sınırlıydı. Robotlar, görüntüleri yorumlama yeteneğinden yoksundu – bu, dünyayı dolaşabilmelerini istiyorsanız çok önemli bir beceri. Farklı görevler için adım adım talimatlar yazabilirler, ancak bu adımları eyleme dönüştüremezler.
Google’ın yeni robotik modeli RT-2 tam da bunu yapabilir. Şirketin “vizyon-dil-eylem” modeli veya yalnızca etrafındaki dünyayı görme ve analiz etme değil, aynı zamanda bir robota nasıl hareket edeceğini söyleme yeteneğine sahip bir AI sistemi dediği şey budur.
Bunu, robotun hareketlerini bir dizi sayıya çevirerek – belirteçleştirme adı verilen bir işlemle – ve bu belirteçleri dil modeliyle aynı eğitim verilerine dahil ederek yapar. Sonunda, tıpkı ChatGPT veya Bard’ın bir şiirde veya tarih denemesinde hangi kelimelerin gelmesi gerektiğini tahmin etmeyi öğrenmesi gibi, RT-2 de bir robotun kolunun bir topu almak veya boş bir gazoz kutusunu geri dönüşüme atmak için nasıl hareket etmesi gerektiğini tahmin etmeyi öğrenebilir. çöp Kutusu.
Hausman, “Başka bir deyişle, bu model robot konuşmayı öğrenebilir” dedi.
Bir dolarlık mağazadan alınan nesnelerle dolu bir Google ofis mutfağında gerçekleştirilen bir saatlik bir gösteride, podcast yardımcı sunucum ve ben RT-2’nin bir dizi etkileyici görevi yerine getirdiğini gördük. Biri, “Volkswagen’i Alman bayrağına taşıyın” gibi karmaşık talimatları başarıyla uyguluyordu; RT-2, model bir VW Otobüsü bulup kaptı ve onu birkaç metre ötedeki minyatür bir Alman bayrağına yerleştirerek yaptı.
Ayrıca İngilizce dışındaki dillerdeki talimatları takip edebildiğini ve hatta ilgili kavramlar arasında soyut bağlantılar kurabildiğini kanıtladı. Bir keresinde, RT-2’nin bir futbol topunu almasını istediğimde, ona “Lionel Messi’yi alması” talimatını verdim. RT-2 ilk denemede doğru yaptı.
Robot mükemmel değildi. Önündeki masaya yerleştirilmiş bir kutu LaCroix’in tadını yanlış bir şekilde tanımladı. (Kutu limondu; RT-2 turuncu olduğunu tahmin etti.) Bir başka sefer, masada ne tür bir meyve olduğu sorulduğunda, robot basitçe “beyaz” yanıtını verdi. (Bir muzdu.) Bir Google sözcüsü, robotun Wi-Fi’si kısa bir süreliğine kesildiği için önceki bir testçinin sorusuna önbelleğe alınmış bir yanıt kullandığını söyledi.
RT-2, bir robotun kolunun boş bir kola kutusunu almak için nasıl hareket etmesi gerektiğini tahmin etmeyi öğrenebilir. Kredi Kredi… New York Times için Kelsey McClellan’ın videosu
Google’ın RT-2 robotlarını satma veya daha yaygın olarak piyasaya sürme gibi acil bir planı yok, ancak araştırmacıları bu yeni dil donanımlı makinelerin sonunda salon numaralarından daha fazlası için yararlı olacağına inanıyor. Yerleşik dil modellerine sahip robotların depolara konulabileceğini, tıpta kullanılabileceğini ve hatta çamaşır katlama, bulaşık makinesini boşaltma, evin etrafını toplama gibi ev yardımcıları olarak konuşlandırılabileceğini söylediler.
Bay Vanhoucke, “Bu, insanların bulunduğu ortamlarda robotların kullanılmasına gerçekten yol açıyor” dedi. “Ofis ortamlarında, ev ortamlarında, yapılması gereken birçok fiziksel işin olduğu tüm mekanlarda.”
Elbette dağınık, kaotik fiziksel dünyada nesneleri hareket ettirmek, bunu kontrollü bir laboratuvarda yapmaktan daha zordur. Yapay zeka dil modellerinin sık sık hata yaptığı veya anlamsız cevaplar icat ettiği göz önüne alındığında – araştırmacılar buna halüsinasyon veya konfabülasyon diyorlar – bunları robotların beyinleri olarak kullanmak yeni riskler getirebilir.
Ancak Berkeley robotik profesörü Bay Goldberg, bu risklerin hala uzak olduğunu söyledi.
“Bunları başıboş bırakmaktan bahsetmiyoruz,” dedi. “Bu laboratuvar ortamlarında, sadece bazı nesneleri bir masanın üzerinde itmeye çalışıyorlar.”
Google, son zamanlarda en son teknolojiye sahip dil modellerini donanım robotlarına takmaya başladı ve onlara yapay beyinlerin eşdeğerini verdi. Kredi Kredi… New York Times için Kelsey McClellan’ın videosu
Google, kendi adına, RT-2’nin birçok güvenlik özelliği ile donatıldığını söyledi. Her robotun arkasında bulunan ve basıldığında robotu durduran büyük kırmızı düğmeye ek olarak, sistem insanlara veya nesnelere çarpmamak için sensörler kullanır.
RT-2’de yerleşik olan yapay zeka yazılımı, robotun zararlı herhangi bir şey yapmasını önlemek için kullanabileceği kendi güvenlik önlemlerine sahiptir. İyi huylu bir örnek: Google’ın robotları, içinde su bulunan kapları almamak üzere eğitilebilir, çünkü su dökülürse donanımlarına zarar verebilir.
Yapay zekanın haydutlaşmasından endişe eden türden biriyseniz – ve Hollywood bize orijinal “Terminatör”den geçen yılki “M3gan”a kadar bu senaryodan korkmamız için pek çok neden verdi – akıl yürütebilen robotlar yapma fikri, anında plan yapmak ve doğaçlama yapmak muhtemelen size korkunç bir fikir gibi geliyor.
Ancak Google’da bu, araştırmacıların kutladığı türden bir fikir. Vahşi doğada geçen yılların ardından donanım robotları geri döndü ve chatbot beyinlerine teşekkür etmeleri gerekiyor.