Turkey Türkiye

Yapay zekanın bizi sesimizden ve yüzümüzden tanımasının zorluğu (ve avantajları)

.

Hiç şüphe yok ki teknoloji hayatımızın önemli bir parçası haline geldi. Cep telefonları, tabletler veya bilgisayarlar, diğer insanlarla sürekli bağlantı halinde olmamıza, içerik oluşturmamıza, banka işlemleri yapmamıza, her türlü ürünü satın almamıza veya evden bir tıbbi konsültasyona katılmamıza ve diğer pek çok şeye olanak tanır.

Bu yeni çağın büyük bir sorunu çevrimiçi istenmeyen kişilerin cihazlarımızdaki tüm bilgilere erişebilmesidir. Ayrıca şifreyi hatırlamıyorsak veya videolarda belirli bilgileri ararken erişim zorlukları da bulabiliriz.

Bu nedenle, kullanıcının yüzü veya sesi gibi benzersiz ve devredilemez özelliklerini “dijital parmak izi” olarak tanıyan yapay zeka tekniklerinin dahil edilmesi çok önemlidir. Örneğin, parmak izlerine göre avantajı, cihazların belirli bir teknoloji gerektirmemesidir: sadece hemen hemen tüm modellerde bulunan kamera ve/veya mikrofon.

Nöronlarımızın tarzında öğrenen makineler

Son yıllarda sinir ağlarına dayalı derin öğrenme teknikleri sayesinde bu alanda büyük ilerlemeler kaydedilmiştir. Bu ağlar tıpkı beyin gibi öğrenmeye çalışır, nöronlarımız tarafından gerçekleştirilen başarı ve hata yoluyla öğrenme sürecini simüle eder. Örneğin bebekken kimi gördüğümüzü, kimi duyduğumuzu nasıl ayırt edeceğimizi bilemeyiz. Beyin onları deneyimle tanımlamayı öğrenir.

Bu nedenle sürecin anahtarı eğitimdir. Sisteme, onlardan öğrenilecek bilgileri gösteren bir dizi girdi verisi sunmakla ilgilidir. Bu bilgileri özümsediğinizde, yeni veriler aldığınızda ne yapacağınızı bileceksiniz. Eldeki durumda, yüzlerin sesleri ve görüntüleri.

Bu teknikler, sistem pek çok bilgiyle “beslendiğinde” zaten oldukça iyi çalışır. Ancak, kullanılacağı uygulama için çok az spesifik veri ile insanları seslerinden tanıyan bir sistem oluşturmak istersek ne olur?

Tam ifadeyi tanımlayın

Bugün, herhangi bir konuda konuşan insanların ses kayıtlarına sahip olmak kolaydır, ancak güvenliği artırmaya veya tanıma sistemlerini özelleştirmeye izin veren belirli bir cümleyi çok fazla söylemez.

Bir örnek, yalnızca sahibi “Hey, Siri” veya “Ok, Google” dediğinde etkinleşen sanal asistanlardır. Bu cihazlar bugün zaten oldukça iyi çalışıyor, ancak geliştiriciler her zaman Apple veya Google’ın sahip olduğu muazzam kaynaklara sahip olamıyor.

Bu gibi durumlarda, sisteme öğretmek için çok az yeterli veri olduğunda, genel olarak eğitilmiş büyük sinir ağları kullanmak en iyi çözüm değildir. Sistem, konuşan ve belirli bir cümleyi söyleyen birden fazla kişi arasında doğru bir şekilde ayrım yapamayacaktır.

Bu zorluğun üstesinden gelmek için Zaragoza Üniversitesi, Aragon Mühendislik Araştırmaları Enstitüsünde değiştirilmiş sinir ağları kullandık. Geliştirilirken, ilgili cümleyi telaffuz eden kişinin önemini dikkate aldık, çünkü kayıtların tüm bölümlerine – büyük sinir ağlarının yaptığı gibi – eşit davranmak bu durumlarda ideal değildir.

Bu amaçla, konuşucunun kimliğini tanımanın yanı sıra, sistemlerin dikkatinin konuşulan cümlenin farklı bölümlerine odaklanmasını sağlayacak modifikasyonlar getirdik. Bu şekilde oluşturulan ağların sağlam olduğu ve belirli şeyler söyleyen farklı insanlar arasında oldukça iyi ayrım yapabildiği kanıtlanmıştır.

Bu ilerlemelerin ötesinde, belirli durumlarda belirli verilerin kıtlığı, tanıma sistemlerinin güvenliğini ve kişiselleştirmesini geliştirmek için bir zorluk olmaya devam ediyor. Örneğin, spikerin sesi hastalık nedeniyle çok değiştiğinde hala sorun yaşıyoruz.

Öte yandan, bunun tam tersi bir sorunla da karşılaşabiliriz: Çok fazla bilgiye ve tanımamız gereken iki fiziksel özelliğe sahip olduğumuzda ne olur?

Eşzamanlı ses ve yüz tanıma

Kameralı ve mikrofonlu cihazların yaygınlaşması, cihazların kendisinde veya genel olarak internette bulunan videoların hacmini katlanarak artırdı. Bu kayıtlar, yapay zeka teknikleri geliştirmek için çok değerlidir: sesler ve yüzler, her iki özelliği aynı anda tanımlayan daha güvenli sistemler oluşturmak için kullanılabilir.

Ancak, dosyalarda tam olarak hangi bilgilerin göründüğünü bilmemiz gerekiyor. Şimdiye kadar bu işlem elle yapılıyordu ve çok pahalıydı.

Yukarıda belirtilen çalışmada, görsel-işitsel içeriğin daha verimli ve otomatik olarak analiz edilmesine ve kataloglanmasına yardımcı olabilecek yeni ortak ses ve yüz tanıma sistemleri de geliştirdik. Örneğin, bir haber programında birisi bir konu hakkında konuştuğunda veya olay yerine geldiğinde sessiz olsa bile arama yapmanızı sağlar.

Kısacası, ses ve yüz tanıma teknolojisi son yıllarda çok yol kat etti ve şimdiden günlük hayatımızın bir parçası oldu, ancak önümüzde hala zorluklar var. Cihazlarımızın erişimini ve güvenliğini iyileştirmek ve teknolojiyi tüm insanlara yakınlaştırmak için bunları ele almak önemlidir.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo