gop gaziosmanpaşa ak parti chp iyi parti mhp zafer partisi deva partisi gelecek partisi saadet
DOLAR
32,4565
EURO
34,7891
ALTIN
2.428,15
BIST
10.082,77
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul
Az Bulutlu
15°C
İstanbul
15°C
Az Bulutlu
Çarşamba Az Bulutlu
17°C
Perşembe Az Bulutlu
19°C
Cuma Az Bulutlu
18°C
Cumartesi Az Bulutlu
19°C

Erhan Avcı

1988 Biga/Çanakkale doğumludur. İlk,orta ve lise öğrenimini Biga’ da tamamlamıştır. Çanakkale 18 Mart Üniversitesi Türkçe Öğretmenliği Bölümünü 2011 yılında tamamlamıştır. 2014 yılından bu yana Milli Eğitimde Türkçe öğretmeni olarak görev yapmaktadır. Sekiz yıldır Gaziosmanpaşa Küçükköy’de yaşamaktadır.

3 Saniyede Sesinizi Taklit Ediyor

23.05.2023
0
A+
A-

Yapay zeka hayatımıza büyük bir hızla giriyor. DALL-E insan gibi resim yapabiliyor, ChatGPT (Daha önceki ChatGPT yazımı okumak için tıklayın) insan gibi yazıyor, son olarak da VALL-E insan gibi konuşuyor. Sadece 3 saniyelik bir insan sesiyle o insanın sesini taklit edebiliyor. Tüm bu yapay zeka teknolojileri benim gibi sizi de mi korkuttu? Peki bu teknolojiler karşısında insanlık tamamen savunmasız mı? Cevaplara geçmeden önce VALL-E’yi tanımakta fayda var.

Microsoft, “Neural codec language model – nöral kodek dil modeli” olarak tanımladığı bu sistemde Meta’nın 2022 Ekim’inde anons ettiği EnCodec teknolojisi kullanmış. Şimdiye kadar bilinen text-to-speech yani yazıyı sese dönüştüren sistemler bunu ses dalgalarını manipüle ederek yapıyordu. VALL-E ise insan sesini analiz ederek işe başlıyor. Bu bilgiyi EnCodec yardımıyla birbirinden ayrı “token” adı verilen minik komponentlere dönüştürüyor. Yapay zeka ise işin bu kısmından sonra devreye giriyor. 3 saniyelik bir insan sesinden 3 dakikalık bir konuşma yapabilmek için makine öğrenmesi yoluyla yeni yazdığınız cümlelerin nasıl okunabileceğini tahmin etmeye çalışıyor. VALL-E’yi ne kadar çok bilgiyle eğitirseniz bu tahmin o kadar isabetli oluyor.

VALL-E’yi eğitecek derecede zengin insan seslerini halka açık bir sesli kitap kütüphanesi olan LibriVox’tan elde etmişler. LibriVox’ta gönüllüler tarafından seslendirilen kitapların büyük bir arşivi var. Bu arşivin erişimi herkese açık. İngilizce bilen herkes bu kitapları dinleyebilir.

MetaAI halka açık bu kütüphanedeki sesleri veri setlerine çevirmiş. 7.000’den fazla kişinin okuduğu 60.000 saatlik bir dijital kütüphane oluşturulmuş. VALL-E kendini bu veri setiyle eğitmiş. Az önce de söylediğim gibi geleneksel text-to-speech metodlarından farklı bir şekilde çalışıyor. Sisteme sadece yazı vermeniz yeterli olmuyor. İnsan sesinden bir örnek de girmek gerekiyor. Burada çarpıcı olan şey sadece 3 saniyelik bir ses örneğinin yeterli olması. Bu ses kaydı ve yazılan yazının fenom çevrimi “nöral kodek dil modeli”ne gönderiliyor. Ve ardından kişiselleştirilmiş konuşma sentezleniyor.

Bazı konuşmalar çok inandırıcı. Bazılarıysa bir bilgisayar tarafından sentezlendiğini belli ediyor. Yani o kadar da ikna edici bir seviyeye henüz gelememiş. Modelin ilginç özelliklerinden biri de örneklendiği sesin kaydedildiği ortamı bile taklit edebilmesi. Örneğin bir telefon görüşmesinden 3 saniyelik kaydı dinlerse, sentezlediği cümle de sanki bir telefondaymış gibi olabiliyor.

VALL-E’nin en etkileyici özelliği ise konuşma şeklini çeşitlendirebilmesi. Konuşma şekli doğuştan gelen bir özellik değil. Karakterimizin bir parçası. VALL-E 3 saniyelik bir sesten farklı konuşma karakterleri de sentezleyebiliyor.

Tüm bunları dinlerken korkmuyor değilim. Hem kokuyor hem de endişeleniyorum. Bu endişeleri zaten sadece ben değil VALL-E’yi geliştiren araştırmacılar da yaşıyor. Zaten o yüzden modeli geliştiren araştırmacılar şöyle bir açıklama yapma ihtiyacı hissetmişler.

“VALL-E, konuşmacı kimliğini oluşturan konuşma şeklini sentezleyebildiğinden, ses tanımlamasını veya bir kişiyi taklit etmek gibi modelin kötüye kullanılmasına dair potansiyel riskler taşıyabilir. Bu tür riskleri azaltmak için, bir ses klibinin VALL-E tarafından sentezlenip sentezlenmediğini ayırt edecek bir algılama modeli oluşturmak mümkündür.”

Evet böyle bir çözüm mümkün. Çünkü ChatGPT geliştiricileri bu çözümü üretti. ChatGPT’nin yazdığı yazılarının arkasına çıplak gözle görülmeyen fligram yerleştireceklerini açıkladılar. Böylece bilgisayar sistemleri yazıyı ChatGPT’nin yazdığını anlayabilecek. Buna benzer çözümler üretmek mümkün. Hatta zorunluluk. Bu zorunluluk da bu yapay zekayı geliştirenelere ait. Eğer böyle sistemeleri geliştirip bizim güvenliğimizi riske atıyorlarsa bu riski engellemek de onların görevi.

Tüm bu gelişmelerden sonra günlük hayatımızda artık gördüğümüz ve duyduğumuz şeylere inanmamalıyız. Çünkü hepsi yapay zekanın bir ürünü, bir kandırmacası olabilir.

 

Yazarın Diğer Yazıları
Yorumlar

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.