Türkgün | Bilim Teknoloji | Yapay zeka en çok Reddit verilerine bakarak öğreniyor

Yapay zeka en çok Reddit verilerine bakarak öğreniyor

Aralarında ChatGPT'nin de yer aldığı büyük dil modelleri sorgulamalara cevap verirken en çok alıntıyı yüzde 40 ile Reddit sosyal medya platformundan yapıyor.

Aralarında ChatGPT'nin de yer aldığı büyük dil modelleri sorgulamalara cevap verirken en çok alıntıyı yüzde 40 ile Reddit sosyal medya platformundan yapıyor.

MUHABİR: Eylül Şahin

ChatGPT’nin hayatımıza girmesiyle birlikte adını sıkça duymaya başladığımız büyük dil modelleri (LLM), kısa sürede Gemini, DeepSeek, Llama ve Grok gibi rakip modellerin de ortaya çıkmasıyla gündelik yaşamın vazgeçilmez teknolojileri arasına girdi.

Bu modellerin sunduğu etkileyici yetenekler kadar, hangi veri kaynaklarıyla eğitildikleri de uzun süredir tartışma konusu olmaya devam ediyor.

Dil modellerinin en büyük veri kaynağı Reddit

Çevrim içi istatistik platformu Statista, yapay zeka modellerinin hangi internet sitelerinden en çok yararlandığını araştırdı. 2025 yılı başında yayımlanan verilere göre, büyük dil modellerinin cevap üretiminde en çok alıntı yaptığı kaynak yüzde 40,11 oranla Reddit oldu.

Uzmanlar, yapay zekanın Reddit’teki tartışma içeriklerini yoğun biçimde kullanmasının, modellerin yalnızca resmi bilgilerden değil, gerçek kullanıcıların doğal dildeki paylaşımlarından da öğrenmeyi önceliklendirdiğini gösterdiğini belirtiyor.

Wikipedia ikinci sırada

Araştırmada, Reddit’i yüzde 26,3 ile Wikipedia takip etti. Düzenlenmiş makalelerden oluşan Wikipedia, kullanıcıların doğrudan yazdığı yorumlardan oluşan Reddit içeriklerine kıyasla daha düşük oranda kullanılıyor.

Listede üçüncü sırada yüzde 23,5 ile YouTube, dördüncü sırada yüzde 23,2 ile Google, beşinci sırada ise yüzde 21 ile Yelp yer aldı. Onları Facebook (yüzde 19,9), Amazon (yüzde 18,7), Tripadvisor (yüzde 12,4), Mapbox (yüzde 11,2) ve OpenStreetMap (yüzde 11,2) izledi.

Google ve Reddit’ten veri anlaşması

Yapay zeka modellerinin gelişiminde veri paylaşımının önemi artarken, teknoloji devleri arasında bu alanda iş birlikleri de dikkat çekiyor.

Reuters’ın haberine göre, Google 2024 yılında Reddit ile bir veri lisans anlaşması imzaladı. Anlaşma kapsamında Google, yapay zekalarını Reddit verileriyle eğitme hakkı karşılığında platforma yıllık 60 milyon dolar ödeme yapacak.

Benzer şekilde OpenAI’nin de ChatGPT’nin eğitiminde kullanılmak üzere Reddit ile veri paylaşımı anlaşması yaptığı bildirildi.

Yorumlar
Yorumlar yükleniyor...
Daha fazla yorum yükle...