ChatGPT’nin hayatımıza girmesiyle birlikte adını sıkça duymaya başladığımız büyük dil modelleri (LLM), kısa sürede Gemini, DeepSeek, Llama ve Grok gibi rakip modellerin de ortaya çıkmasıyla gündelik yaşamın vazgeçilmez teknolojileri arasına girdi.
Bu modellerin sunduğu etkileyici yetenekler kadar, hangi veri kaynaklarıyla eğitildikleri de uzun süredir tartışma konusu olmaya devam ediyor.
Dil modellerinin en büyük veri kaynağı Reddit
Çevrim içi istatistik platformu Statista, yapay zeka modellerinin hangi internet sitelerinden en çok yararlandığını araştırdı. 2025 yılı başında yayımlanan verilere göre, büyük dil modellerinin cevap üretiminde en çok alıntı yaptığı kaynak yüzde 40,11 oranla Reddit oldu.
Uzmanlar, yapay zekanın Reddit’teki tartışma içeriklerini yoğun biçimde kullanmasının, modellerin yalnızca resmi bilgilerden değil, gerçek kullanıcıların doğal dildeki paylaşımlarından da öğrenmeyi önceliklendirdiğini gösterdiğini belirtiyor.
Wikipedia ikinci sırada
Araştırmada, Reddit’i yüzde 26,3 ile Wikipedia takip etti. Düzenlenmiş makalelerden oluşan Wikipedia, kullanıcıların doğrudan yazdığı yorumlardan oluşan Reddit içeriklerine kıyasla daha düşük oranda kullanılıyor.
Listede üçüncü sırada yüzde 23,5 ile YouTube, dördüncü sırada yüzde 23,2 ile Google, beşinci sırada ise yüzde 21 ile Yelp yer aldı. Onları Facebook (yüzde 19,9), Amazon (yüzde 18,7), Tripadvisor (yüzde 12,4), Mapbox (yüzde 11,2) ve OpenStreetMap (yüzde 11,2) izledi.
Google ve Reddit’ten veri anlaşması
Yapay zeka modellerinin gelişiminde veri paylaşımının önemi artarken, teknoloji devleri arasında bu alanda iş birlikleri de dikkat çekiyor.
Reuters’ın haberine göre, Google 2024 yılında Reddit ile bir veri lisans anlaşması imzaladı. Anlaşma kapsamında Google, yapay zekalarını Reddit verileriyle eğitme hakkı karşılığında platforma yıllık 60 milyon dolar ödeme yapacak.
Benzer şekilde OpenAI’nin de ChatGPT’nin eğitiminde kullanılmak üzere Reddit ile veri paylaşımı anlaşması yaptığı bildirildi.