Advert
Advert

Bilimsel araştırma: Yapay zeka, bilmediğini itiraf etmektense yanlış cevap verme eğiliminde

Bilimsel araştırma: Yapay zeka, bilmediğini itiraf etmektense yanlış cevap verme eğiliminde
Advert
Yayınlama: 01.10.2024
1
A+
A-

Büyük Dil Modellerinde Hala Güvenilirlik Sorunu

Son araştırmalar gösteriyor ki, yeni büyük dil modelleri (LLM’ler) bir soruya doğru yanıt verme ihtimalinden yanlış yanıt verme ihtimali daha yüksek ve bu da onları daha az güvenilir kılıyor.

Test Edilen Modeller

İspanya’daki Universitat Politecnica de Valencia’dan araştırmacılar, BigScience’ın BLOOM, Meta’nın Llama ve OpenAI’nin GPT’sinin son sürümlerini matematik, fen ve coğrafya konularında binlerce soru sorarak test ettiler.

Doğruluk Sonuçları

Araştırmacılar, her modelin verdiği yanıtları doğru, yanlış veya kaçamak kategorilerine ayırdı. Her yeni modelle birlikte daha zorlu sorularda doğru yanıtların arttığı görüldü. Ancak aynı zamanda modeller, bir soruyu yanıtlayıp yanıtlayamayacakları konusunda daha az şeffaf hale geldi.

Yanlış Yanıtlar ve Kaçamak Cevaplar

Eski LLM modelleri, bir cevabı bulamadıklarında veya daha fazla bilgiye ihtiyaç duyduklarında bunu ifade ederlerken, yeni modeller tahmin etme ve hatta kolay sorulara bile yanlış cevaplar verme eğilimindeydi.

Temel Sorunları Çözmede Eksiklik

LLM’ler, veri setlerini anlayarak, tahmin yaparak ve bunlara dayalı yeni içerikler üreterek yapay zekayı kullanan algoritmalardır. Yeni modeller daha karmaşık sorunları daha iyi çözebilseler de, temel soruları yanıtlarken hala hatalar yapıyorlar.

Advert

OpenAI’nin GPT-4’ündeki Durum

OpenAI’nin GPT-4’ü de aynı modeli gösteriyor ve “kaçamak” cevaplar bir önceki model olan GPT-3.5’e göre önemli ölçüde azaldı. Ancak araştırmacılar, bunun daha yeni LLM’lerin kendi çalışma aralıkları dışında yanıt vermekten kaçınacağı beklentisiyle uyuşmadığını belirtti.

Sonuç

Araştırmacılar, teknoloji ölçeklendirilmiş olsa bile modellerde “belirgin bir gelişme olmadığı” sonucuna vardılar. Bu, yeni LLM’lerin bile temel soruları yanıtlamada hala güvenilebilir olmadıklarını gösteriyor.

Advert
Bir Yorum Yazın

Ziyaretçi Yorumları - 0 Yorum

Henüz yorum yapılmamış.