Ocak 2026

LLM ile üretilen kodun kalitesi: 12 projede pratik bir çalışma

Yapay zeka insan gözetimi altında üretim kodu ürettiğinde verilerin test kapsamı, hata oranları ve sürdürülebilirlik hakkında ortaya koyduğu bulgular.

Yapay zeka tarafından üretilen kod hakkındaki tartışmaların büyük bölümü, kodun çalışıp çalışmadığına odaklanır. Bu yanlış sorudur. Üretim sistemleri açısından asıl soru, güvenilir şekilde çalışıp çalışmadığı, onu yazmayan mühendisler tarafından sürdürülüp sürdürülemeyeceği ve sürekli teslimatı mümkün kılan bir oranda hata üretip üretmediğidir.

Bu soruları görüşlerle değil, verilerle yanıtlamaya yola çıktık.

Metodoloji

Haziran 2025 ile Ocak 2026 arasında NOSOTA'nın yapay zeka orkestrasyon geliştirme metodolojisi kullanılarak teslim edilen 12 üretim projesini analiz ettik. Her proje, yapılandırılmış briefler ve insan denetimi altında yapay zeka ajanlarının üretim kodunun büyük bölümünü ürettiği, orkestratör rolündeki bir ila üç kıdemli mühendis tarafından inşa edildi.

Projeler kurumsal backend'leri, çapraz platform mobil uygulamaları, web portallarını ve ML entegreli sistemleri kapsamaktadır. Toplam olarak 200.000'den fazla satır kodu, 1.400'den fazla otomatik testi ve 350'den fazla REST API endpoint'ini temsil etmektedirler. Her metrik Git geçmişi, CI/CD logları ve sorun takipçilerine kadar izlenebilir.

Üç boyutu ölçtük: test kapsamı (CI tarafından raporlanan satır ve dal kapsamı), hata yoğunluğu (dağıtım sonrası ilk 90 günde bin satır kod başına hata) ve sürdürülebilirlik (kod tabanına aşina olmayan bir mühendisin önemsiz olmayan bir değişikliği uygulaması için gereken süre).

Bulgu 1: Test kapsamı sektör kriterlerini aşıyor

12 projede medyan satır kapsamı %78 olup, üç proje %85'i aştı. Dal kapsamı — daha katı bir metrik — ortalama %64 oldu. Karşılaştırma için, sektör anketleri kurumsal kod tabanları için ortalama satır kapsamını tutarlı şekilde %40 ile %60 arasında raporlamaktadır.

Açıklama yapısal niteliktedir, kahramanlıkla ilgisi yoktur. Yapay zeka ajanları, uygun kapsamda bir brief verildiğinde standart çıktılarının bir parçası olarak testler üretir. Bir test yazmanın maliyeti, ajan onu uygulamayla birlikte ürettiğinde sıfıra yaklaşır. Geleneksel iş akışlarında pahalı olan — kapsamlı test süitleri — yapay zeka orkestrasyon geliştirmenin doğal çıktısı haline gelir.

Kritik faktör brief kalitesidir. Orkestratörün her ajan briefinde açık kabul kriterlerini belirttiği projeler, test gereksinimlerinin örtük bırakıldığı projelere göre 15–20 yüzde puanı daha yüksek kapsam elde etti.

Bulgu 2: Hata yoğunluğu daha düşük, ancak bunun nedeni inceleme disiplini

12 projedeki medyan hata yoğunluğu, ilk 90 günde bin satır kod başına 0,8 hata oldu. Olgun ekipler için sektör kriteri tipik olarak KLOC başına 1–5 hatadır. İki proje ölçüm sürecinde sıfır üretim hatası elde etti.

Bu sonuç yapay zekanın mükemmel kod üretmesinden kaynaklanmıyor — üretmiyor. Verilerimizde, yapay zeka tarafından üretilen kodun yaklaşık %12'si birleştirme öncesi insan incelemesi sırasında değişiklik gerektirdi. Düşük hata oranı inceleme sürecinden kaynaklanmaktadır: yapay zeka çıktısının her satırı, kod tabanına girmeden önce kıdemli bir mühendisin değerlendirmesinden geçer. Yapay zeka üretim hızı ile insan inceleme titizliğinin birleşimi, hem hızlı yazılan hem de dikkatle denetlenen kod üretir.

Orkestratörün incelemeyi atladığı veya aceleye getirdiği projeler — Git meta verilerindeki daha kısa inceleme süreleriyle tanımlanabilir — 3–4 kat daha yüksek hata oranları gösterdi. Metodoloji, döngüdeki insan inceleme yetkisini ciddiye aldığında işe yarar.

Thandiwe NkosiAI Author