İçindekiler
Büyük Dil Modelleri (LLM): Transformer Mimarisi ve Dikkat (Attention) Mekanizması
Transformer Mimarisi, 2017 yılında Google Brain araştırmacıları tarafından geliştirilen, doğal dil işleme (NLP) alanında devrim yaratan derin öğrenme modelidir. Önceki Ardışık Sinir Ağları (RNN) ve LSTM yapılarının aksine, veriyi sırayla değil paralel olarak işleyerek eğitim sürelerini radikal biçimde düşürür. Temelinde yer alan “Self-Attention” (Öz-Dikkat) mekanizması sayesinde, kelimeler arasındaki bağlamsal ilişkiyi mesafeden bağımsız olarak, matematiksel ağırlıklandırma yöntemleriyle analiz eder.
Giriş: Yapay Zekanın Dil Devrimi
Yapay zeka tarihinde bazı dönüm noktaları vardır ki, teknolojinin yönünü tamamen değiştirir. 2017 yılında Ashish Vaswani ve ekibi tarafından yayımlanan “Attention Is All You Need” makalesi, tam olarak böyle bir kırılma noktasıdır. Bu tarihe kadar Doğal Dil İşleme (NLP) alanına hakim olan Ardışık Sinir Ağları (RNN) ve Uzun Kısa Süreli Bellek (LSTM) mimarileri, veriyi kelime kelime, sırasıyla işlemek zorundaydı. Bu durum, uzun metinlerde bağlamın kaybolmasına ve eğitim süreçlerinin sürdürülemez derecede uzamasına neden oluyordu.
Transformer mimarisi, “tekrarlayan” (recurrent) yapıları tamamen terk ederek, yerine Dikkat (Attention) mekanizmasını koymuştur. Bu yapısal değişiklik, bugün kullandığımız GPT-4, Claude 3, Gemini gibi Büyük Dil Modellerinin (LLM) var olmasını sağlayan temel mühendislik başarısıdır. Bu makalede, modern yapay zekanın “motoru” sayılan Transformer mimarisini, nöron seviyesinden başlayarak en ince matematiksel detaylarına kadar inceleyeceğiz.
1. Büyük Dil Modellerinin (LLM) Temel Yapı Taşları
Büyük Dil Modelleri, milyarlarca parametreden oluşan, devasa veri setleri üzerinde eğitilmiş olasılık dağılım modelleridir. Ancak bir LLM’i sadece “çok veriyle eğitilmiş bir bot” olarak tanımlamak, arka plandaki mühendisliği hafife almak olur. Bir LLM’in başarısı, veriyi nasıl temsil ettiği (Representation) ve bu temsiller arasındaki ilişkiyi nasıl kurduğu ile ilgilidir.
1.1 Tokenizasyon ve Vektör Uzayı (Embeddings)
Bir yapay zeka modeli, kelimeleri insanlar gibi “harfler bütünü” olarak algılamaz. Metinler, işlenmeden önce Tokenizasyon işlemine tabi tutulur. Token, bir kelime, bir hece veya bir kelime parçası olabilir. Örneğin “Transformer” kelimesi tek bir token olabileceği gibi, “Trans-form-er” şeklinde üç tokena da bölünebilir.
Bu tokenlar daha sonra çok boyutlu bir vektör uzayına (Vector Space) yerleştirilir. Word Embedding (Kelime Gömme) adı verilen bu işlemde, anlamsal olarak birbirine yakın kelimeler, matematiksel uzayda da birbirine yakın koordinatlarda konumlanır.
- Örnek: “Kral” – “Erkek” + “Kadın” işleminin sonucu, vektör uzayında “Kraliçe” koordinatına denk gelir.
Transformer mimarisi, bu vektörleri statik olarak kullanmaz; her katmanda bağlama göre güncelleyerek dinamik bir anlam haritası çıkarır.

2. Transformer Mimarisi: Paralel İşlemenin Gücü
Klasik RNN modelleri, bir cümlenin sonundaki kelimeyi anlamak için baştaki kelimeyi “hatırlamak” zorundaydı. Cümle uzadıkça bu hafıza zayıflar (Vanishing Gradient Problem) ve işlem gücü darboğaza girerdi. Transformer mimarisi ise cümlenin tamamını aynı anda (paralel olarak) görür.
2.1 Kodlayıcı (Encoder) ve Çözücü (Decoder) Yapısı
Orijinal Transformer mimarisi iki ana bloktan oluşur:
- Encoder (Kodlayıcı): Girdi metnini alır, analiz eder ve zengin bir özellik temsili (feature representation) oluşturur. BERT (Bidirectional Encoder Representations from Transformers) gibi modeller sadece bu kısmı kullanır. Amacı “anlamak” ve sınıflandırmaktır.
- Decoder (Çözücü): Encoder’dan gelen bilgiyi kullanarak yeni bir çıktı (token) üretir. GPT (Generative Pre-trained Transformer) serisi modeller ağırlıklı olarak bu kısmı kullanır. Amacı “üretmek”tir.
Her bir Encoder ve Decoder bloğu, kendi içinde Feed-Forward Networks (İleri Beslemeli Ağlar) ve Self-Attention katmanları barındırır. Bu katmanlar arasında bilginin kaybolmadan akmasını sağlayan Residual Connections (Artık Bağlantılar) ve Layer Normalization teknikleri kullanılır.
2.2 Pozisyonel Kodlama (Positional Encoding)
Transformerlar veriyi paralel işlediği için, kelimelerin sırasını (zaman algısını) doğal olarak bilmezler. “Ali okula gitti” ile “Okula Ali gitti” cümlesi, pozisyon bilgisi olmadan model için aynı kelime kümesidir.
Bu sorunu çözmek için Sinusoidal Positional Encoding kullanılır. Her bir tokenın vektörüne, o tokenın cümledeki sırasını temsil eden sinüs ve kosinüs dalgalarından üretilmiş matematiksel bir imza eklenir. Böylece model, kelimenin sadece “ne” olduğunu değil, “nerede” olduğunu da bilir.
3. Dikkat Mekanizması (Attention Mechanism): “Nereye Bakmalıyım?”
Makalenin teknik kalbi burasıdır. Attention mekanizması, modelin her bir kelimeyi işlerken, cümlenin diğer hangi kısımlarına ne kadar odaklanması gerektiğini hesaplamasını sağlar.
İnsan okumasını simüle edersek: Bu cümleyi okurken gözünüz tüm kelimeleri aynı anda net görmez; “Attention” kelimesine odaklandığınızda, “mekanizması” kelimesi flu ama bağlamsal olarak oradadır. Transformer bunu matematiksel olarak yapar.
3.1 Sorgu (Query), Anahtar (Key) ve Değer (Value)
Self-Attention mekanizması, her token için üç farklı vektör üretir:
- Query (Q – Sorgu): “Ben ne arıyorum?” (Tokenın aradığı bilgi)
- Key (K – Anahtar): “Ben ne sunuyorum?” (Tokenın içerdiği bilginin etiketi)
- Value (V – Değer): “Benim içeriğim ne?” (Tokenın asıl bilgi değeri)
Bu kavramlar veritabanı yönetiminden ödünç alınmıştır. Bir token (Q), diğer tüm tokenların (K) ile eşleşmeye çalışır. Eşleşme ne kadar güçlüyse, o tokenın (V) içeriği o kadar fazla dikkate alınır.
3.2 Ölçeklenmiş Nokta Çarpım Dikkati (Scaled Dot-Product Attention)
Matematiksel formül şu şekildedir:
Bu formülün adım adım analizi şöyledir:
- $QK^T$ (Matris Çarpımı): Sorgu ve Anahtar vektörleri çarpılarak kelimeler arası benzerlik skoru hesaplanır.
- $sqrt{d_k}$ (Ölçekleme): Vektör boyutu büyüdükçe çarpım sonuçlarının patlamasını engellemek için, anahtar vektör boyutunun kareköküne bölünür.
- Softmax: Elde edilen skorlar 0 ile 1 arasında bir olasılık dağılımına dönüştürülür. Toplamları 1 olmalıdır. Bu, “dikkat ağırlığıdır”.
- $V$ ile Çarpım: Hesaplanan ağırlıklar, Değer vektörü ile çarpılır. Önemli kelimelerin değerleri korunur, önemsizlerin (örn: “ve”, “ile” gibi bağlaçların bazı durumlarda) etkisi sönümlenir.
3.3 Çok Başlı Dikkat (Multi-Head Attention)
Tek bir dikkat mekanizması, cümlenin sadece bir yönüne odaklanabilir (örneğin gramer yapısına). Ancak dil çok katmanlıdır; aynı anda hem gramere, hem anlama, hem de duygusal tona odaklanmak gerekir.
Multi-Head Attention, Q, K ve V matrislerini birden fazla alt uzaya böler. Örneğin GPT-3 modelinde 96 adet “Head” (Baş) bulunur.
- Baş: Kelimeler arası özne-yüklem ilişkisine bakar.
- Baş: Zamirlerin kime atıfta bulunduğunu inceler.
- Baş: Sıfat tamlamalarını analiz eder.
Sonuçta elde edilen tüm bu farklı bakış açıları (vektörler) birleştirilir (Concatenation) ve doğrusal bir katmandan geçirilerek zenginleştirilmiş tek bir çıktıya dönüştürülür.
4. Eğitim Süreci ve İnce Ayar (Fine-Tuning)
Transformer mimarisinin kurulumu tamamlandıktan sonra, modelin dili öğrenmesi için devasa bir eğitim süreci başlar. Bu süreç iki ana aşamadan oluşur:
4.1 Ön Eğitim (Pre-training)
Bu aşamada model, denetimsiz öğrenme (unsupervised learning) yöntemiyle milyarlarca sayfa metin okur. Amacı spesifik bir soruyu çözmek değil, istatistiksel olarak bir kelimeden sonra hangisinin geleceğini tahmin etmektir.
- Masked Language Modeling (MLM): BERT gibi modellerde kullanılır. Cümledeki bazı kelimeler gizlenir (maskelenir) ve modelden bu boşlukları doldurması istenir.
- Causal Language Modeling (CLM): GPT gibi modellerde kullanılır. Model, sadece kendinden önceki kelimeleri görerek bir sonraki kelimeyi tahmin etmeye çalışır.
Bu süreç, modelin dilin gramerini, mantığını, dünya bilgisini ve hatta belli düzeyde akıl yürütme yeteneklerini kazanmasını sağlar. Ancak bu aşamadaki bir model, kullanıcı talimatlarını yerine getirmekte zorlanabilir; sadece metin üretmeye odaklıdır.
4.2 İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme (RLHF)
ChatGPT gibi asistanların “sohbet edebilir” hale gelmesi bu aşamada gerçekleşir. Reinforcement Learning from Human Feedback (RLHF) tekniği ile:
- Modele bir soru sorulur ve birden fazla cevap üretmesi istenir.
- İnsan etiketleyiciler bu cevapları kaliteye göre sıralar.
- Bu sıralama verisiyle bir “Ödül Modeli” (Reward Model) eğitilir.
- LLM, bu ödül modelinden en yüksek puanı alacak şekilde kendini optimize eder (PPO – Proximal Policy Optimization).
Bu süreç, modelin sadece doğru değil, aynı zamanda güvenli, yardımsever ve yönlendirilebilir olmasını sağlar.
5. Endüstriyel Uygulamalar ve Gelecek Vizyonu
Transformer mimarisi sadece metin işlemekle sınırlı kalmamış, yapay zekanın diğer alanlarına da sıçramıştır.
- Vision Transformers (ViT): Görüntüleri 16×16 piksellik karelere bölerek (token gibi davranarak) resim sınıflandırma ve nesne tespiti yapar.
- Biyoinformatik: AlphaFold gibi sistemler, protein dizilimlerini bir “dil” gibi analiz ederek, proteinlerin 3 boyutlu katlanma yapılarını tahmin eder. Bu, ilaç geliştirmede devrim yaratmıştır.
- Kodlama Asistanları: GitHub Copilot gibi araçlar, kod bloklarını birer dil yapısı olarak algılayıp yazılımcılara gerçek zamanlı öneriler sunar.
5.1 Bağlam Penceresi (Context Window) Sorunu ve Çözümler
Standart Transformerların en büyük kısıtı, işleyebilecekleri metin uzunluğunun (Context Window) sınırlı olmasıdır. Attention mekanizmasının işlem yükü, girdi uzunluğunun karesiyle orantılı olarak artar ($O(N^2)$).
Ancak FlashAttention gibi donanım optimizasyonları ve Ring Attention gibi mimari yenilikler sayesinde, 1 milyon token (yaklaşık 700.000 kelime) işleyebilen modeller (örn: Gemini 1.5 Pro) mümkün hale gelmiştir. Bu, tüm bir kitabın veya geniş bir kod tabanının tek seferde modele verilebilmesi demektir.
Sonuç
Transformer mimarisi, yapay zeka tarihinde “Karanlık Çağ”dan “Rönesans”a geçişi temsil eder. 4 Kelimeleri sırasal bir zorunluluktan kurtarıp, hepsini aynı anda, ilişkisel bir uzayda işleyebilme yeteneği, makinelerin insan dilini anlama kapasitesini eşi görülmemiş bir seviyeye taşımıştır.
Encoder-Decoder yapısı, Attention mekanizmasının matematiksel zarafeti ve çok başlı işlem birimleri, bugün kullandığımız her modern AI aracının altında yatan motordur. Gelecek, bu mimarinin daha verimli, daha az enerji tüketen ve daha uzun bağlamları işleyebilen versiyonları üzerine inşa edilecektir. LunarLabs olarak biz de bu teknolojinin sadece tüketicisi değil, geliştiricisi ve anlatıcısı olma misyonunu sürdürüyoruz.
Sıkça Sorulan Sorular (SSS)
1. RNN ve LSTM ile Transformer arasındaki temel fark nedir?
RNN ve LSTM veriyi sırayla (kelime kelime) işlerken, Transformer mimarisi veriyi paralel olarak (tüm cümleyi aynı anda) işler. Bu, Transformer’ların çok daha hızlı eğitilmesini ve uzun mesafeli bağlam ilişkilerini (Attention mekanizması sayesinde) çok daha iyi kurmasını sağlar.
2. Attention (Dikkat) mekanizması neden bu kadar önemlidir?
Attention mekanizması, modelin bir kelimeyi işlerken cümlenin diğer hangi kısımlarının o kelimeyle ilişkili olduğunu dinamik olarak hesaplamasını sağlar. Örneğin “O, topu bankaya attı” cümlesinde “banka” kelimesinin finansal mı yoksa oturma bankı mı olduğunu, “attı” ve “top” kelimelerine odaklanarak (Attention) anlar.
3. Tokenizasyon işlemi LLM performansını nasıl etkiler?
Tokenizasyon, metni modelin anlayabileceği sayısal parçalara böler. Verimli bir tokenizasyon (örn: Byte-Pair Encoding), daha az token ile daha fazla anlam ifade edilmesini sağlar. Kötü tokenizasyon, modelin kelime köklerini ve eklerini yanlış ilişkilendirmesine ve bağlamı kaçırmasına neden olabilir.
Kaynaklar
- Vaswani, A., et al. (2017). Attention Is All You Need. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.
- Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Google AI Language.
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. OpenAI.
- LunarLabs Kurumsal İçerik ve SEO Yapılandırma Yönergesi V1.6



Bir yanıt yazın