Ana içeriğe geç

Workspace

Akademi Eğitim Platformu Workspace Dökümanı

Workspace (Doküman Yönetimi) – Detaylandırılmış Versiyon (Yüksek Öncelik – RAG Temeli)

Bu modül, platformun "veri omurgası" olacak. Kullanıcılar kurum dosyalarını yükleyecek, organize edecek ve AI süreçleri buradan beslenecek.

  • Dosya Yükleme ve Organizasyon

    • Desteklenen formatlar: PDF, DOCX, PPTX, TXT, MD, CSV (en azından ilk aşamada). Future: image/PNG/JPG için OCR desteği eklenebilir.
    • Yükleme yöntemleri: Drag-and-drop, dosya seçici, URL'den çekme (örneğin web sayfası veya public link),
    • Organizasyon: Klasör hiyerarşisi (nested folders), etiketleme (tags – multi-select), metadata ekleme (kategori, departman, yayın tarihi, gizlilik seviyesi).
    • Bulk actions: Toplu taşıma, silme, etiketleme, paylaşma.
  • Arama Fonksiyonu (RAG İçin Kritik)

    • Temel: Keyword + fuzzy search.
    • Gelişmiş: Semantik arama (embedding tabanlı – "bu dosyada müşteri şikayetleri neler?" gibi doğal dil sorguları).
    • Filtreleme: Dosya tipi, etiket, yükleyen kişi, tarih aralığı, klasör.
    • Snippet gösterimi: Arama sonuçlarında ilgili paragrafı/highlight gösterimi
  • Erişim Kontrolleri ve Güvenlik

    • Rol bazlı izinler: Owner (full), Editor (düzenle + versiyon), Viewer (sadece oku), Commenter.
    • Kurum içi paylaşım: Link ile davet (expire date, password), grup/departman bazlı otomatik izin.
    • Audit log: Kim ne zaman neyi görüntüledi/değiştirdi (GDPR için zorunlu).
    • Veri şifreleme: At-rest (storage'da) ve in-transit. Hassas dosyalar için ekstra client-side encryption opsiyonel.
  • RAG Optimizasyonu (En Önemli Kısım – AI Kalitesini Belirleyen)

    • Chunking Stratejileri (PDF ve eğitim içerikleri için kritik):
      • Fixed-size (örneğin 500-1000 token): Basit, hızlı ama bağlam kaybı riski yüksek.
      • Semantic / Meaningful chunking (önerilen): Başlıklara, paragraflara, section'lara göre böl (Unstructured.io, LlamaIndex veya LangChain ile). Eğitim belgelerinde bölüm başlıkları (Introduction, Case Study, Summary) doğal sınır olur.
      • Recursive + Hierarchical: Önce büyük section'lar, sonra alt chunk'lar → metadata ile parent-child ilişkisi sakla (Weaviate/Pinecone'da hybrid search için ideal).
      • Overlap: %10-20 overlap (örneğin 500 token chunk → 50-100 token overlap) → bağlam kaybını önler.
      • PDF Özel: Sayfa bazlı chunking + table extraction (tabloyu ayrı chunk yap), Markdown'a dönüştürerek yapı koru.
      • Adaptive Chunking: İçeriğe göre dinamik boyut (kısa paragraflar küçük chunk, uzun tablolar ayrı işleme).
    • Embedding ve Indexing:
      • Model:
      • Vector DB: chromadb kullanılıyor ancak duruma göre değiştirilebişir.
      • Hybrid Search: Keyword + vector → daha iyi retrieval (özellikle teknik terimler için).
    • Preprocessing: Temizleme (header/footer kaldırma, duplicate kaldırma), summarization (uzun chunk'ları özetle).
    • Re-chunking on update: Dosya değişince otomatik re-index (background job).
  • Google Drive / OneDrive Senkronizasyonu

    • OAuth entegrasyonu: Kullanıcı hesabını bağla → seçili klasörleri otomatik sync.
    • Yön: Tek yön (Drive → Ucca) veya çift yön (değişiklikleri her iki tarafa yansıt).
    • Best practice: Delta sync (sadece değişen dosyalar), conflict resolution (en son versiyon kazanır veya manuel merge).
    • Trigger: Zamanlanmış (her 15 dk/1 saat), webhook ile real-time (mümkünse).
    • Limit: Büyük kurumlar için rate limiting ve quota yönetimi.
    • Güvenlik: Sadece okuma izni ver, hassas dosyaları hariç tutma seçeneği.
  • Ek Özellikler Future

    • Önizleme: PDF/DOCX için inline viewer (react-pdf veya Office Online benzeri).
    • OCR desteği: Taralı PDF'ler için metin çıkarma.
    • AI-assisted organization: Dosyaları otomatik etiketle/kategorize et
    • Usage analytics: Hangi dosyalar en çok RAG'de kullanılıyor? (popüler chunk'lar).