Workspace
Akademi Eğitim Platformu Workspace Dökümanı
Workspace (Doküman Yönetimi) – Detaylandırılmış Versiyon (Yüksek Öncelik – RAG Temeli)
Bu modül, platformun "veri omurgası" olacak. Kullanıcılar kurum dosyalarını yükleyecek, organize edecek ve AI süreçleri buradan beslenecek.
-
Dosya Yükleme ve Organizasyon
- Desteklenen formatlar: PDF, DOCX, PPTX, TXT, MD, CSV (en azından ilk aşamada). Future: image/PNG/JPG için OCR desteği eklenebilir.
- Yükleme yöntemleri: Drag-and-drop, dosya seçici, URL'den çekme (örneğin web sayfası veya public link),
- Organizasyon: Klasör hiyerarşisi (nested folders), etiketleme (tags – multi-select), metadata ekleme (kategori, departman, yayın tarihi, gizlilik seviyesi).
- Bulk actions: Toplu taşıma, silme, etiketleme, paylaşma.
-
Arama Fonksiyonu (RAG İçin Kritik)
- Temel: Keyword + fuzzy search.
- Gelişmiş: Semantik arama (embedding tabanlı – "bu dosyada müşteri şikayetleri neler?" gibi doğal dil sorguları).
- Filtreleme: Dosya tipi, etiket, yükleyen kişi, tarih aralığı, klasör.
- Snippet gösterimi: Arama sonuçlarında ilgili paragrafı/highlight gösterimi
-
Erişim Kontrolleri ve Güvenlik
- Rol bazlı izinler: Owner (full), Editor (düzenle + versiyon), Viewer (sadece oku), Commenter.
- Kurum içi paylaşım: Link ile davet (expire date, password), grup/departman bazlı otomatik izin.
- Audit log: Kim ne zaman neyi görüntüledi/değiştirdi (GDPR için zorunlu).
- Veri şifreleme: At-rest (storage'da) ve in-transit. Hassas dosyalar için ekstra client-side encryption opsiyonel.
-
RAG Optimizasyonu (En Önemli Kısım – AI Kalitesini Belirleyen)
- Chunking Stratejileri (PDF ve eğitim içerikleri için kritik):
- Fixed-size (örneğin 500-1000 token): Basit, hızlı ama bağlam kaybı riski yüksek.
- Semantic / Meaningful chunking (önerilen): Başlıklara, paragraflara, section'lara göre böl (Unstructured.io, LlamaIndex veya LangChain ile). Eğitim belgelerinde bölüm başlıkları (Introduction, Case Study, Summary) doğal sınır olur.
- Recursive + Hierarchical: Önce büyük section'lar, sonra alt chunk'lar → metadata ile parent-child ilişkisi sakla (Weaviate/Pinecone'da hybrid search için ideal).
- Overlap: %10-20 overlap (örneğin 500 token chunk → 50-100 token overlap) → bağlam kaybını önler.
- PDF Özel: Sayfa bazlı chunking + table extraction (tabloyu ayrı chunk yap), Markdown'a dönüştürerek yapı koru.
- Adaptive Chunking: İçeriğe göre dinamik boyut (kısa paragraflar küçük chunk, uzun tablolar ayrı işleme).
- Embedding ve Indexing:
- Model:
- Vector DB: chromadb kullanılıyor ancak duruma göre değiştirilebişir.
- Hybrid Search: Keyword + vector → daha iyi retrieval (özellikle teknik terimler için).
- Preprocessing: Temizleme (header/footer kaldırma, duplicate kaldırma), summarization (uzun chunk'ları özetle).
- Re-chunking on update: Dosya değişince otomatik re-index (background job).
- Chunking Stratejileri (PDF ve eğitim içerikleri için kritik):
-
Google Drive / OneDrive Senkronizasyonu
- OAuth entegrasyonu: Kullanıcı hesabını bağla → seçili klasörleri otomatik sync.
- Yön: Tek yön (Drive → Ucca) veya çift yön (değişiklikleri her iki tarafa yansıt).
- Best practice: Delta sync (sadece değişen dosyalar), conflict resolution (en son versiyon kazanır veya manuel merge).
- Trigger: Zamanlanmış (her 15 dk/1 saat), webhook ile real-time (mümkünse).
- Limit: Büyük kurumlar için rate limiting ve quota yönetimi.
- Güvenlik: Sadece okuma izni ver, hassas dosyaları hariç tutma seçeneği.
-
Ek Özellikler Future
- Önizleme: PDF/DOCX için inline viewer (react-pdf veya Office Online benzeri).
- OCR desteği: Taralı PDF'ler için metin çıkarma.
- AI-assisted organization: Dosyaları otomatik etiketle/kategorize et
- Usage analytics: Hangi dosyalar en çok RAG'de kullanılıyor? (popüler chunk'lar).