Przejdź do głównej zawartości

Twój data retriever

Tutaj stworzymy całą sekcję dotyczącą RAG.

Ale na początek, przeanalizujmy to, czego nauczyliśmy się podczas developmentu. Te wskazówki pomogą Ci w lepszym wykorzystaniu danych w naszej implementacji.

Tworzenie promptów

  • Bądź konkretny. Zastanów się, w jaki sposób formułujesz swoje pytanie. Spróbuj użyć słów kluczowych, aby uzyskać najlepsze wyniki.
  • Słowa kluczowe to słowa specyficzne dla firmy/dziedziny, które mogą zawęzić pole zainteresowania - ty najlepiej je znasz. Pobaw się trochę.
  • Nawet jeśli Twoje dane są w innym języku, zawsze możesz spróbować napisać zapytanie po angielsku. Czasami odpowiedzi są lepsze.
  • Nie oczekuj odpowiedzi jak z bazy danych od czatu. To tylko silnik podsumowujący. Przyjmuje najlepiej dopasowane dokumenty i miesza je w krótsze odpowiedzi.
    • Jeśli chcesz dokładnych odpowiedzi, powinieneś poczekać na nasz text to sql chat z database retrieval.
  • Nie pytaj o konkretne liczby i nie ufaj żadnej liczbie, którą widzisz. Przejrzyj plik referencyjny dla ostatecznej odpowiedzi.
  • I wreszcie, to nie jest czat. Nie pamięta Twoich poprzednich zapytań. Jest to spowodowane ograniczeniami długości kontekstu modelu - załadowane dokumenty bardzo szybko rosną. Ale to nic złego ;)

Wgranie nowych danych

Jeśli przekazałeś nam pewne początkowe dane, powinny być one już wgrane na Twoje konto. Można uzyskać do nich dostęp za pośrednictwem vector store index oraz jako raw files. Jednakże możliwe jest również wgranie większej ilości danych, które będą gotowe, gdy indexer zakończy swoje zadanie (interfejs będzie wyszarzony). Nowe dane będą dostępne dla wszystkich użytkowników na Twoim koncie.

Obsługiwane typy plików

  • PDF
  • CSV
  • JSON
  • TXT

How-to

Po prostu przeciągnij i upuść pliki do pola po lewej stronie.

Jak wgrać pliki

A następnie kliknij Send.
Po chwili (wskaźnik pracy w prawym górnym rogu) będziesz mógł pracować z nowymi plikami włączonymi do bazy wiedzy.

Konwersja XLS za pomocą Pandas

Jeśli chcesz wstawić pliki XLS, powinieneś je przekonwertować na CSV lub JSON. Obecne data loaders lepiej radzą sobie z JSON z powodu zachowanych nazw kolumn.

import pandas as pd

file_name = 'some_file.xlsx'
name_wo_extension = file_name.split('.')[0]

#Zapisz do CSV
pd.read_excel(file_name, header=0).to_csv(f'{name_wo_extension}.csv', index=False)

#Zapisz do JSON
pd.read_excel(file_name, header=0).to_json(f'{name_wo_extension}.json', index=False)

W przyszłych implementacjach będzie możliwa automatyczna konwersja plików XLS i XLSX.

Przygotowanie danych

Zawsze możesz spróbować wgrać dowolny rodzaj surowych danych, ale aby uzyskać najlepsze wyniki, powinieneś być w tej kwestii ostrożny.

Przykład

Jeśli Twoje dane to PDF, ale głównie tabele, powinieneś rozważyć konwersję tych tabel na pliki CSV, a nawet lepiej; JSON. - Auto parser jest w trakcie opracowywania.

Ponadto, jeśli Twoje pliki XLS nie są plikami przypominającymi bazę danych (wiersze i kolumny), powinieneś przemyśleć ich konwersję na PDF.

Znane problemy

Niektóre są rzeczywiste, a niektóre po prostu irytujące.

  • Język - nawet jeśli pytanie i kontekst są napisane po polsku, odpowiedź w 99% przypadków będzie w języku angielskim. Pracujemy nad tym, ale na razie nie mamy wystarczającej ilości danych w korpusie języka polskiego, aby dopasować model.
  • Znikający klucz API - jest to spowodowane technologią używaną w interfejsie front-endowym Streamlit. Nie widzimy dla niego przyszłości, więc traktujemy go tylko jako interfejs do szybkiego wdrożenia do testowania naszego back-endu.

Poproś o więcej

Jesteśmy na bieżąco z najnowszymi rozwiązaniami, zawsze opracowując lepsze wersje naszego oprogramowania. Jeśli nie podoba Ci się to, co widzisz, porozmawiaj z nami. Uwielbiamy Twoją opinię, ponieważ to jedyny sposób na poprawę.

Skontaktuj się z nami pod adresem ai@comtegra.pl