Digitální architekti: Vektorové databáze a jejich využití s AI a LLM v podnicích

04.04.2024

Zeptali jsme se Pavla Košana, datového analytika a Marka Čecha, CEO a webového analytika společnosti Digitální architekti s.r.o. na využití vektorových databází a AI.

Vektorové databáze dostávají v posledních letech čím dál více pozornosti, zejména v kontextu jejich přirozené symbiózy s umělou inteligencí. Proto se v tomto článku podíváme na principy vektorových databází, jejich výhody a nevýhody a na konkrétní příklady jejich využití s AI v různých oblastech podnikání.

Tip redakce: Přečtěte si zajímavý článek Efektivnější rozhodování a prediktivní analýza díky AI

Jaký je princip fungování vektorových databází?

Vektor je seznam čísel, který reprezentuje vlastnosti daného objektu. Například vektorová reprezentace produktu v e-shopu by mohla obsahovat vlastnosti jako cena, barva, hmotnost a hodnocení zákazníků. Zajímavější jsou však vektorové reprezentace nestrukturovaných dat, jako jsou texty, obrázky, audia, videa apod. Tyto vektorové reprezentace (kterým se také říká vektorové embeddingy) v sobě kódují sémantické a obsahové vlastnosti. 

Tyto vektory se tvoří většinou pomocí dobře natrénovaných AI modelů. Sématická/obsahová podobnost dvou vektorů reprezentující dvě slova, dokumenty nebo třeba obrázky, se poté poznají na základě jejich vzájemné blízkosti ve vektorovém prostoru, který obývají. Jinými slovy, čím jsou si například dva obrázky podobnější, tím jsou si jejich vektory bližší.

A kde takové vektory ukládat? 

No přece ve vektorové databázi! Vektorová databáze je speciální typ databáze, která je určená pro speciální ukládání a indexování dat ve formě vektorů. Hlavní výhodou vektorových databází je jejich rychlost a efektivita při práci s velkými objemy dat. To je důležité pro aplikace AI a LLM (Large Language Model), které zpracovávají velké soubory textů, obrázků a dalších dat. Vektorové databáze také umožňují provádět komplexní dotazy na data, které by v relačních databázích byly obtížně proveditelné, ne-li nemožné.

Mohlo by vás zajímat: Rozhovor s Filipem Jaškem – AI Discovery Show a Artificial Intelligence (AI)

Jaká služba je mezi vašimi klienty nejoblíbenější?

Naší nejoblíbenější službou je budování dlouhodobé analytické vyspělosti našich klientů. U této služby pomáháme našim klientům sbírat a zpracovávat first party data a těžit z nich maximum. Obecně to znamená, že se staráme o sběr dat o zákaznících především z webů a aplikací našich klientů, ty následně ukládáme do datových skladů a zde je zpracováváme do podoby vhodné pro vizualizace a reporting.

Dle vyspělosti klienta buď přebíráme tento celý proces pod sebe a nebo konzultujeme s klientem jeho jednotlivé části. Pokud bych měl být konkrétní tak mezi top služby patří:

Zpět k databázím. Jaké je využití vektorových databází s AI a LLM ve firmě?

Vektorové databáze se v podnicích dají využít v řadě oblastí:

  • Doporučovací systémy: Vektorové databáze se používají k ukládání profilů uživatelů a produktů. AI a LLM pak tyto profily analyzují a doporučují uživatelům produkty, které by se jim mohly líbit.

  • Personalizace: Vektorové databáze se používají k ukládání informací o preferencích uživatelů. AI a LLM pak tyto informace využívají k personalizaci obsahu a služeb pro jednotlivé uživatele.

  • Vyhledávání: Vektorové databáze se používají k ukládání textových dokumentů a metadat. AI a LLM pak tyto data indexují a umožňují uživatelům provádět rychlé a efektivní vyhledávání.

  • Analýza sentimentu: Vektorové databáze se používají k ukládání textů a metadat recenzí produktů, sociálních médií a dalších dat. AI a LLM pak analyzují sentiment těchto dat a zjišťují, jak uživatelé vnímají produkty, služby a značky.

  • Detekce anomálií: Vektorové databáze se používají k ukládání dat o chování uživatelů, síťovém provozu a dalších dat. AI a LLM pak analyzují tato data a detekují anomálie, které mohou indikovat podvodné aktivity, bezpečnostní hrozby nebo technické problémy.

  • A mnoho dalších!

Velmi užitečnou aplikací vektorových databází je tzv. retrieval augmented generation (RAG). Jde o techniku, kdy propojíme vlastnosti vektorových databází a sílu velkých jazykových modelů. Díky vektorové databázi dokážeme udržet konverzaci s chatbotem "do nekonečna", aniž by začal halucinovat. Dokážeme jeho paměť rozšířit i o informace, které jsou mimo jeho trénovací data (např. protože vznikly až po jeho natrénování) nebo mu dokážeme poskytnout kompletní kontext celého našeho podniku, a zefektivnit tak jeho používání v našem podniku.

A jak toho docílit?

Představte si, že máte vektorovou databázi naplněnou všemi dokumenty vašeho podniku. Poté přijde váš nový zaměstnanec Bob a bude se chtít dozvědět určitá firemní pravidla. Zeptá se tedy chatbota "Jaká jsou naše firemní pravidla?"

Chatbot (třeba chatGPT) toto samozřejmě nemůže vědět, neboť tyto data nikdy neviděl. Vy však máte nad chatbotem postavenou aplikační vrstvu, která nejdříve Bobův požadavek převede do vektorové reprezentace, poté se dotáže vaší vektorové databáze. Ta jí vrátí k sémanticky nejrelevantnějších dokumentů k požadavku "Jaká jsou naše firemní pravidla?" a tyto dokumenty pošle i s Bobovým dotazem do chatbotu a tam, jelikož bude mít k dispozici dokumenty obsahující firemní pravidla bude schopen Bobovi odpovědět. Stejným způsobem můžeme chatbot přizpůsobit pro naše zákazníky.

Zmínili jste ChatGPT, takže se musím zeptat: Jak vám ve firmě pomáhá AI ke zvýšení efektivity?

AI používáme k efektivnější tvorbě obsahu, pro roleplayování a obecně funguje jako spolehlivý asistent. Dále AI používáme k rychlejšímu programování, kdy díky spolupráci s chatbotem dokážeme ušetřit jednotky času. Nemusíme tak brouzdat po netu a chatbot to jednoduše udělá za nás.

Zde vnímáme zrychlení práce o cca 25%. Například v situaci, kdy potřebujeme jednoduchý kód do Google Sheets či nějaký jednorázový skript, tak místo procházení návodů a diskusních fór je možné za pár vteřin získat stejný výsledek od AI asistenta.

Aktuálně pilotujeme i využití AI pro zpracování dat a průzkum datasetů, ale tyto procesy jsou zatím v plenkách.

Naplno pak využíváme možnosti, které nám nabízejí naše kolaborační nástroje. Například Vertex AI v Google Cloudu nám pomáhá s přípravou SQL dotazů a jejich pochopení u existujících projektů. 

AI použité v nástroji Caflou nám zase pomáhá vytvářet to-do listy k projektům nebo shrnout komunikaci nad úkolem či projektem. Tohle jsou obrovští pomocníčci, kteří šetří našim projekťákům cenné minuty až hodiny práce, které mohou pak věnovat do růstu našich klientů.

Mají vektorové databáze nějaké nevýhody? Můžete mi říci závěrečné shrnutí k tématu vektorových databází?

Ano, nejprve bychom uvedli výhody, mezi které patří:

  • rychlost a efektivita při práci s velkými objemy zejména nestrukturovaných dat,

  • možnost provádět komplexní dotazy na data,

  • snadná integrace s AI a LLM.

A jako nevýhody můžeme uvést ve stručnosti tyto dva body:

  • vyšší nároky na hardware,
  • nižší kompatibilita s existujícími nástroji a aplikacemi.

Závěrem můžeme potvrdit, že vektorové databáze představují inovativní a efektivní nástroj pro ukládání a dotazování dat, který se stává stále důležitějším v kontextu AI a LLM v podnicích. Díky své rychlosti, efektivitě a flexibilitě otevírají vektorové databáze dveře k novým možnostem v oblasti personalizace, doporučování, analýzy dat a dalších oblastí.

Při výběru vhodné databáze pro vaši firmu je důležité zvážit vaše specifické potřeby a požadavky. Vektorové databáze mohou být skvělou volbou pro firmy, které pracují s velkými objemy nestrukturovaných dat nebo chtějí využívat nejmodernější technologie AI a LLM.

Přestože jsou tu vektorové databáze už řadu let, až s příchodem AI a velkých jazykových modelů se ukazuje jejich nový potenciál. Naší vizí je v budoucnu tuto technologii zahrnout i k nám, Digitálním architektům, a umožnit tak nám i naším klientům maximálně zefektivnit procesy.

Co mají dělat firmy, které chtějí poradit, jak nakládat se svými daty? 

Kontaktujte nás prostřednictvím webu www.digitalniarchitekti.cz!

AI a velké jazykové modely jsou v dnešní době čím dál více využívanými technologiemi ve firmách a do budoucna se jejich využití bude stále více prohlubovat. My, digitální architekti, jsme si tohoto trendu vědomi a sami ve svých interních procesech umělou inteligenci využíváme. Do budoucna plánujeme využít i vektorových databází, abychom vytěžili co nejvíce potenciál AI.

Jak klientům pomáháte s tvorbou obsahu pro firemní web?

Pokud se budeme bavit o tvorbě obsahu, tak to, co jsme schopni nabídnout je velmi precizní vyhodnocení efektivnosti obsahu existujících stránek.

Tomuto procesu obecně říkáme měření tzv. engagementu s obsahem nebo dočtení článků. Je to už starší technika, ale málokdy ji vidíme v chodu u leadů, které auditujeme. 

Princip spočívá v tom, že dle počtu slov se na webu určí tzv. dlouhé a krátké články. U nich se pak pomocí postupů webové analytiky sleduje jejich dočtení, které je určené kombinací pozice na stránce tzv. scrollování a času, který uplynul od příchodu na stránku. 

Pokud články obsahují videa jsme schopni doplnit toto sledování i o přehrání a interakce s videí přímo na stránkách. Pokud je pak obsahový web zaměřený i na prodej reklamy je možné čtení článků navázat i na finanční přínosy.

Klienti u nás tedy nezískají inspirace na nové články, to přenecháváme SEO specialistům a linkbuilderům, ale pokud již nějaký obsah na webu mají, jsme schopni jim velmi detailně analyzovat kvalitu tohoto obsahu z pohledu uživatelů a doporučit například články k přepracování.

Mimo jiné je pro naše klienty často zajímavé monitorovat chybějící stránky či vyhledávací dotazy, které v blogu i na eshopu nevrátí žádné výsledky.

Děkuji za rozhovor

Dotazovaní specialisté: Pavel Košan, datový analytik ; Marek Čech, CEO a webový analytik
Otázky pokládal: Jan Vavřička, marketingový poradce a zakladatel portálu JsmeUspesni.cz
Autorem obrázku je Kristýna Bulíková

Kristýna Bulíková