Deep Dive Snow­flake Intel­li­gence: Der Seman­tic Layer als Schlüssel



Der Hype um „Talk to your Data“ ist groß. Doch für Data Engi­neers und Archi­tek­ten stellt sich bei Gene­ra­tive AI im Unter­neh­mens­kon­text vor allem die Frage, wie Hal­lu­zi­na­tio­nen ver­hin­dert wer­den können.

„Talk to your Data“ selbst ist zwar nicht neu, jedoch war es in der Ver­gan­gen­heit sel­ten erfolg­reich. Ohne tie­fes Ver­ständ­nis des zugrun­de­lie­gen­den Daten­mo­dells und der Geschäfts­re­geln schei­tert es oft daran, kor­rekte Aggre­ga­tio­nen oder Joins zu bil­den. An die­ser Stelle setzt Snow­flake Intel­li­gence an und ver­sucht das Pro­blem mit­tels sei­nes eige­nen seman­ti­schen Layer zu lösen.

Snow­flake Intel­li­gence ver­knüpft drei Dienste mit­ein­an­der, die auf Snow­flake Cor­tex basie­ren. Je nach Art der Abfrage kom­men unter­schied­li­che Kom­po­nen­ten zum Einsatz:

  • Cor­tex Agent (Orchestra­tor): Fun­giert als „Gehirn“, wel­ches die Inten­tion des Users ver­ste­hen soll. Cor­tex Agent zer­legt kom­plexe Anfra­gen in Teil­auf­ga­ben und rou­tet sie an die pas­sen­den „Tools“.
  • Cor­tex Search (Unstruk­tu­rierte Daten): Nutzt eine hybride Suche (Vek­tor- und Key­word-Search) für Low-Latency-Retrie­val aus Doku­men­ten (PDFs, Wikis).
  • Cor­tex Analyst (Struk­tu­rierte Daten): Der Kern für SQL-Gene­rie­rung. Anders als gene­ri­sche Text-zu-SQL-Ansätze nutzt der Analyst keine bloße Schema-Ana­lyse, son­dern stützt sich auf ein seman­ti­sches Modell.

Der Seman­tic Layer: Map­ping von Schema zu Kontext

Hand aufs Herz: Das Haupt­pro­blem bei ‚Talk to your Data‘ ist meis­tens nicht die KI, son­dern das Daten­mo­dell. Woher soll ein LLM wis­sen, dass sich hin­ter dem kryp­ti­schen Kür­zel FCT_SLS die Umsatz­ta­belle ver­birgt? Oder, dass im Unter­neh­men ‚Churn‘ anders berech­net wird als es die Stan­dard-Defi­ni­tion im Lehr­buch her­gibt? Genau hier wird es bei „Talk to your Data“ oft unan­ge­nehm, wenn der CEO fal­sche Zah­len bekommt. Der Seman­tic Layer fun­giert hier als Dol­met­scher: Er über­setzt die interne ‚Daten-Hie­ro­gly­phen­schrift‘ in ver­ständ­li­che Busi­ness-Logik, bevor die KI über­haupt loslegt.

Wie das Map­ping funktioniert

Ange­nom­men, ein Busi­ness User fragt nach dem Gesamt­um­satz pro Kunde, um sich bei­spiels­weise auf einen anste­hen­den Sales Ter­min vor­zu­be­rei­ten. Ohne Seman­tic Layer müsste das Modell raten wie dies berech­net wird und woher es die Infor­ma­tio­nen erhal­ten kann. Mit dem Layer greift eine im Vor­feld defi­nierte Logik in Snow­flake Intelligence:

  1. Snow­flake Intel­li­gence extra­hiert die Infor­ma­tion, dass die Trans­ak­ti­ons­ta­belle FCT_SLS und die Kun­den­ta­belle CUST_DIM heißt.
  2. Im seman­ti­schen Modell ist defi­niert, dass „Reve­nue“ der Summe aus sales_amount ent­spricht und „Cus­to­mer“ über die CUST_ID ver­knüpft wird.
  3. Der Cor­tex Analyst nutzt diese Defi­ni­tio­nen, um deter­mi­nis­tisch den kor­rek­ten Code zu erzeugen:
SELECT
  SUM(FCT_SLS.sales_amount),
  CUST_DIM.CUST_ID
...
GROUP BY CUST_DIM.CUST_ID

Gover­nance und Vertrauen

Ins­be­son­dere im Bereich Gover­nance spielt Snow­flake Intel­li­gence seine Stär­ken aus. Das LLM erfin­det keine Metri­ken son­dern nutzt die im Seman­tic Model defi­nier­ten Berech­nun­gen. Dies schafft Ver­trauen in die berech­ne­ten KPIs. Sollte sich zu einem Zeit­punkt die Berech­nungs­lo­gik ändern, wie bei­spiels­weise die Marge des Unter­neh­mens defi­niert ist, so muss dies nur im seman­ti­schen Modell nach­ge­pflegt wer­den. Das Promp­ting des Users bleibt jedoch unver­än­dert. Auch Com­pli­ance-sei­tig kön­nen Nut­zer auf­at­men: Da das gesamte Pro­ces­sing inner­halb von Snow­flake läuft, ver­las­sen keine sen­si­blen Daten die Data Cloud.

Fazit: Keine Intel­li­gence ohne Semantik

Snow­flake Intel­li­gence zeigt deut­lich, dass der Erfolg von AI-Pro­jek­ten im Data Ware­housing nicht vom gewähl­ten LLM abhängt, son­dern von der Qua­li­tät der Meta­da­ten. Der Seman­tic Layer ist hier nicht nur ein „Fea­ture“, son­dern die kri­ti­sche Kom­po­nente, die aus einem Sprach­mo­dell einen ver­läss­li­chen Hel­fer macht. Dabei wer­den Ana­lys­ten nicht ersetzt, son­dern von der Last befreit, repe­ti­tive SQL-Abfra­gen für Stan­dard-Reports zu schrei­ben. Sie kön­nen sich statt­des­sen auf andere, wert­schöp­fende Auf­ga­ben kon­zen­trie­ren wie auf das Design robus­ter seman­ti­scher Modelle.

Wer seine Daten­stra­te­gie heute zukunfts­fä­hig machen will, muss Zeit in den Auf­bau sau­be­rer seman­ti­scher Modelle inves­tie­ren. Nur so wird aus „Talk to your Data“ eine echte Unter­hal­tung mit Mehrwert.

Inter­esse an der tech­ni­schen Imple­men­tie­rung? Als synvert unter­stüt­zen wir Sie beim Auf­bau der not­wen­di­gen Data Gover­nance und seman­ti­schen Modelle, um Snow­flake Intel­li­gence pro­duk­tiv zu nutzen.