Potenziare le Capacità di GenAI Gateway in Azure API Management

Scopri le nuove politiche di Azure API Management per ottimizzare l’uso dei modelli linguistici. Approfondisci ora.

Nel mese di maggio 2024, è stata introdotta una significativa evoluzione delle capacità di GenAI Gateway, destinate a trasformare il modo in cui interagiamo con i modelli di intelligenza artificiale. Oggi, si presenta una nuova gamma di politiche progettate per supportare un numero maggiore di modelli linguistici di grandi dimensioni (LLM) attraverso l’API di inferenza di Azure AI. Con queste nuove funzionalità l’obiettivo è gradualmente ampliare la flessibilità e l’efficacia delle applicazioni intelligenti.

La API di inferenza di Azure AI permette di accedere in modo uniforme e coeso ai modelli disponibili nel catalogo di Azure AI. Questo significa che gli sviluppatori possono interagire con vari modelli senza necessità di modificare il codice sottostante, favorendo un’integrazione fluida e meno complessa.

Gestire i modelli linguistici di grandi dimensioni presenta sfide uniche, in particolare per quanto riguarda la gestione delle risorse di token. I costi e le performance delle applicazioni intelligenti che interagiscono con i medesimi modelli sono fortemente influenzati dal consumo di token. Pertanto, è cruciale implementare meccanismi robusti per monitorare e controllare l’utilizzo dei token. Le nuove politiche si propongono di affrontare queste difficoltà, fornendo una visione dettagliata e un controllo accurato sulle risorse di token, garantendo un utilizzo efficace dei modelli implementati in Azure AI Studio.

Politica Limite Token LLM

La politica di limite token LLM (in anteprima) consente di definire e applicare limiti di token durante le interazioni con i modelli disponibili tramite l’API di inferenza di Azure AI. Le sue caratteristiche principali includono:

Limiti Token Configurabili: Imposta i limiti di token per le richieste, consentendo un controllo efficace sui costi e sull’utilizzo delle risorse.
Prevenzione dell’Overuse: Blocca automaticamente le richieste che superano il limite di token, salvaguardando equità nell’uso e limitando i problemi legati al sovraccarico di richieste.
Integrazione Trasparente: Funziona senza soluzione di continuità con le applicazioni esistenti, senza richiedere cambiamenti nella configurazione delle stesse.

Per approfondire questa politica, puoi visitare il sito dedicato.

Politica Metriche Token Emit LLM

La politica di emissione metriche token LLM (in anteprima) fornisce metriche dettagliate sull’utilizzo dei token, favorendo una migliore gestione dei costi e fornendo intuizioni sull’uso dei modelli. I punti salienti includono:

Monitoraggio in Tempo Reale: Emissione di metriche in tempo reale per tenere sotto controllo il consumo di token.
Intuizioni Dettagliate: Fornisce informazioni sui modelli di utilizzo dei token e aiuta a identificare scenari di utilizzo elevato.
Gestione dei Costi: Permette di suddividere l’uso dei token secondo dimensioni personalizzate per attribuire i costi a team, dipartimenti o applicazioni specifiche.

Scopri ulteriori dettagli su questa politica sul sito dedicato.

Politica Cache Semantica LLM

La politica di caching semantico LLM (in anteprima) è progettata per ridurre la latenza e il consumo di token, memorizzando le risposte basate sul contenuto semantico delle richieste. Le caratteristiche principali comprendono:

Riduzione della Latenza: Memorizza le risposte per query frequentemente richieste, diminuendo i tempi di risposta.
Efficienza Migliorata: Ottimizza l’utilizzo delle risorse riducendo le inferenze ridondanti dei modelli.
Caching Basato sul Contenuto: Utilizza la similarità semantica per decidere quale risposta recuperare dalla cache.

Scopri di più su questa politica sul sito dedicato.

Il nostro impegno è quello di migliorare continuamente la piattaforma e fornire gli strumenti necessari per sfruttare appieno il potenziale dei modelli linguistici di grandi dimensioni. Rimanete sintonizzati, poiché implementeremo queste nuove politiche in tutte le regioni e annunceremo ulteriori aggiornamenti man mano che continueremo ad espandere le nostre capacità. È il momento di iniziare oggi stesso e portare lo sviluppo delle vostre applicazioni intelligenti a un livello superiore con Azure API Management.