Ripensare un Copilota per il Retail con Modelli Open Source

Scopri come un progetto universitario ha integrato modelli open source in un copilota per il retail, migliorando accessibilità e riducendo i costi.

Nel contesto del nostro progetto del terzo anno nel dipartimento di ingegneria elettronica dell’Imperial College di Londra, abbiamo sviluppato un framework completo per la creazione e il deployment di copiloti per il retail basati su intelligenza artificiale generativa. Questo è stato possibile grazie alla guida eccezionale di @Lee_Stott e @nitya, e utilizzando modelli all’avanguardia della piattaforma Hugging Face AI, integrati con l’infrastruttura di Microsoft Azure.

Il progetto Contoso Chat è stato progettato per essere adattabile a qualsiasi ambiente retail, semplicemente cambiando i dataset e collegando modelli di linguaggio adatti alla specifica applicazione. Un aspetto chiave è l’inclusione di nuove funzionalità che migliorano l’accessibilità della UI del copilota, tramite input/output audio.

Per aiutare nella selezione ottimale dei modelli, abbiamo valutato dettagliatamente le prestazioni di diversi modelli di linguaggio nell’inferenza e completamento delle chat. Abbiamo anche integrato nuove funzionalità per migliorare l’accessibilità, come l’input/output audio.

Obiettivi del Progetto

Gli obiettivi del progetto sono molteplici:

Integrazione di modelli Hugging Face nell’app Contoso Chat: Creare un framework per l’uso di modelli open-source di Hugging Face, sostituendo i costosi modelli OpenAI su Azure AI.
Migliorare l’esperienza dell’interfaccia utente: Introdurre una funzione di microfono per consentire agli utenti di vocalizzare i loro prompt e implementare una risposta vocale che trasmetta le risposte della chat agli utenti.
Valutazione: Test approfonditi per confermare il funzionamento del framework e una valutazione automatica delle prestazioni dei modelli sostitutivi per specifici task.

Architettura del Software

L’architettura software utilizza il modello di generazione aumentata dal recupero (RAG). Gli utenti possono inviare input tramite testo o audio, il quale viene elaborato da modelli di linguaggio e ricerca AI per generare risposte basate su database e cataloghi memorizzati.

Dettagli Tecnici

L’integrazione di Hugging Face richiede l’ottenimento di un token di accesso personale e la configurazione degli endpoint del modello su Hugging Face. Ciò consente di utilizzare modelli come Llama e la serie Phi, adattando il flusso di prompt per accettare questi nuovi nodi e connessioni. Lo script Python custom_embedding.py gestisce la query al modello di Hugging Face e riceve le risposte per embedding personalizzati.

Valutazione Automatica

La valutazione automatica seleziona i modelli più adatti tra oltre 700.000 modelli liberi su Hugging Face, calcolando una somma ponderata di metriche come la coerenza, consistenza, fluidità e rilevanza. Il sistema genera pagine HTML dinamiche che mostrano i risultati, facilitando l’analisi comparativa da parte degli sviluppatori.

Frontend

Il nuovo frontend migliora l’accessibilità con l’introduzione di funzioni di input e output audio, utilizzando React per la registrazione audio e modelli come Whisper per la trascrizione vocale e ElevenLabs per la sintesi vocale.

Risultati e Conclusioni

I risultati mostrano che GPT-3.5 sovrasta i modelli Meta Llama3 e Phi3 in tutte le metriche di valutazione. Tuttavia, c’è una bias evidente nel modello di valutazione. Il progetto ha permesso di ridurre i costi di sviluppo e migliorare l’accessibilità, offrendo raccomandazioni preziose per scegliere i modelli più adatti su Hugging Face.