Home AI & Automazione WebMCP: il protocollo che rivoluziona gli agenti AI

WebMCP: il protocollo che rivoluziona gli agenti AI

0
33
WebMCP agenti AI protocollo Chrome per interazioni strutturate

Il WebMCP agenti AI rappresenta una svolta epocale nel modo in cui l’intelligenza artificiale interagisce con il web. Quando un agente AI visita un sito web, si comporta essenzialmente come un turista che non parla la lingua locale: deve indovinare quali pulsanti premere, analizzare HTML grezzo e consumare migliaia di token solo per individuare una barra di ricerca.

Grazie per avere letto questo articolo, non dimenticare di iscriverti al nostro feed!

Tuttavia, questa era potrebbe volgere al termine. All’inizio di questa settimana, il team di Google Chrome ha lanciato WebMCP (Web Model Context Protocol) come anteprima in Chrome 146 Canary. Inoltre, il protocollo è stato sviluppato congiuntamente da ingegneri di Google e Microsoft attraverso il gruppo di lavoro Web Machine Learning della W3C.

Perché gli agenti AI sono costosi e fragili sul web

WebMCP agenti AI protocollo Chrome per interazioni strutturate

Di conseguenza, i problemi di costo e affidabilità degli approcci attuali sono ben noti a chiunque li abbia implementati su larga scala. I due metodi dominanti — scraping visivo tramite screenshot e parsing del DOM — soffrono entrambi di inefficienze fondamentali che impattano direttamente sui budget aziendali.

Con gli approcci basati su screenshot, gli agenti passano immagini a modelli multimodali come Claude e Gemini, sperando che il modello identifichi non solo cosa appare sullo schermo, ma anche dove si trovano pulsanti, campi modulo ed elementi interattivi. Ogni immagine consuma migliaia di token e comporta latenze significative. Analogamente, con gli approcci basati sul DOM, gli agenti ingeriscono HTML e JavaScript grezzi — un linguaggio straniero pieno di tag, regole CSS e markup strutturale irrilevante per il compito specifico.

In entrambi i casi, l’agente sta traducendo tra ciò per cui il sito web è stato progettato (occhi umani) e ciò di cui il modello ha bisogno (dati strutturati sulle azioni disponibili). Pertanto, una semplice ricerca di prodotto che un umano completa in secondi può richiedere dozzine di interazioni sequenziali dell’agente, ognuna delle quali rappresenta una chiamata di inferenza che aggiunge latenza e costo.

Come funziona WebMCP agenti AI: due API complementari

WebMCP propone due API complementari che fungono da ponte tra siti web e agenti AI. In primo luogo, l’API Dichiarativa gestisce azioni standard definibili direttamente nei form HTML esistenti. Per le organizzazioni con form già ben strutturati in produzione, questo percorso richiede un lavoro aggiuntivo minimo.

In secondo luogo, l’API Imperativa gestisce interazioni più complesse e dinamiche che richiedono l’esecuzione di JavaScript. Attraverso la funzione registerTool(), un sito web può esporre funzioni come searchProducts(query, filters) o orderPrints(copies, page_size) con schemi di parametri completi e descrizioni in linguaggio naturale.

L’intuizione chiave è che una singola chiamata di tool attraverso WebMCP può sostituire quelle che sarebbero state dozzine di interazioni browser. Ad esempio, un sito e-commerce che registra un tool searchProducts permette all’agente di effettuare una chiamata di funzione strutturata e ricevere risultati JSON strutturati, piuttosto che far cliccare l’agente attraverso menu a tendina, scorrere risultati paginati e catturare screenshot di ogni pagina.

Il caso aziendale: riduzione dei costi e fine dello scraping fragile

Per i responsabili IT che valutano implementazioni di AI agentiche, WebMCP affronta simultaneamente tre punti critici persistenti. Innanzitutto, la riduzione dei costi è il beneficio più immediatamente quantificabile. Sostituendo sequenze di catture screenshot, chiamate di inferenza multimodale e parsing iterativo del DOM con singole chiamate di tool strutturate, le organizzazioni possono aspettarsi riduzioni significative nel consumo di token.

Inoltre, l’affidabilità migliora perché gli agenti non devono più indovinare la struttura della pagina. Quando un sito web pubblica esplicitamente un contratto di tool — “ecco le funzioni che supporto, ecco i loro parametri, ecco cosa restituiscono” — l’agente opera con certezza piuttosto che per inferenza.

Infine, la velocità di sviluppo accelera perché i team web possono sfruttare il loro JavaScript front-end esistente piuttosto che creare infrastrutture backend separate. La specifica sottolinea che qualsiasi attività che un utente può compiere attraverso l’interfaccia di una pagina può essere trasformata in un tool riutilizzando gran parte del codice JavaScript esistente della pagina.

Human-in-the-loop per design, non come ripensamento

Una decisione architettonica critica separa WebMCP dal paradigma degli agenti completamente autonomi che ha dominato i recenti titoli di giornale. Nello specifico, lo standard è esplicitamente progettato attorno a flussi di lavoro cooperativi con human-in-the-loop, non per automazione non supervisionata.

Secondo Khushal Sagar, staff software engineer per Chrome, la specifica WebMCP identifica tre pilastri che sostengono questa filosofia:

  • Contesto: tutti i dati di cui gli agenti hanno bisogno per comprendere cosa sta facendo l’utente, inclusi contenuti spesso non visibili sullo schermo
  • Capacità: azioni che l’agente può intraprendere per conto dell’utente, dal rispondere a domande al compilare moduli
  • Coordinamento: controllo del passaggio di consegne tra utente e agente quando l’agente incontra situazioni che non può risolvere autonomamente

Gli autori della specifica illustrano questo con uno scenario di shopping: un’utente di nome Maya chiede al suo assistente AI di aiutarla a trovare un vestito ecologico per un matrimonio. L’agente suggerisce fornitori, apre un browser su un sito di abbigliamento e scopre che la pagina espone tool WebMCP come getDresses() e showDresses(). Quando i criteri di Maya vanno oltre i filtri di base del sito, l’agente chiama quei tool per recuperare dati sui prodotti, usa il proprio ragionamento per filtrare per “appropriato per cocktail” e poi chiama showDresses() per aggiornare la pagina con solo i risultati rilevanti.

Non una sostituzione per MCP, ma un complemento

WebMCP non è una sostituzione per il Model Context Protocol di Anthropic, nonostante condivida una discendenza concettuale e parte del nome. Non segue la specifica JSON-RPC che MCP usa per la comunicazione client-server. Ciononostante, dove MCP opera come protocollo backend che connette piattaforme AI a fornitori di servizi attraverso server ospitati, WebMCP opera interamente lato client all’interno del browser.

La relazione è complementare. Un’azienda di viaggi potrebbe mantenere un server MCP backend per integrazioni API dirette con piattaforme AI come ChatGPT o Claude, implementando simultaneamente tool WebMCP sul suo sito web consumer-facing affinché gli agenti basati su browser possano interagire con il suo flusso di prenotazione nel contesto della sessione attiva di un utente. Per approfondire le strategie di integrazione AI, visita il nostro blog.

Cosa succederà: dalla flag allo standard

Attualmente, WebMCP è disponibile in Chrome 146 Canary dietro la flag “WebMCP for testing” su chrome://flags. Gli sviluppatori possono unirsi al Chrome Early Preview Program per accedere a documentazione e demo. Altri browser non hanno ancora annunciato tempistiche di implementazione, sebbene la co-autorship attiva di Microsoft della specifica suggerisca che il supporto Edge sia probabile.

Gli osservatori del settore si aspettano annunci formali dei browser entro metà-fine 2026, con Google Cloud Next e Google I/O come probabili sedi per annunci di rollout più ampi. In sintesi, la specifica sta passando dall’incubazione comunitaria all’interno della W3C a una bozza formale — un processo che storicamente richiede mesi ma segnala un serio impegno istituzionale.

In conclusione, il confronto tracciato da Sagar è istruttivo: WebMCP mira a diventare l’USB-C delle interazioni degli agenti AI con il web. Un’interfaccia singola e standardizzata in cui qualsiasi agente può inserirsi, sostituendo l’attuale groviglio di strategie di scraping su misura e script di automazione fragili.