La maggior parte delle dashboard di AI Visibility che girano sul mercato mostrano numeri precisi su misurazioni intrinsecamente rumorose. È il modo più efficiente per produrre la sensazione di controllo manageriale senza produrre decisioni informate. Questo articolo separa le metriche che predicono davvero esito commerciale da quelle che sono solo vanity, basandosi sulle evidenze pubbliche disponibili nel 2026.
La tesi sottostante è semplice. Le risposte degli AI engine sono stocastiche, frammentate per engine e contestuali al singolo prompt. Qualsiasi metrica che ignora una di queste tre proprietà finisce per descrivere fenomeni che non esistono. Le metriche che funzionano accettano la natura del fenomeno e la rendono leggibile attraverso strumenti statistici classici.
Il problema della stocasticità
Il primo dato che chiunque pianifichi una strategia di AI Visibility deve interiorizzare arriva da Rand Fishkin di SparkToro. Lo studio su 2.961 prompt sottoposti a ChatGPT, Claude e Google AI Overviews ha trovato meno dell’1% di consistenza nella lista dei brand restituiti tra interrogazioni successive dello stesso prompt. La sovrapposizione esatta dell’ordine scende sotto lo 0,1%.
Questo dato chiude la discussione su una categoria intera di metriche. Qualsiasi tool che mostra “la tua posizione in AI” sotto forma di numero singolo sta descrivendo un’istantanea che cambia nella query successiva. Non è una misurazione, è un’aneddoto trattato come dato.
La conseguenza operativa è precisa. Una metrica di AI Visibility ha senso solo se è uno stimatore aggregato su molte run, non se è il risultato di una singola interrogazione. Il modo in cui un singolo prompt si comporta in un singolo momento è irrilevante. Il modo in cui un panel di prompt si comporta su decine di run rivela il segnale sotto al rumore.
La metrica che funziona: AI Visibility Index
L’AI Visibility Index (AVI) è la quota di risposte AI in cui un brand viene citato sul totale dei prompt valutati per una categoria. Tecnicamente è uno stimatore binomiale: percentuale di successi su tentativi, calcolata su un campione statisticamente significativo.
Tre proprietà rendono l’AVI superiore alle metriche alternative.
La prima è la replicabilità. Chiunque conosca il calcolo dell’intervallo di confidenza binomiale può ricostruire il margine di errore della misurazione. Wilson score e Clopper-Pearson sono i due metodi standard. Una misurazione AVI senza intervallo di confidenza dichiarato non è scientifica, è marketing.
La seconda è la comparabilità nel tempo. Un AVI di 0,34 calcolato a marzo è confrontabile con un AVI di 0,41 calcolato a maggio per la stessa categoria, anche quando il numero di prompt cambia. Lo stimatore binomiale ha questa proprietà nativa, mentre metriche proprietarie spesso no.
La terza è la comparabilità tra brand. Sulla stessa industry, lo stesso panel di prompt e lo stesso periodo, due brand possono essere ordinati per AVI in modo difendibile. È esattamente la base su cui Refinea Analysis costruisce le sue leaderboard pubbliche.
I tassi di citazione assoluti che il mercato osserva sono coerenti con questa lettura. Lo studio Semrush AI Mentions su un milione di query non-branded ha trovato che la quota di risposte AI contenenti almeno una menzione di brand varia significativamente tra engine: ChatGPT 26,07%, Perplexity 30,55%, Gemini 31,14%, Google AI Overviews 36,93%, ChatGPT Search 39,36%. L’AVI di un singolo brand vive dentro questi range, e il confronto tra brand è significativo solo a parità di engine e di panel.
Le tre metriche di supporto
L’AVI da solo non basta. Tre metriche aggiuntive completano il quadro operativo e ognuna risponde a una domanda diversa.
Citation source distribution
Sapere quali domini gli AI engine citano quando parlano della tua categoria vale più di sapere quante volte sei citato tu. La distribuzione delle fonti che il modello pesca per costruire la risposta è il vero piano editoriale del trimestre successivo. Se il 40% delle citazioni viene da quattro pubblicazioni di settore, sai dove investire risorse di PR. Se il 25% viene da subreddit specifici, sai dove costruire presenza community.
La distribuzione è anche il modo più onesto per stimare l’opportunità di crescita. Brand assenti dalle prime cinque fonti citate dalla loro categoria hanno un soffitto sull’AVI che nessuna ottimizzazione on-site può alzare.
Sentiment di menzione
Quando il brand viene citato, lo viene in positivo, neutro o negativo. Su questo punto serve un avvertimento: l’industria della GEO ha venduto “sentiment” come metrica chiave senza una sola ricerca peer-reviewed che lega sentiment di menzione AI a tasso di conversione commerciale. Il sentiment va misurato perché un brand citato in negativo è un brand in difficoltà, ma non va sovra-pesato. È un segnale qualitativo di diagnosi, non un numero da inseguire come KPI primario.
Frequenza nei top-citation slot
I dati pubblici sulla distribuzione delle citazioni in Google AI Overviews mostrano una concentrazione estrema. Un’analisi di mille AI Overviews ha trovato una media di 4,2 citazioni per risposta e che il top 1% dei domini cattura il 47% delle citazioni totali. Essere uno dei brand citati non basta. Essere uno dei pochi brand citati con consistenza è il vero obiettivo.
Le metriche che non servono
Tre categorie di metriche girano sul mercato e producono più rumore che segnale.
Il “ranking in AI”
Non esiste. Il dato Fishkin sulla variabilità inter-run lo dimostra. Qualsiasi dashboard che ti mostra “sei al posto 3 in AI per la query X” sta presentando una snapshot rumorosa come se fosse stabile. La metrica equivalente difendibile è l’AVI aggregato su un panel, non la posizione su un prompt singolo.
Il “share of mentions” tra prompt eterogenei
Aggregare la quota di menzioni tra prompt di intent diverso produce numeri che sembrano azionabili e che non descrivono nulla. Un brand con AVI 0,8 sui prompt di alta intenzione commerciale e 0,1 sui prompt informativi ha una situazione strategica precisa. Lo stesso brand presentato come “AVI medio 0,45” perde l’unica informazione che conterebbe.
Il “traffico AI” come unica metrica di outcome
Il traffico da referral AI verso il sito esiste ma è una frazione minima della superficie reale di esposizione. I dati Cloudflare di luglio 2025 mostrano rapporti tra crawl e referral molto squilibrati: Anthropic crawla 38.065 volte per ogni referral generato, OpenAI 1.091, Perplexity 195, Google 5,4. Il referral è l’eccezione, l’esposizione è la regola. Misurare solo i click che arrivano significa misurare la coda visibile di un fenomeno il cui corpo non passa mai da un click.
Il dato che ridimensiona la AI traffic obsession
Una credenza ricorrente nel marketing 2026 è che il traffico AI converta significativamente meglio del traffico organico tradizionale. La narrazione è cresciuta su vendor blog poco rigorosi che riportano moltiplicatori 4×, 10× o addirittura 23×.
Amsive ha pubblicato lo studio più solido sull’argomento. Su 54 siti analizzati per sei mesi via GA4, con test t accoppiati, il tasso di conversione organico è risultato 4,60% contro 4,87% LLM, con un p-value di 0,794. Statisticamente indistinguibili. Il traffico LLM rappresenta meno dell’1% delle sessioni totali.
La conclusione operativa è netta. Inseguire la AI Visibility per convertire il poco traffico AI che arriva direttamente è sub-ottimale. La AI Visibility va misurata e ottimizzata perché governa l’esposizione del brand all’interno della discovery AI-mediated, non perché produca una pipeline di referral di alto valore. Sono due cose diverse, e confondere le due porta a metriche che danno priorità alla cosa sbagliata.
L’impatto su SEO tradizionale come metrica di contesto
Quello che invece va misurato seriamente è l’impatto di AI Overviews sul CTR organico esistente. Ahrefs ha aggiornato il proprio studio a febbraio 2026 misurando 300.000 keyword nei dati Google Search Console. Il CTR della posizione 1 in presenza di AI Overview è sceso da 0,073 a 0,016 confrontando dicembre 2023 con dicembre 2025. È una riduzione del 78%, e su keyword commerciali può tradursi in perdite di traffico misurabili in centinaia di migliaia di euro per i brand più grandi.
Lo studio Seer Interactive su 53 brand e 5,47 milioni di query ha però mostrato una dinamica più complessa. Il CTR delle AI Overview stesse è cresciuto dall’1,3% di dicembre 2025 al 2,4% di febbraio 2026, suggerendo che gli utenti stanno imparando a navigare le citazioni invece di limitarsi a leggere il riassunto. Per un brand visibile in AI Overviews la dinamica è ambigua: perde click organici tradizionali ma può recuperarli attraverso le citazioni AIO. Per un brand non visibile, perde solo.
Il dato di contesto più ampio resta lo zero-click. Il 2024 Zero-Click Study di SparkToro su dati Datos ha trovato che su mille ricerche Google solo 374 generano un click verso l’open web nell’UE, e solo 360 negli Stati Uniti. La maggioranza assoluta delle ricerche si conclude senza traffico verso i siti.
La metodologia che rende le metriche attendibili
Quattro requisiti tecnici separano una misurazione AVI difendibile da una che assomiglia solo a una misurazione.
Dimensione del panel. Un panel di dieci prompt non è statisticamente significativo per stimare l’AVI di una categoria. Sotto i cinquanta prompt l’intervallo di confidenza è troppo ampio per essere azionabile. Refinea Analysis lavora su panel da centinaia di prompt per industry proprio per questa ragione.
Run multiple per prompt. La stocasticità delle risposte AI richiede che ogni prompt venga sottoposto al modello più volte. Tre run è il minimo difendibile, dieci è lo standard di ricerca peer-reviewed. Una run sola produce dati che sembrano puliti e che invece misurano l’aleatorietà del modello, non il comportamento sistematico.
Disaggregazione per engine. Aggregare l’AVI tra ChatGPT, Perplexity, Gemini, Claude e Google AI Overviews produce un numero medio che non descrive nessuno. Le tasso di mention varia tra engine come mostrato nello studio Semrush. La metrica va sempre presentata disaggregata.
Disaggregazione per intent cluster. I prompt di intent diverso producono dinamiche di citazione diverse. Un AVI aggregato tra prompt commerciali, prompt informativi e prompt comparativi è una media che oscura la diagnosi. Refinea suddivide i prompt in cluster di intent prima di calcolare l’AVI proprio per evitare questo collasso.
Cosa misurare a partire da lunedì
Per chi gestisce un brand B2B nel 2026, la dashboard minima difendibile contiene cinque numeri.
AVI cross-engine, disaggregato per ChatGPT, Perplexity, Gemini, Claude e Google AI Overviews. Calcolato su un panel di almeno cento prompt rappresentativi della categoria, con tre run minimo, con intervallo di confidenza dichiarato.
AVI cross-engine dei tre principali competitor. Stesso panel, stesso periodo, stesse run. È l’unico modo per dare contesto al proprio numero.
Distribuzione delle citation source. La lista delle dieci pubblicazioni, subreddit, pagine Wikipedia, profili LinkedIn più citati dagli engine quando rispondono ai prompt della categoria. Aggiornata mensilmente.
Sentiment delle menzioni. Distribuzione positivo/neutro/negativo sulle menzioni del brand. Non come KPI primario, come diagnosi qualitativa.
Trend del CTR organico in presenza di AI Overviews. Da Google Search Console, segmentato per keyword commerciali. Per misurare l’erosione potenziale sul traffico SEO esistente, che è una metrica di contesto necessaria.
Tutto il resto è opzionale. Refinea automatizza queste cinque metriche con la metodologia descritta nella guida operativa alla Generative Engine Optimization e nella pagina pubblica di Refinea Analysis. Il framework funziona anche manualmente, a patto di accettare la noia di sottoporre cento prompt a cinque engine tre volte al mese.
Le metriche che contano sono poche. Quelle che si vendono sono molte. La differenza è anche un test di qualità per il vendor con cui scegli di lavorare.
