Tutte le news
- Infra
[AINews] SpaceX is already a $28B/yr Neocloud
Secondo Latent Space: SpaceX avrebbe già un business di GPU rental da circa 28 miliardi di dollari l'anno, stimato dai conti di Jamin Ball, quasi il doppio del fatturato di CoreWeave. È una stima costruita su un terzo contratto (Reflection AI) sommato a quelli con Anthropic e Google, non un bilancio certificato. Quello che conta per chi costruisce non è il titolo da record, ma chi controlla la capacità di calcolo e a che prezzo: qui si parla di oltre 10 dollari l'ora per i Blackwell, una tariffa alta.
Leggi la fonte → - Sicurezza
Prompt Injection as Role Confusion
Secondo Simon Willison: un nuovo lavoro mostra che i modelli distinguono il testo privilegiato da quello non fidato più dallo stile che dal contenuto, tanto che riscrivere un attacco in forma meno riconoscibile fa crollare il tasso di successo dal 61% al 10%. Il problema non è un bug da chiudere con una patch, ma un limite strutturale di come i modelli percepiscono i ruoli. Finché non avranno una vera role perception, secondo gli autori la difesa dal prompt injection resta un gioco a rincorrere — da tenere a mente prima di mettere agenti in produzione su dati non fidati.
Leggi la fonte → - Sicurezza
Red-Teaming after Mythos — Zico Kolter & Matt Fredrikson, Gray Swan
Secondo Latent Space: in un'intervista Zico Kolter e Matt Fredrikson di Gray Swan sostengono che la sicurezza dell'AI non è cybersecurity con l'AI, ma una classe di vulnerabilità nuova che gli agenti introducono — dal prompt injection indiretto alla cosiddetta lethal trifecta di dati non fidati, dati privati ed esfiltrazione. La tesi è netta: modelli più grandi non diventano automaticamente più robusti. Resta da vedere sul campo quanto reggano gli strumenti che citano, ma il punto di fondo, trattare gli agenti come una superficie d'attacco a sé, è difficile da contestare.
Leggi la fonte → - Ricerca
MAS-PromptBench: When Does Prompt Optimization Improve Multi-Agent LLM Systems?
Secondo ArXiv: il benchmark MAS-PromptBench studia in modo sistematico quando l'ottimizzazione dei system prompt migliora davvero i sistemi multi-agente, variando task, workflow e dimensione del team. La conclusione onesta è che i guadagni esistono ma non sono garantiti: dipendono dalla configurazione, e lo spazio di ricerca cresce in modo esponenziale con il numero di agenti. La domanda utile non è se ottimizzare i prompt, ma quando conviene farlo.
Leggi la fonte → - Agent
EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
Secondo ArXiv: EnterpriseClawBench valuta agenti su 852 task ricostruiti da sessioni di lavoro reali, e la configurazione migliore (Codex con GPT-5.5) arriva solo a 0,663. Il messaggio per chi costruisce non è il punteggio in sé, ma l'invito a smettere di collassare tutto in un numero: vanno riportate insieme la coppia harness-modello, il costo, il tempo di esecuzione e la qualità dell'artefatto consegnato. Il dataset resta chiuso perché contiene contenuti aziendali interni, quindi il contributo riusabile è il protocollo, non i dati.
Leggi la fonte → - Dev tools
Amazon MSK now offers AI Agent Skills to help developers operate MSK efficiently and accelerate migrations to MSK
Secondo AWS: Amazon MSK offre ora delle AI Agent Skills che danno ad assistenti come Claude Code, Cursor e Kiro indicazioni aggiornate per gestire i cluster — troubleshooting, sizing, configurazione e migrazione da Kafka. L'idea non è sostituire chi conosce Kafka, ma impacchettare la conoscenza operativa in un percorso guidato dentro l'agente che già usi. Utile sulla carta; quanto valga davvero si vedrà su cluster reali, dove le scelte di sizing si pagano in bolletta.
Leggi la fonte → - Open source
GLM-5.2 is the step change for open agents
Secondo Interconnects: GLM-5.2 di Z.ai segnerebbe una soglia per gli agenti open-weight, con risultati che su alcune leaderboard reggono il confronto con i modelli di OpenAI e Anthropic. Vale la regola di sempre: non i benchmark del blog di lancio, ma la reazione dell'ecosistema dopo giorni d'uso reale, ed è lì che il consenso su GLM-5.2 si è consolidato. Restano pesi MIT scaricabili, e questo cambia il conto per chi vuole costruire agenti senza dipendere da un'API chiusa.
Leggi la fonte → - Modelli
PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters
Secondo Hugging Face Blog: PP-OCRv6 di PaddleOCR esce in tre taglie da 1,5M a 34,5M di parametri, con 50 lingue e metriche di detection e recognition in crescita sul benchmark interno. La notizia qui non è l'ennesimo modello gigante, ma il contrario: modelli OCR piccoli e specializzati restano più pratici dei VLM generalisti quando devi mettere testo strutturato in produzione a basso costo. Da tenere a mente che i numeri citati sono interni a PaddleOCR, utili come indicazione e non come verdetto.
Leggi la fonte → - Ricerca
NAIRR Science Program Reshapes Scientific Research, Powered by NVIDIA AI Infrastructure
Secondo NVIDIA AI Blog: il programma NAIRR della NSF ha sostenuto oltre 700 progetti di ricerca in due anni, con accesso dedicato a nodi DGX. È un articolo del fornitore, quindi la lettura va calibrata: il merito vero è dell'infrastruttura pubblica condivisa che dà a chi non ha budget l'accesso a compute serio, non del singolo marchio di GPU. La domanda aperta è cosa succede a quei progetti quando il pilota finisce e l'accesso torna a dipendere dai fondi.
Leggi la fonte → - Dev tools
From Materials Simulation to Experimental Astronomy, New NVIDIA AI Software Unlocks Scientific Discoveries
Secondo NVIDIA AI Blog: le nuove librerie CUDA-X per la scienza, DAQIRI, ALCHEMI e cuPhoton, promettono accelerazioni enormi, fino a un dichiarato 14.900x sul caricamento dei dati FITS dell'osservatorio Rubin. Numeri così vanno letti per quello che sono: confronti CPU contro GPU su una fase specifica della pipeline, non un fattore che si trasferisce all'intero lavoro scientifico. Il valore concreto non è il moltiplicatore da titolo, ma il fatto che dati prima scartati, come oltre il 99% delle collisioni di ATLAS al CERN, diventino analizzabili in tempo reale.
Leggi la fonte → - Infra
NVIDIA Vera CPU Opens the Way for Agentic Scientific AI at Los Alamos National Laboratory
Secondo NVIDIA AI Blog: i nuovi supercomputer di Los Alamos monteranno le CPU Vera, dichiarate 7x più veloci sui carichi dell'agente scientifico URSA rispetto all'attuale Crossroads x86. I numeri di confronto li mette il produttore, quindi vanno presi come dichiarati finché qualcuno fuori dal laboratorio non li replica. Quello che guarderei non è il picco di throughput, ma se gli agenti scientifici che formulano ipotesi ed eseguono simulazioni reggono in autonomia su problemi veri: l'hardware è la parte facile.
Leggi la fonte → - Infra
Eco Wave Power Turns Waves Into Watts With NVIDIA AI Infrastructure and Digital Twins
Secondo NVIDIA AI Blog: Eco Wave Power usa digital twin costruiti su Omniverse per simulare onde e strutture galleggianti e convertire il moto ondoso in elettricità. Il framing è corretto: la prossima fase dell'AI non è limitata solo dal compute, ma dall'energia che lo alimenta, ed è un vincolo concreto. Detto questo, è una startup del programma Inception su un blog di NVIDIA, e l'energia dalle onde è promettente da decenni ma finora ha sempre faticato a scalare oltre i progetti pilota.
Leggi la fonte → - Ricerca
Import AI 462: Superpersuasion; self-sustaining AI; paths to ASI
Secondo Import AI: uno studio di Oxford, Stanford e dell'AI Security Institute britannico, su quasi 19.000 conversazioni, trova i sistemi AI più persuasivi degli esperti umani, perfino di dibattitori d'élite incentivati con premi in denaro. Il dato regge per numerosità, e il meccanismo è chiaro: non un'AI più intelligente, ma una che dispiega più informazione più in fretta, tanto che vincolandola a tempi e lunghezza umani il vantaggio si annulla. Il punto da non perdere è che l'effetto si è visto anche su comportamenti reali, come donazioni vere a una raccolta fondi.
Leggi la fonte → - Community
Intelligenza artificiale tra imprese, lavoro e leadership. L’AI ci dà poteri enormi, ma sapremo governarli? Rudy Bandiera: «Se sopravviveremo a noi stessi per altri cent’anni, saremo dèi»
Secondo StartupItalia: nell'intervista ad AIStories, Rudy Bandiera ridimensiona il divario tra la narrazione dell'AI e la sua adozione reale, con l'immagine della colatura di alici, di cui una piccola parte arriva e il resto resta in superficie. È una lettura che condivido: aggiungere uno strumento senza ripensare processi e responsabilità non semplifica, stratifica la complessità su un altro piano. Il passaggio sul tempo liberato è quello che pesa di più, perché se l'efficienza diventa solo un modo più veloce per saturare le giornate, il guadagno è illusorio.
Leggi la fonte → - Agent
Sakana Fugu Ultra now available on AI Gateway
Secondo Vercel Changelog: Fugu Ultra di Sakana arriva su AI Gateway. Il punto interessante non è l'ennesimo modello di frontiera, ma il come: non un modello singolo, ma un coordinatore che instrada il lavoro su 1-3 agenti e ne ricombina le risposte. Il claim di capacità paragonabili a Mythos Preview e Fable 5 resta da verificare sui propri task, perché orchestrare più modelli ha un costo di latenza che sui benchmark non si vede.
Leggi la fonte → - Prodotto
Samsung Electronics brings ChatGPT and Codex to employees
Secondo OpenAI Blog: Samsung Electronics distribuisce ChatGPT Enterprise e Codex ai dipendenti nel mondo, presentato come uno dei più grandi rollout enterprise di OpenAI. Il comunicato racconta il deployment, non l'adozione: dare una licenza a tutti non equivale a integrarla nei processi, ed è proprio lì che la maggior parte dei rollout aziendali si arena. Numeri d'uso reali e impatto sul lavoro non ci sono, ed è la parte che conterebbe davvero.
Leggi la fonte → - Agent
The Agent Stack
Vercel presenta l'Agent Stack: AI SDK per parlare con qualsiasi modello, AI Gateway per instradare tra centinaia, Workflow SDK per esecuzioni durature e Sandbox per l'isolamento. Il valore non è il singolo pezzo, ma l'idea di trattare i token come una dipendenza di produzione con failover e tracciamento costi, come si è sempre fatto con la banda. La domanda aperta è quanta astrazione si paga in lock-in: cambiare modello con una stringa è comodo finché il gateway è quello di Vercel.
Leggi la fonte → - Agent
AgentCore harness in now generally available
Secondo AWS: l'harness gestito di Bedrock AgentCore è ora in disponibilità generale — definisci l'agente in configurazione (modello, tool, skill, istruzioni) e la piattaforma assembla il loop di orchestrazione, con stato, isolamento e memoria tra sessioni. La metafora è onesta: il modello è il cervello, l'harness è il corpo, ed è lì che i team passano la maggior parte del tempo. Il punto non è la demo da idea ad agente in minuti, ma il lock-in dell'orchestrazione: l'export va a codice Strands, con il Claude Agent SDK come target dichiarato ma non ancora disponibile.
Leggi la fonte → - Modelli
GLM-5.2: Built for Long-Horizon Tasks
Secondo Hugging Face (post di Z.ai): GLM-5.2 è costruito per task long-horizon, con contesto 1M dichiarato stabile e IndexShare che taglia i FLOPs per token di 2,9× a contesto pieno. I numeri citati sono interessanti — a 1% da Opus 4.8 su FrontierSWE, primo tra gli open su tre benchmark long-horizon — ma il punto vero non è il singolo benchmark, bensì se il milione di token regge su trajectory di coding reali e sporche, non sintetiche. Su SWE-Marathon ammettono ancora un 13% di gap da Opus 4.8: onesto, e utile a calibrare le aspettative.
Leggi la fonte → - Modelli
[AINews] GLM-5.2: the top Frontend Coding model in the world, IndexShare for Speculative Decoding
Secondo Latent Space: GLM-5.2 di Z.ai si piazza appena dietro Opus 4.8 come miglior modello di coding e davanti a tutti sul frontend, con 744B parametri e licenza MIT. Il dato che pesa non è il piazzamento sui leaderboard, ma che un open-weight arrivi così vicino alla frontiera chiusa con un modello più piccolo. Restano da vedere le disclosure tecniche — niente paper, solo una nota su un'evoluzione della sparse attention — e la tenuta su trajectory lunghe in produzione, non in eval.
Leggi la fonte → - Open source
Agentic Resource Discovery: Let agents search
Secondo Hugging Face: Agentic Resource Discovery (ARD) è una specifica aperta — una bozza, con Microsoft, Google e altri — per far cercare agli agent tool, skill e altri agent a runtime invece di precaricarli. Il problema che affronta è reale: il modello install-first non scala a migliaia di superfici, e riversare ogni descrizione nel contesto è limitato dal budget di token. Il valore non è l'ennesimo registry, ma lo spostamento della selezione fuori dal modello; resta da vedere se diventa uno standard adottato o l'ennesima spec con poche implementazioni.
Leggi la fonte → - Open source
Introducing eve, an open-source agent framework
Secondo Vercel: eve è un framework open-source per costruire agent, dove un agente è una cartella di file e la produzione (esecuzione durabile, sandbox, approvazioni human-in-the-loop, subagent, eval) arriva inclusa. L'approccio interessante non è l'astrazione in più, ma il filesystem-first: aggiungi un tool, una skill o un canale aggiungendo un file, senza boilerplate di registrazione. Da open-source il vantaggio è evitare il lock-in degli harness gestiti; resta da vedere quanto regge la durabilità fuori dall'infrastruttura Vercel, che è dove eve dà il meglio.
Leggi la fonte → - Sicurezza
Amazon Bedrock Guardrails announces a new API targeting agentic AI workflows
Secondo AWS: Bedrock Guardrails aggiunge InvokeGuardrailChecks, un'API senza risorse da gestire per applicare singoli controlli a ogni passo del loop di un agente, con punteggi di severità e confidenza. Il taglio giusto non è il guardrail unico calato sull'intera richiesta, ma il controllo per-step, dato che ogni passo di un agente ha un profilo di rischio diverso. Resta il punto di sempre: la detection di prompt injection è dichiarata, non risolta — utile come livello in più, non come garanzia.
Leggi la fonte → - Agent
Hands Free, AIs Forward: NVIDIA XR AI Brings Agents to AR Glasses
Secondo NVIDIA: XR AI entra in beta pubblica come libreria per costruire agent multimodali su occhiali AR e dispositivi XR, con percezione video/audio/sensori e orchestrazione via NeMo Agent Toolkit. La parte interessante non è l'agente che risponde, ma l'agente che percepisce e agisce nel flusso di lavoro fisico — Siemens lo sta provando in fabbrica, in contesto di ricerca. Tradotto: per ora sono pilot e ambienti controllati, non deployment su scala; la latenza bassa e la non-distrazione promesse vanno viste sul campo.
Leggi la fonte → - Dev tools
AWS Transform now supports model-to-model migration assessment for generative AI workloads
Secondo AWS: Transform ora assesta i workload genAI e genera un piano per migrare da OpenAI, Gemini o Anthropic verso Bedrock, con confronto costi e modifiche al codice pronte. Utile per chi vuole consolidare su AWS, ma vale leggere la promessa per quello che è: l'agente propone la migrazione, non garantisce che il comportamento del modello resti identico dopo lo swap. Lo strumento ottimizza il lock-in su un provider quanto i costi: utile tenerlo presente quando suggerisce le equivalenze Bedrock.
Leggi la fonte → - Ricerca
RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills
Secondo il paper su ArXiv (RubricsTree): la proposta è valutare gli health agent con oltre 100 rubriche booleane verificabili e un router che attiva solo quelle pertinenti per query, invece di affidarsi al solo LLM-as-a-judge. L'idea centrale non è sostituire il giudice, ma renderlo auditabile e allineato all'esperto, con guadagni dichiarati fino a circa il 66% su HealthBench per famiglie come Gemini, GPT e Qwen. È un lavoro accademico con benchmark interni: quel 66% è un numero da confermare con rerun indipendenti, non una garanzia clinica — ma la direzione, eval strutturata e versionabile, è quella giusta.
Leggi la fonte →
Nessuna news in questa categoria.