Összefoglaló
A Google 2026. május 19-én mutatta be a Gemini 3.5 Flash-t a Google I/O-n. A modell aznap általánosan elérhetővé vált. Ez nem szokásos „Flash” frissítés. A Google ezúttal azt üzeni, hogy a gyors, olcsó modell és az erős, agentic modell közötti választás már nem szükséges kompromisszum.
Tömören: 1M tokenes kontextusablak, 64–65K tokenes output limit, natív audio és videó input, dinamikusan skálázható thinking mód, kb. 289 token/sec mért sebesség, $1,50/$9,00 standard API ár per 1M token.
Az igazi tét azonban nem ezekben a számokban van. A Google az I/O-n nem egy modellt mutatott be, hanem egy teljes platformot: Antigravity 2.0, Managed Agents API, Interactions API, Gemini Spark, Daily Brief. Ennek a rendszernek a 3.5 Flash a motorja. A versenyhelyzet megértéséhez ezt a komplexitást nem lehet figyelmen kívül hagyni.
Élő reasoning tesztjeink (T1–T6, AI Studio, 2026. május 21.) megerősítik, hogy a modell logikai, matematikai és kontrafaktuális feladatokon megbízható teljesítményt nyújt, és képes saját korlátait technikai pontossággal azonosítani. Gyengébb pont: alulspecifikált feladatoknál inkább ad választ, mint jelzi a hiányosságot. Ez agentic környezetben bizony releváns kockázat.
Amit fenntartással kell kezelni: a benchmark számok túlnyomó többsége Google saját közlés, független reprodukció egyelőre korlátozott. Az agentic API-k (Managed Agents, Interactions API) preview státuszban vannak, és az Antigravity Agent jelenleg nem támogatja a function_calling, mcp, structured output és computer_use eszközöket. Production döntés előtt saját workload-teszt nélkülözhetetlen.
1. Google I/O 2026
Bejelentés
A Google I/O 2026 Keynote három dolgot emelt ki a Gemini 3.5 Flash kapcsán. Először: „frontier intelligence with action”, vagyis a modell nemcsak válaszol, hanem tervez, végrehajtja a tervet, és korrigál, ha valami rosszul sül el. Másodszor: az „Agentic Era” narratíva, amely szerint az egyszeri prompt-válasz interakció fokozatosan kiszorul, és a hosszabb, autonóm munkafolyamatok veszik át a helyét. Harmadszor, és ez a legfontosabb: a modell nem önállóan jelent meg, hanem egy teljesen összehangolt ökoszisztéma részeként: Search, Workspace, Antigravity, Android Studio, Enterprise Agent Platform.
Ez utóbbi azért lényeges, mert a Google versenyelőnye sosem volt pusztán modellminőség. Az I/O-n ismét megmutatta, miben más, mint az OpenAI vagy az Anthropic: az integráció mélységében. Amikor a 3.5 Flash bekerül a Google Search AI Mode-ba, és ott 900 millió felhasználó elé kerül, az egy más léptékű distribution előny, mint amit API-cégek versennyel megvásárolhatnak.
A Gemini 3.5 csomag belső felépítése
| Szint | Modell | Státusz (2026. május) |
|---|---|---|
| Gyors, agentic | Gemini 3.5 Flash | Általánosan elérhető (GA) |
| Frontier reasoning | Gemini 3.5 Pro | Várható: 2026 június (Google saját közlés, konkrét nap nélkül) |
| Fogyasztói default | Gemini app, Search AI Mode | Gemini 3.5 Flash alapú |
A Pro modellről egyelőre csak annyit közölt a Google, hogy „next month” érkezik, és belső tesztelés zajlik Vertex AI enterprise partnerekkel. A 2M tokenes kontextusablakról és a megerősített reasoning-ről keringő számok szivárgáson alapulnak; nem kezelendők tényként.
Forrás: Google I/O 2026 Keynote, Google Blog, Google AI Developers dokumentáció
2. Technikai specifikációk
Alapparaméterek
| Specifikáció | Érték |
|---|---|
| API model ID | gemini-3.5-flash |
| Belső verzió | 3.5-flash-05-2026 |
| Kontextusablak (input) | 1 048 576 token (1M) |
| Max output | 64K–65K token ¹ |
| Input modalitások | Szöveg, kép, audio, videó |
| Output modalitás | Szöveg |
| Thinking mód | Dinamikus; quality/cost/latency szint kontrollálható |
| Computer Use | Nem támogatott |
| Tudásbázis határdátuma | Nem megerősített hivatalos forrásban ² |
| Alapmodell | Gemini 3 Flash reasoning foundation |
| Sebesség | kb. 289 token/sec ³ |
¹ A Google AI Developers dokumentáció 65K-t, a DeepMind model card 64K-t ír. Azonos nagyságrend, eltérő kerekítés. Tervezésnél a konzervatívabb 64K-val számolj.
² Harmadik fél forrásokban 2026. január szerepel, de a Google hivatalos dokumentációjában ez nem jelenik meg.
³ A Google „4× más frontier modelleknél” gyorsabbként hivatkozik rá, de az összehasonlítási bázist nem részletezi teljesen.
Kritikus production korlátok
Az Antigravity Agent jelenleg preview státuszú, és ebben a fázisban nem támogatja a következőket: temperature, top_p, top_k, stop_sequences, max_output_tokens paraméterek; structured output; function_calling, mcp, google_maps, computer_use eszközök.
Ez nem apró részlet. Aki most agentic production rendszert épít a Managed Agents API-ra, annak ezekkel a hiányokkal komolyan kell számolnia. A preview státusz változhat, de a pontos időkeretet a Google nem közölte.
Forrás: Google AI Developers, Google DeepMind model card (2026. május)
3. Benchmark eredmények

Amit a Google közölt
Az alábbi eredmények kizárólag Google saját közlések (vendor self-report). Teljes, független reprodukció a jelentés készítésekor nem volt elérhető.
| Benchmark | Gemini 3.5 Flash | Mérési típus | Gaming-érzékenység |
|---|---|---|---|
| Terminal-Bench 2.1 | 76,2% | CLI/terminál, többlépéses sysadmin + kódolás | Közepes (környezetfüggő) |
| GDPval-AA | 1656 Elo | Valós agentic feladatok, Elo-alapú | Közepes (Elo skálázásra érzékeny) |
| MCP Atlas | 83,6% | Eszközhasználat megbízhatósága, kontextus-navigáció | Közepes |
| CharXiv Reasoning | 84,2% | Multimodális, diagram-alapú tudományos érvelés | Alacsony–közepes |
Az Elo mutató azt mutatja meg, hogy egy modell mennyire teljesít jól páros összehasonlításokban más modellekkel szemben. Minél magasabb a szám, annál jobb.
Ahol elmarad: Google saját adatai alapján
A 3.5 Flash nem vezet mindenhol. A Humanity’s Last Exam, az ARC-AGI-2 és a hosszú kontextusú visszakeresési tesztek területén a GPT-5.5 és a Claude Opus 4.7 megelőzi. Az Artificial Analysis Intelligence Index-en 5. helyen áll 55 ponttal, míg a GPT-5.5 60, a Claude Opus 4.7 57 pontot ér el ugyanott. Ez független mérés, nem vendor önértékelés.
Hogyan kell olvasni ezeket a számokat
A Terminal-Bench 2.1 és az MCP Atlas viszonylag friss benchmarkok, még nem volt idő széles körű, független reprodukcióra. A GDPval-AA Elo-rendszere elvileg jó ötlet (valódi agentic feladatok, nem feleletválasztós), de Elo-alapú értékelés mindig érzékeny a tesztelési környezet összetételére. A CharXiv a legjobban ellenőrzött a négy közül, de itt is eltérő verziók keringenek a forrásokban.
Az összképre lefordítva: a Flash agentic és kódolási feladatokban valószínűleg valóban erős, de a konkrét számokat production döntés előtt saját feladaton kell validálni.
Forrás: Google Blog, Google DeepMind Technical Report, Artificial Analysis Intelligence Index
4. Árazás

Fejlesztői API
A standard árak USD / 1M token alapon:
| Mód | Input | Output | Cached input | Storage cache | Ingyenes tier |
|---|---|---|---|---|---|
| Standard | $1,50 | $9,00 | $0,15 | $1,00/1M token/óra | igen |
| Batch / Flex | $0,75 | $4,50 | $0,075–$0,08 | $1,00/1M token/óra | nem |
| Priority | $2,70 | $16,20 | $0,27 | $1,00/1M token/óra | igen |
Két kiegészítő tétel: Google Search grounding és Google Maps grounding egyaránt 5 000 prompt/hó ingyenes keretet ad fizetős csomagban, azon felül $14/1 000 query. A Thinking tokenek az output árán számolnak.
Az árakat kontextusba kell helyezni. Ez nagyjából 3-szoros emelkedés a Gemini 3 Flash Preview-hoz és 6-szoros a 3.1 Flash-Lite-hoz képest. Aki a korábbi Flash-vonalra épített olcsó pipeline-okat, annak újra kell számolni. Ugyanakkor a jelenlegi mezőnyhöz mérve a 3.5 Flash árban olcsóbb a GPT-5.5-nél és a Claude Opus 4.7-nél, és kb. 25%-kal olcsóbb a korábbi Gemini 3.1 Pro-nál is.
Fogyasztói előfizetések
| Csomag | Ár/hó | Legfontosabb Gemini 3.5 Flash relevancia |
|---|---|---|
| Free | $0 | Gemini app + AI Studio alaphozzáférés; compute-alapú limit |
| Google AI Plus | Régiófüggő ¹ | Magasabb app limitek, Workspace integráció |
| Google AI Pro | kb. $19,99 | 4-szeres magasabb limit a Free-hez képest; Antigravity magasabb limitek |
| Google AI Ultra | $99,99 | 5-szörös magasabb limit a Pro-hoz képest; Gemini Spark; 20TB storage; YouTube Premium |
| Google AI Ultra 200 | $199,99 | 20-szoros magasabb limit a Pro-hoz képest; Project Genie hozzáférés |
¹ Az AI Plus pontos globális ára régiófüggő; egységes globális USD ár a hivatalos oldalakon nem volt azonosítható.
Egy figyelemre méltó változás: az AI Ultra ára $249,99-ről $99,99-re csökkent. Ez nem kis lépés. Nehéz elképzelni, hogy ez ne hatna az enterprise-on belüli AI-asszisztens adoptionra, különösen ott, ahol a Spark funkció válik relevánssá.
A Google fogyasztói csomagoknál compute-alapú limitrendszert alkalmaz: a prompt komplexitása, a modell, a funkció és a beszélgetéshossz mind számít. Ez kapacitástervezésnél megnehezíti a pontos előrejelzést.
Forrás: Google AI Developers Pricing, Google One / Gemini Subscriptions oldal (2026. május)
5. Versenytársak rövid összehasonlítása
| Dimenzió | Gemini 3.5 Flash | GPT-5.5 | Claude Opus 4.7 | Claude Sonnet 4.6 | DeepSeek V4 |
|---|---|---|---|---|---|
| Input ár / 1M | $1,50 | $5,00 | $5,00 | $3,00 | $0,435 (promo) |
| Output ár / 1M | $9,00 | $30,00 | $25,00 | $15,00 | $0,87 (promo) |
| Sebesség | kb. 289 t/s (Google közlés) | kb. 71 t/s | kb. 67 t/s | nincs publikus adat | szolgáltatófüggő |
| Reasoning | Thinking mód; HLE/ARC-AGI-2-n elmarad a GPT-5.5 és Opus mögött | Erős; HLE-n vezet | Erős; extended thinking | Erős; Opus alatt | Erős; alacsonyabb áron |
| Coding | Terminal-Bench 76,2% (vendor) | Erős (szám nem publikált) | Erős; SWE-bench területen kiemelkedő | Erős; Opus alatt | Erős; alacsony áron |
| Agentic képességek | Managed Agents + Antigravity; preview korlátokkal | OpenAI Agents SDK; érettebb | Extended thinking + tool use; érett | Tool use; érett | API + open weights |
| Kontextus méret | 1M token | 1,05M token | 1M token | 1M token | 1M token |
| Max output | 64K token | 128K token | nincs összesítve | nincs összesítve | 384K token |
| Tool use | igen (Antigravity-ban preview korlátok!) | igen | igen | igen | igen |
| Multimodalitás | Szöveg, kép, audio, videó (input) | Szöveg, kép, audio | Szöveg, kép | Szöveg, kép | Szöveg, kép |
| API érettség | GA (modell); agentic API-k preview | GA; érett | GA; érett | GA; érett | GA; érett |
| Geopolitikai kockázat | Google Cloud (US) | OpenAI (US) | Anthropic (US) | Anthropic (US) | DeepSeek (Kína) |
Sebességben a 3.5 Flash dominálja a mezőnyt: kb. 4-szeres előnye van a Claude Opusszal és a GPT-5.5-tel szemben. Árban az US-alapú frontier modellek között a legjobb ár/sebesség arányt kínálja. Ahol viszont az abszolút reasoning minőség számít (Humanity’s Last Exam, ARC-AGI-2), ott a GPT-5.5 és a Claude Opus 4.7 még előrébb jár.
A DeepSeek V4 promóciós áron ($0,435/$0,87) az ár-tengelyen teljesen más ligában játszik. Aki számára a tokenköltség az elsődleges szempont, és a kínai szolgáltató geopolitikai kockázata kezelhetőnek tűnik, annak érdemes azt is benchmarkolni.
Az output limit kérdése is döntési szempont lehet: a 3.5 Flash 64K-s outputja jóval kisebb, mint a DeepSeek V4 384K-s vagy a GPT-5.5 128K-s limitje. Hosszú generatív feladatoknál ez megjelenik.
Mikor melyiket válasszam?
| Use-case | Ajánlott választás | Indok |
|---|---|---|
| Google-stackben agentic/coding workflow | Gemini 3.5 Flash | Natív integráció, sebesség, ár |
| Maximális reasoning (HLE, ARC-AGI-2) | Claude Opus 4.7 / GPT-5.5 | Igazolt benchmark fölény |
| Legjobb ár-teljesítmény US-alapú frontier modell | Gemini 3.5 Flash | Sonnet-nél olcsóbb output, jobb sebesség |
| Legalacsonyabb tokenköltség | DeepSeek V4 Flash/Pro | Promóciós áron kiemelkedő; compliance értékelés szükséges |
| Claude Code / Anthropic stack | Claude Sonnet 4.6 / Opus 4.7 | Natív toolchain |
| Nagy output limit (128K+) | GPT-5.5 vagy DeepSeek V4 | 3.5 Flash 64K limitje itt szűk |
Forrás: OpenAI, Anthropic, DeepSeek hivatalos pricing; Artificial Analysis Intelligence Index
6. Fejlesztői ökoszisztéma
Antigravity 2.0
Az Antigravity 2.0 az I/O 2026 egyik legfontosabb fejlesztői bejelentése. Ez egy önálló desktop alkalmazás, amelyet agent-first fejlesztői platformként pozicionál a Google. Két nézetben működik: Editor (IDE-szerű felület agent-oldalsávval) és Manager (több párhuzamos ágens vezérlőközpontja). Támogatja a subagent-indítást, a párhuzamos task-futtatást és a komplex orchestrációt.
Egy figyelemre méltó adat: a Google szerint az Antigravity-n belül futó optimalizált Flash verzió 12-szeres sebességet ér el, szemben a publikus API által mért 4-szeressel. Ez belső architektúrális előnyre utal, de egyelőre csak Google saját közlés.
Az Antigravity integrálódik az AI Studio-val, Android Studio-val, Firebase-zel és a Google Workspace-szel.
Forrás: Google Cloud Next ’26 Developer dokumentáció
Managed Agents API
Egyetlen API-hívásból teljes értékű ágens indítható: izolált, efemer Linux-konténerben fut, reasoning, tool use, kódfuttatás, fájlkezelés és webes hozzáférés támogatásával. Az állapot és a fájlok megmaradnak a hívások között (persistent state). Még preview státusz. Production deploymentnél ez kockázatot jelent.
Forrás: Google AI Developers dokumentáció
Interactions API
Szerver oldali history management (az OpenAI Responses API-hoz hasonló megközelítés), élő kétirányú streaming, audio és vizuális visszacsatolással. Béta státusz. A stabil, production-ready verzióra vonatkozó dátumot a Google nem adott meg.
Forrás: Google AI Developers dokumentáció
Antigravity CLI és a Gemini CLI kivezetése
A fogyasztói Gemini CLI és a Gemini Code Assist IDE extension 2026. június 18-tól megszűnik Free, AI Pro és Ultra felhasználóknál; ezeket Antigravity CLI váltja fel. Enterprise ügyfelek hozzáférése változatlan marad. Az érintett fejlesztői csapatoknak ez azonnali migrációs tervezési feladatot jelent.
Forrás: Google Developers Blog
CodeMender
A CodeMender egy AI agent kódbiztonsági hibák automatikus keresésére és javítására. Fontos pontosítás: nem a 3.5 Flash I/O 2026 bejelentéseként jelent meg. A Google DeepMind 2025 októberében mutatta be, „recent Gemini Deep Think models” alapján. A Google I/O 2026 kontextusában emlegetik, de a 3.5 Flash-szel való közvetlen integráció dokumentáltan nem igazolt.
Forrás: Google DeepMind Blog
Költségbecslés
| Feladatkategória | Input token | Output token | Tipikus költség (Standard) |
|---|---|---|---|
| Research & synthesis | 100K–500K | 10K–40K | $0,30–$1,00 |
| Document & content generation | 100K–500K | 15K–50K | $0,30–$1,30 |
| Process & system design | 100K–400K | 10K–30K | $0,25–$0,80 |
| Data processing & analysis | 300K–3M | 30K–150K | $0,70–$3,25 |
Ezek Google dokumentáció alapján számított becslések; valódi workload-on validálandók.
7. Változatok
Neural Expressive dizájn
A Gemini app teljesen új vizuális rendszert kapott: folyékony animációk, élénk színek, haptikus visszajelzés, átdolgozott tipográfia. A prompt mező pill alakúra változott; a Gemini Live beépült a főfelületre (korábban külön képernyőre nyílt). Elérhető: Android, iOS, Web.
Forrás: Gemini App Launch Press Kit
Daily Brief
Személyre szabott reggeli összefoglaló Gmail, Naptár és feladatok alapján. Priorizálja a fontosabb teendőket, és következő lépéseket javasol. Egyelőre Google AI Plus/Pro/Ultra előfizetőknek érhető el az USA-ban, rollout fázisban.
Forrás: Google Consumer Products Launch
Gemini Spark
A Spark a 24/7-es személyes ágens funkció, amely proaktívan kezeli a feladatokat emberi beavatkozás nélkül, és integrálja a Gmailt, Docs-ot és más Google-szolgáltatásokat. macOS appba is bekerül, azaz helyi gépen is működhet. A bejelentést követő héttől elérhető AI Ultra előfizetőknek.
Ez a prémium fogyasztói agentic élmény. Az AI Ultra $99,99-es árral most sokkal több felhasználó számára elérhető, mint korábban, $249,99-en.
Forrás: Google I/O 2026
Gemini Live: Videó streaming
A kamera kimenetét a modell folyamatosan elemzi és kommentálja, megszakítás nélkül. Szöveg és hang közötti váltás gördülékeny. Ez az I/O 2026 egyik legkézzel foghatóbb consumer újítása.
Forrás: Google I/O 2026, Gemini App Blog
Gemini Omni
Szöveg, kép és videó inputból videógenerálás és -szerkesztés. Fontos elkülöníteni: nem a 3.5 Flash képessége, hanem az I/O 2026 app-frissítés különálló eleme.
Forrás: Google I/O 2026
Disztribúció
A Gemini app havi aktív felhasználója 900M+ ember, 230 országban, 70+ nyelven. A 3.5 Flash lett az alapértelmezett modell ebben az appban és a Google Search AI Mode-ban is. Ez olyan distribution előny, amelyet API-alapú cégek nehezen tudnak megközelíteni.
8. Elérhetőség
| Felület | Státusz | Ingyenes hozzáférés | Megjegyzés |
|---|---|---|---|
| Gemini App | GA, alapértelmezett modell | igen (compute-limit) | Android, iOS, Web |
| Google Search AI Mode | GA, globális default | igen | 900M+ felhasználó |
| Gemini API / AI Studio | GA (gemini-3.5-flash) |
igen (napi 1500 kérés) | Regisztráció nélkül is |
| Google Antigravity 2.0 | GA | Előfizetés/API-szintű | Desktop app |
| Vertex AI | GA | Fizetős | Enterprise |
| Gemini Enterprise Agent Platform | GA / rolling out | Enterprise | Üzleti ügyfelek |
| Android Studio | Elérhető | Részletek termékfüggők | Fejlesztői |
| Antigravity Agent (Interactions API) | Preview | Pay-as-you-go | Preview korlátokkal |
| Managed Agents API | Preview | Pay-as-you-go | Preview korlátokkal |
| Computer Use | Nem támogatott | — | Nincs roadmap info |
Forrás: Google AI Developers, Google Cloud Blog, Google Workspace Admin közlemények
9. Stratégiai kilátások
Gemini 3.5 Pro és a közelgő mérföldkövek
| Esemény | Időkeret | Megjegyzés |
|---|---|---|
| Gemini 3.5 Pro rollout | 2026. június | Google: „next month” (2026. május 19-től számítva); pontos nap nincs |
| Antigravity / Managed Agents stabilizáció | Nincs pontos dátum | Preview státusz változhat |
| Gemini CLI consumer migráció Antigravity CLI-re | 2026. június 18. | Google Developers Blog konkrét dátumot adott |
| Gemini 3.5 Pro specifikációk | Nem megerősített | Szivárgáson alapuló becslések; ne tervezz rájuk |
Pozíció
A Google valódi előnye az I/O 2026 után a vertikálisan integrált stack: modell, runtime, sandbox, IDE, consumer app és enterprise platform egyszerre jelent meg. Ezt nehéz utánozni, mert nem csupán modellről van szó, hanem egy teljes fejlesztési és deployment lánc összehangolt frissítéséről.
A 900M+ felhasználós consumer-rollout szintén stratégiai pozíció, nem marketingszám. Ha a Spark és a Daily Brief a mindennapi használatban beválik, az agentic AI adoptionhoz az egyik legegyenesebb út a Google-ökoszisztémán belül.
Árban az US-alapú frontier modelleket megnézve a 3.5 Flash jelenleg a legjobb ár/sebesség kombinációt kínálja, főleg ha Batch/Flex módban futnak a pipeline-ok.
Hol van kihívás?
A benchmark transzparencia hiánya nem kozmetikai probléma. Amikor a piac nagy részét vendor self-report számok uralják, az független auditra szorul production döntés előtt. A Google maga is tudja ezt. Éppen ezért terjeszkedik az Antigravity, a Managed Agents és a Search integráció irányába: az ökoszisztémabezárás csökkenti a „kit válasszak” döntés súlyát.
A Computer Use hiánya érdemben korlátozza a desktop automation use-case-eket; Claude és mások itt előnnyel rendelkeznek.
Az áremelés a korábbi Flash-generációkhoz képest (6-szoros a Flash-Lite-hoz képest) is tényező: aki a 3.1-es vonalra épített cost-optimized pipeline-okat, annak újra kell számolnia.
A DeepSeek V4 promóciós tokenárai ellen a Google pusztán cost-alapon nem versenyezhet. A compliance kockázat és az ökoszisztéma-integráció hiánya azonban más mérlegre teszi a kínai modellt, különösen enterprise kontextusban.
10. Következtetések
Technikai döntéshozóknak
A Gemini 3.5 Flash modell-szinten production-ready (GA). Az agentic API-k (Managed Agents, Interactions API) preview/beta státuszban vannak, ezért production-kritikus deploymentre a jelenlegi korlátok mellett nem ajánlottak. Az 1M token kontextus és a 64K output kombináció valódi előny hosszú dokumentumfeldolgozásnál. A Computer Use hiánya funkcionális korlát desktop automation esetén.
AI startup alapítóknak és engineering csapatoknak
Google Cloud/Workspace/Search stack esetén a 3.5 Flash az elsőként tesztelendő option agentic és coding workflow-khoz. A Batch/Flex mód 50%-os árengedménye komolyan csökkenti az offline pipeline-ok tokenköltségét. Vendor self-report benchmark alapján production döntést hozni nem javasolt. Saját feladat-specifikus teszt kötelező.
Enterprise döntéshozóknak
Az Antigravity 2.0 és Managed Agents kombinációja a legkoherensebb Google agentic enterprise ajánlat eddig, de a preview státusz miatt 2026 Q3-ban érdemes újra értékelni. A Gemini CLI 2026. június 18-i kivezetése azonnali migrációs tervezési feladatot jelent az érintett csapatoknak. Az AI Ultra $99,99-es ár komoly lépés lefelé, és a workforce-on belüli AI-asszisztens adoption szempontjából releváns döntési pont.
Befektetőknek
A Google az I/O 2026-on platform-stratégiai konszolidációt hajtott végre, nem pusztán modellfrissítést. A Flash-vonal árpozicionálása agresszív, de DeepSeek V4 promóciós áraival szemben cost-alapon nem megnyerhető harc. A 900M+ consumer-rollout a Google egyedi versenyelőnye. A Spark és Daily Brief adoption adatai 2026 Q3–Q4-ben lesznek értékelhetők.
11. Élő tesztek: Reasoning értékelés
Tesztkörnyezet: Google AI Studio, modell: gemini-3.5-flash, Thinking: Medium (ahol eltérő, jelzem), 2026. május 21.
Módszertan: Hat különböző reasoning típust vizsgáltunk: paradoxon-felismerés, matematikai következtetés, feltételes dedukció, bizonyítás thinking móddal, kontrafaktuális láncolás, metakogníció. A promptok angolul futottak, a válaszokat változtatás nélkül közöljük.
T1: Logikai paradoxon felismerése
Prompt: In a small village, every man either shaves himself or is shaved by the village barber. The barber shaves exactly those men who do not shave themselves. Who shaves the barber?
Értékelés: Helyes. Russell-paradoxon megnevezve. Lateral thinking kivezetés is megjelent.
A modell azonnal felismerte a paradoxont, mindkét ágat szisztematikusan végigvezette, és önállóan megemlítette a halmazelmélethez való kapcsolatot. Ami kiemelkedő: spontán hozzátette a „lateral thinking” feloldást is: a borbély nő lehet, vagy más faluból való. Ezt a legtöbb modell kihagyja.
A modell válasza (részlet):
„Because both scenarios lead to a contradiction, the situation as described is logically impossible. The conclusion is that such a barber, or such a village, cannot exist under these exact rules. An alternative, lateral-thinking resolution sometimes proposed is that the barber is not a man from the village (for example, the barber could be a woman, or live in a different village), but within the strict logical framework of the premise, the scenario represents an unsolvable paradox.”
T2: Lépcsős matematikai következtetés
Prompt: A company’s revenue grows by 15% every year. In 2020, the revenue was 100 million HUF. In which year will it first exceed 200 million HUF? Show every calculation step explicitly.
Értékelés: Helyes eredmény (2025). Két módszer spontán. Minden közbülső lépés explicit.
A modell kért egy year-by-year levezetést, de spontán, kérés nélkül megadta a logaritmikus megoldást is, párhuzamosan mutatva a pontos és a kerekített értékeket. Ez nem tipikus viselkedés; a legtöbb modell az egyszerűbb utat választja.
A modell válasza (részlet):
„Method 2: Algebraic Solution (using Logarithms) — t > ln(2) / ln(1.15) — t > 0.69315 / 0.13976 — t > 4.96. Since t must be a whole number of years, we round up to t = 5. Adding 5 years to 2020: 2020 + 5 = 2025.”
T3: Többfeltételes térbeli dedukció
Prompt: Five people sit in a row. [4 constraint]. Who sits in the middle seat? Show all possible arrangements step by step.
Értékelés: Szisztematikus feltételfeldolgozás. A CBD blokk felépítése elegáns. A feladat alulspecifikált, két valid megoldás létezik.
A modell helyesen felépítette a CBD blokkot, végigment mind a három esetén, és minden constraint-ellenőrzést explicit módon elvégzett. A végeredmény („Dora vagy Béla”) technikailag helyes, de a modell nem mondta ki expliciten, hogy a feladatnak nincs egyetlen determinisztikus megoldása. Egy erősebb reasoning lépés lett volna ezt külön jelezni.
Tanulság: Alulspecifikált feladatokon a modell inkább ad választ, mintsem jelezné a hiányosságot. Ez agentic környezetben releváns kockázat.
T4: Thinking mód hatása
Prompt: Three incorrectly labeled boxes (apples / pears / mix). Draw one fruit. Determine all three boxes. Prove it always works.
Értékelés (Minimal thinking): Helyes stratégia. Mindkét eset végigvezetve. Összefoglaló táblázat spontán megjelent.
Értékelés (Medium thinking): Helyes stratégia. Részletesebb constraint-magyarázat a Setup szekcióban. A végeredmény és a logikai mélység nem tért el jelentősen a Minimal verziótól.
A legfontosabb megfigyelés: a thinking szint növelése ezen a feladaton nem hozott drámai minőségjavulást. A Minimal verzió összefoglaló táblázatot is adott (ami a Medium verzióból hiányzott), és a logikai lépések mindkét esetben helyesek és teljesek voltak. Ez azt sugallja, hogy a thinking mód hatása feladattípusfüggő. Klasszikusan megoldható logikai feladatokon a Minimal szint elegendő.
A Minimal verzió többlete: spontán táblázat
| Drawn from „Mixed” | „Mixed” Box Contains | „Apples” Box Contains | „Pears” Box Contains |
|---|---|---|---|
| Apple | Apples | Mixed | Pears |
| Pear | Pears | Apples | Mixed |
T5: Kontrafaktuális ok-okozati láncolás
Prompt: If water boiled at 50°C instead of 100°C, what cascading effects would follow? Do not give a list — give a chain of cause-and-effect reasoning.
Értékelés: Valódi láncolás, nem lista. Civilizációs szintig eljut. Fizikai, biológiai és ipari dimenzió összekapcsolva.
Ez a teszt hozta a legimpozánsabb választ. A modell nem tört listába. Valódi ok-okozati láncot épített, ahol minden mondat az előző következménye. A lánc a víz párolgásától a runaway greenhouse effecten, a növényzet összeomlásán, az emberi termoregulációs határon és az energiatermelés csődjén át jutott el a civilizáció bezárkózásáig. A termodinamikai hatékonyság-csökkenés (gőzturbinák működésképtelensége 50 fokon) különösen pontos és nem triviális megfigyelés volt.
A modell válasza (részlet):
„Traditional thermal power stations — including coal, natural gas, and nuclear plants — rely on steam-turbines that require a large temperature differential between the boiling point of water and the cooling reservoir to operate efficiently. With water boiling at 50°C, the thermodynamic efficiency of these turbines would drop to near zero, rendering standard electrical generation obsolete and forcing a reliance on less efficient or highly complex alternative energy sources. The resulting energy deficit would make it impossible to power life-support systems for billions of people, leading to a drastic reduction in the human population.”
T6: Metakogníció és saját korlátok felismerése
Prompt: What type of question are you most likely to answer confidently but incorrectly? Give a concrete example, answer it, then explain where and why your answer might be wrong.
Értékelés: Kényes, valós gyengeséget nevez meg (niche történelmi adatok). A példaválasz tényleg tartalmazza a beismert hibát. A hibamechanizmus magyarázata technikai szinten pontos.
Ez az egyik leginformatívabb teszt agentic megbízhatóság szempontjából. A modell a „niche historical or biographical details” kategóriát választotta, és ezt nem általánosságban mondta, hanem konkrét példával illusztrálta: Elizabeth Bragg 1876-os diplomamunkájának kitalált, de plauzibilisen hangzó címét gyártotta, majd saját maga leleplezte a hallucináció mechanizmusát. A magyarázat technikai szinten is helyes volt.
A modell válasza (részlet):
„The model associates ‘Elizabeth Bragg’, ‘1876’, ‘University of California, Berkeley’, and ‘Civil Engineering’ with the historical context of late 19th-century California. During this era, mining, timber flumes, and water systems were major engineering focuses in San Francisco. The model synthetically combines these highly related historical concepts to draft a highly plausible narrative… It fills the factual vacuum with statistical approximations.”
Összesített értékelés
| Teszt | Típus | Helyes? | Kiemelkedő viselkedés |
|---|---|---|---|
| T1: Paradoxon | Logikai | igen | Russell-paradoxon + lateral thinking spontán |
| T2: Matematika | Számítás | igen | Logaritmikus módszer kérés nélkül |
| T3: Dedukció | Térbeli | részben | Helyes, de alulspecifikált feladatot nem jelzi |
| T4 Minimal: Bizonyítás | Logikai | igen | Összefoglaló táblázat spontán |
| T4 Medium: Bizonyítás | Logikai + Thinking | igen | Thinking szint nem hozott érdemi pluszt ezen a feladaton |
| T5: Kontrafaktuális | Láncoló következtetés | igen | Valódi kauzális lánc, nem lista; termodinamikai pontosság |
| T6: Metakogníció | Önreflexió | igen | Saját hallucináció-mechanizmus pontos technikai leírása |
A Gemini 3.5 Flash reasoning területen megbízható teljesítményt nyújtott. A leglátványosabb eredmények a kontrafaktuális láncolásnál (T5) és a metakognícióban (T6) születtek. A gyengébb pont az alulspecifikált feladatok kezelése: a modell inkább ad választ, mintsem jelezné a feladat hiányosságát. Ez agentic környezetben nem elhanyagolható.
12. Források
| Forrás | Röviden összefoglalva |
|---|---|
| Google Blog: Gemini 3.5 | A Google hivatalos blogbejegyzése a Gemini 3.5 modellcsalád bejelentéséről, amelyen a Flash és Pro változatok képességei, benchmark eredményei és elérhetősége szerepel. Tartalmazza a vállalati partnerek (Shopify, Salesforce, Databricks stb.) által megosztott use case-eket. Ez az elsődleges forrás a modell teljesítményadataihoz. |
| Google AI Developers: Gemini 3.5 What’s New | A Google fejlesztői dokumentációjának „What's New" oldala, amely technikai részletességgel írja le a Gemini 3.5 API-ban elérhető új képességeket. Kiterjed a multimodális inputkezelésre, a context window bővülésére és a tool use fejlesztéseire. Fejlesztőknek és integrátorknak szól. |
| Google DeepMind Model Card: Gemini 3.5 Flash | A DeepMind által kiadott hivatalos model card a Gemini 3.5 Flash-hez, amely a modell képzési adatait, teljesítménykorlátait, biztonsági értékeléseit és felelős AI-elveit dokumentálja. Szabványos formátumban foglalja össze a modell tulajdonságait kutatók és döntéshozók számára. Az összehasonlíthatóság érdekében a benchmark számok egy része innen származik. |
| Google AI Developers Pricing | A Gemini API hivatalos árazási oldala, amely tartalmazza a Gemini 3.5 Flash és Pro token-alapú díjszabását input és output bontásban. Az árakkal kapcsolatos összehasonlítások alapja. Az árak USD-ben, millió tokenenként értendők. |
| Google One / Gemini Subscriptions | A Google fogyasztói előfizetési oldala, ahol a Gemini app ingyenes, AI Standard, AI Pro és AI Ultra csomagjai összehasonlíthatók. Tartalmazza az új $100/hó AI Ultra szint részleteit, amely a Gemini Spark personal AI agentet és a Gemini Omni hozzáférést is magában foglalja. Ez az irányadó forrás a végfelhasználói árazáshoz. |
| Google Cloud Blog: I/O 2026 agent developers | A Google Cloud fejlesztői blogja összefoglalja az I/O 2026-on bejelentett agent-fejlesztői újdonságokat, beleértve a Vertex AI Agentspace és a Gemini 3.5 Flash agent-specifikus képességeit. Vállalati fókuszú forrás, amely a Cloud-integráció oldaláról mutatja be az agentic AI ökoszisztémát. A Shopify, Macquarie és Salesforce use case-ek egy részének forrása. |
| Google Antigravity Agent docs | Az Antigravity agent-keretrendszer hivatalos API-dokumentációja, amely leírja a subagent-orkesztráció, a hooks, az aszinkron task management és a párhuzamos végrehajtás működését. Ez az elsődleges technikai forrás az Antigravity 2.0 architektúrájának megértéséhez. A keynote-on bemutatott OS-építési demo mögötti infrastruktúrát dokumentálja. |
| Google Developers Blog: Gemini CLI transition | Hivatalos bejelentés arról, hogy a korábbi Gemini CLI eszközt az Antigravity CLI váltja fel, és a meglévő felhasználóknak migrálniuk kell. Tartalmazza az átállás ütemezését és a két eszköz közötti különbségeket. Ez a változás az Antigravity 2.0 platform-egységesítési stratégiájának része. |
| Google DeepMind: CodeMender blog | A DeepMind bejelentő blogbejegyzése a CodeMender API preview-ról, amely AI agent-alapon keres és javít kódbiztonsági sebezhetőségeket. Leírja a rendszer architektúráját és a korlátozott hozzáférésű tesztelési programot. A keynote záró részében Demis Hassabis hivatkozott erre a projektre. |
| Gemini App Blog | A Gemini app megújításáról szóló hivatalos blogbejegyzés, amely bemutatja a Neural Expressive dizájnnyelvet, a Daily Brief agentet és az appba integrált Gemini Omni hozzáférést. Részletezi a macOS alkalmazás fejlesztési történetét és az új hangalapú Mac-integrációt. Ez az elsődleges forrás a Gemini app I/O utáni állapotának leírásához. |
| Google Search I/O 2026 | A Google Search csapatának blogbejegyzése az I/O 2026-on bejelentett keresési újításokról, beleértve a Generatív UI-t, a Personal Mini-app buildert és az Agentic Commerce pilléreit. Tartalmazza a partnereket (Amazon, Meta, Stripe stb.) és az elérhetőség ütemezését. Ez a forrás a Search szekció adatainak alapja. |
| OpenAI GPT-5.5 pricing/models | Az OpenAI hivatalos dokumentációja a GPT-5.5 modell árazásáról és specifikációiról, amelyet a Gemini 3.5 Flash árazási összehasonlításának alapjaként használtunk. A „versenytársak árának kevesebb mint fele" állítás részben erre a forrásra támaszkodik. Az árak az összehasonlítás időpontjában (2026. május) érvényes listaárak. |
| Anthropic Claude pricing | Az Anthropic hivatalos árazási dokumentációja a Claude modellcsaládhoz, amelyet a frontier modell árazási összehasonlítás egyik referenciapontjaként alkalmaztunk. A Claude Sonnet és Opus modellek token-alapú díjait tartalmazza input/output bontásban. A Claude szintén a Gemini 3.5 Flash fő piaci versenytársai közé tartozik. |
| DeepSeek V4 pricing | A DeepSeek hivatalos API-dokumentációjának árazási oldala a V4 modellhez, amelyet szintén a frontier modell árazási összehasonlításba vontunk be. A DeepSeek V4 az egyik legköltséghatékonyabb nyílt modellként hivatkozott alap az iparági összehasonlításokban. Az árak az összehasonlítás időpontjában érvényes listaárak. |
| Artificial Analysis Intelligence Index | Független benchmark és összehasonlító platform, amely rendszeresen méri és publikálja az AI modellek teljesítményét, sebességét és árazását egységes módszertan szerint. A sebességi összehasonlítások (token/másodperc) és az ár-teljesítmény indexek egy részéhez ezt az oldalt használtuk referenciaként. Gyártóktól független, így hasznos ellensúlya a gyártói kommunikációnak. |




