Vydání #83:
Pohled na “Deep research” produkty
xAI vydává Grok 3
Jak promptovat uvažovací modely
Investiční teze a16z o BPOs a outsourcingu
Vibe coding trend
💬 Hlavní téma
deep research od OpenAI si hype zaslouží
OpenAI spustilo kromě Operátora další agentický produkt s názvem deep research. Přístup k němu mají uživatelé ChatGPT Pro za 200 dolarů měsíčně a na rozdíl od Operátora jde o produkt, který funguje velmi dobře.
Deep research kombinuje uvažovací model o3 s agentickým workflow analytika/výzkumníka. Na základě vašeho požadavku se nejprve doptá a získá kompletní kontext. Poté začne vyhledávat a syntetizovat (iterativně, nikoli sekvenčně) a po pár minutách vám doručí odpověď s odcitovanými zdroji. Jeho “proud myšlenek” a akcí lze možné si zobrazit v rámci záložky “Aktivita”, přehled citací pak u “Zdroje”.
OpenAI ve svém oznámení uvádí odvážná tvrzení doplněná grafy, podle nichž její agent zvládne 15 % výzkumných projektů s vysokou ekonomickou hodnotou a 9 % projektů s velmi vysokou hodnotou. Můžeme či nemusíme těmto nepodloženým číslům věřit – ale jedno potvrzuji: ten produkt je extrémně působivý a dopad na znalostní práci bude mít značný.
Ukázkou výstupu budiž virální příspěvek o 20 pozicích, které dle deep research nahradí AI. Co dalšího mu můžete zadat? Od nalezení nejlepšího produktu pro vaši potřebu po sestavení tržní mapy, analýzy konkurence, či identifikaci nejlepších nástrojů a AI workflows pro vaši pracovní funkci či odvětví. Prakticky jakákoli analytická či výzkumná úloha, ale i potřeba řešení problému zahrnujícího uvažování + externí zdroje, je pro deep research vhodná. A nejen externí: v rámci kontextu můžete přiložit i své soubory jako PDFs, se kterými bude deep research rovněž pracovat.
Pár myšlenek z užívání:
výstupy jsou velmi dobré a okamžitě užitečné; kvalitou překonává juniorní lidské analytiky a činí je pro základní desk research prakticky zbytečnými (s výjimkou validace).
problém je absence zdrojů: směr analýzy je správný, ale kvalita zdrojů určuje kvalitu výstupů. Lidský analytik občas musí zaplatit nebo mít někde účet, aby informaci dostal – zatím velký limit všech deep research nástrojů. Člověk taky může lépe vyhodnotit kvalitu a věrohodnost zdroje a ověřit správnost na vstupu.
stejně jako s jiným AI vyhledáváním, výsledky vedou k otázce: můžu tomu věřit? Pokud doménu znám, je validace jednodušší. Pokud ne, musím sám projít zdroje a zkontrolovat práci AI. Stejně jako u juniora je nutné kontrolu provést což je IMO ta nejméně zajímavá část této práce, ale je to logický krok agentického workflow. Pořád platí, že výstup není deterministický, ale pravděpodobnostní. Jinými slovy: občas výstupy obsahují výmysly.
Subjektivně bych nyní produkty v této kategorii řadil dle kvality takto:
OpenAI deep research
Google Gemini Deep Research
Perplexity Deep Research
xAI DeepSearch
Stojí tedy produkt za 200 dolarů měsíčně? Pro mě - a kohokoli kdo používá AI nástroje pro hledání několik hodin denně, spíš ano. V minulém týdnu mi umožnil udělat za 2 dny práci, která mi dřív trvala dní zhruba 5. Stojí za to i pro získání přístupu k Operátorovi (s VPN jde i v ČR) a neomezenému pokročilému hlasovému módu. Univerzálně doporučit však při možnosti využívat řešení Gemini či Perplexity za 10% cenu zatím nelze.
🏆 Nejsledovanější zprávy
xAI vydává Grok 3 – a dostává se na vrchol
AI lab Elona Muska uvedl na trh svou vlajkovou loď, modelovou řadu Grok 3.
Grok 3 trénovali pomocí obrovského superclusteru s 200 000 GPUs. V mnoha benchmarcích překonal přední modely - GPT-4o od OpenAI, Claude 3.5, DeepSeek V3 a Gemini 2 Pro - a stal se vůbec prvním modelem, který v testu Chatbot Arena dosáhl skóre 1400 bodů. Dokonce i Grok 3-mini dosáhl značného úspěchu, když se vyrovnal ostatním modelům v matematických, vědeckých a kódovacích benchmarcích nebo je porazil.
Upgrade přichází také s řadou nových funkcí:
Režim Thinking: Grok 3 dvakrát kontroluje své výpočty, čímž zvyšuje přesnost.
Režim Big Brain: Vysoce výkonný nástroj na uvažování pro složité, vícekrokové problémy.
DeepSearch: Prohledává web i X a získává poznatky a shrnutí v reálném čase. (analogický produkt jako deep research)
Hlasový režim: Tato funkce (asi bude venku příští týden), poskytne uživatelům možnost hlasově komunikovat se službou Grok.
Karpathy oznámení komentoval takto:
“Grok 3 + Thinking mi přijde někde na úrovni nejsilnějších modelů OpenAI (o1-pro, 200 USD/měsíc) a o něco lepší než DeepSeek-R1 a Gemini 2.0 Flash Thinking.”
Produkt je zatím dostupný předplatitelům X Premium+, pro API přístup bude včetně DeepSearch dostupný v rámci týdnů.
⏩ Ve zkratce
Sam Altman říká, že GPT-5 bude zahrnovat technologie modelu o3 - ten již nebude nabízen jako samostatný model, GPT-4.5 bude posledním modelem OpenAI, který nemá CoT (chain of thought uvažování).
První pobočka OpenAI v Německu signalizuje evropskou expanzi. V Mnichově už se bojí, že podobně jako v Paříži bude vysávat místní talent.
OpenAI udělalo lehčí změnu loga, zahrnující nový vlastní font OpenAI Sans, upravené logo a novou barevnou paletu. Mistral taky.
Bloomberg uvádí, že Meta plánuje masivní investice do humanoidních robotů poháněných AI.
Dario Amodei, CEO Anthropicu, varuje, že AI by do dvou let mohla dosáhnout úrovně inteligence srovnatelné s celým národem špičkových myslitelů.
Alphabet (Google) oznámil plány na investici 75 miliard dolarů do AI infrastruktury v tomto roce. Amazon poskytl odhad výdajů na capex ve výši 100 miliard dolarů.
Google vydává Gemini 2.0 Flash prostřednictvím svého API, experimentální verzi Gemini 2.0 Pro ve svých aplikacích, Gemini 2.0 Flash Thinking a 2.0 Flash-Lite ve studiu AI.
Spoluzakladatel a CEO Google DeepMind Demis Hassabis kritizoval DeepSeek na Mobile World Congress v Barceloně. „Navzdory hypu neexistuje žádný skutečný vědecký průlom,“ uvedl.
NotebookLM Plus je nyní součástí Google One AI Premium plánu. Předplatitelé Gemini Advanced získají také přístup k NotebookLM Plus.
Macron představuje investiční balíček ve výši 112 miliard dolarů do AI jako francouzskou odpověď na Stargate.
Mistral vydává iOS a Android aplikace a představuje několik aktualizací svého AI asistenta Le Chat, včetně placené verze Pro za 14,99 $ měsíčně.
Mistral představuje Mistral Saba, 24B model speciálně trénovaný pro arabský jazyk a kulturu, dostupný přes API.
Evropský AI startup Helsing integruje AI od Mistralu do obranných aplikací.
Robotický startup Figure ukončuje svou dohodu s OpenAI z února 2024, která měla za cíl vyvinout AI modely pro roboty, a zaměřuje se na vlastní AI po „zásadním průlomu“.
GitHub oznamuje aktualizace pro Copilot, včetně Vision pro generování rozhraní, kódu a alternativního textu ze screenshotů, fotografií nebo diagramů.
ByteDance vydal Omnihuman, který dokáže generovat velmi realistická videa z jediné fotografie.
Nový report od Harmonicu ukazuje, že 8,5 % zaměstnaneckých promptů do AI služeb obsahuje citlivá data, přičemž informace o zákaznících tvoří téměř polovinu těchto úniků.
Christie's pořádá svou první aukci výhradně AI generovaného umění, což vyvolává silnou nespokojenost mezi tradičními umělci.
Reklama na práci “pouze pro agenty” od Firecrawl se stala virální.
🛠️ AI prakticky
OpenAI zveřejnilo příručku pro promptování modelů uvažování řady o, v níž klade důraz na jednodušší a přímější přístupy než na tradiční instrukce. Uvažovací modely je třeba promptovat jinak a některé věci jsou zbytečné (např. podnět k přemýšlení v krocích nebo “zeptej se mě na doplňující otázky” u deep research).
📚 Co si přečíst, zhlédnout a poslechnout
▶️ YC partneři si povídají na téma: jak dostat nápady na AI startupy.
▶️ Nová epizoda podcastu Dwarkeshe Patela: se spoluvedoucími Google Gemini Jeffem Deanem a Noamem Shazeerem o cestě Googlu k AGI, budoucnosti Moorova zákona, TPU, škálování inference, otevřeném výzkumu a dalších tématech.
䷉ Andrew Chen z a16z píše o pomstě GPT wrapperů a popisuje, proč budou síťové efekty a distribuce opět králem.
䷉ a16z investiční teze o disrupci outsourcing a BPOs.
䷉ Anthropic vydal svůj Ekonomický index, který se dívá na data po užívání Claude, z čehož lze vyčíst, jaké pracovní role jej využívají nejvíce a také pro jaký účel.
🎓 AI/ML pro začátečníky s plánem a bezplatnými zdroji. Pro programátory s ambicí stát se AI/ML inženýry.
📆 Události
Další Miton Times: 27.2. od 16:00 v Mitonu offline nebo online na streamu. Tentokrát s Augustinem Žídkem z Google DeepMind na téma AlphaFold a predikce molekul.
🌱 Z Mitonu
Zajímá vás vibe coding (“pocitové programování”)? Kolem Mitonu vzniká skupina lidí, která se tématu věnuje - pokud si s tím hrajete jako Karpathy, odpovězte v e-mailu pro propojení. Pár odkazů k tématu:
Replit Agent, GitHub Copilot, Cursor a nově spuštěný Windsurf od Codeium vám umožní ponořit se do samotného kódu (samozřejmě s pomocí AI).
Lovable - tvůrce aplikací s AI na bázi chatu. (nedávno spustili nový vizuální editor, takže nyní můžete snadno upravovat velikosti, barvy, obsah a další styly jakéhokoli prvku na stránce podobně jako ve Figmě.)
Bolt.new podobně jako Lovable, i pro mobilní aplikace.
A pak je tu Devin, jehož cílem je zcela nahradit softwarové inženýry (očekává se, že s podobným řešením může přijít i OpenAI).
O budoucnosti programování a co má smysl se učit, se nedávno rozpovídal CEO Replitu v podcastu.
💰Transakce a hráči
🇺🇸 Eudia získala až $105M v rámci Series A financování vedeného General Catalyst. Startup poskytuje interním právním týmům AI agenty a další nástroje pro běžné úkoly.
🇺🇸 7AI získalo $36M v rámci Seed financování. Startup využívá AI agenty k automatizaci opakujících se bezpečnostních úkolů, jako je analýza upozornění a vyšetřování potenciálních hrozeb. Kolo vedli Greylock Partners, Spark Capital a CRV.
🇺🇸 &AI získalo $6.5M v rámci Seed financování vedeného First Round, s účastí Y Combinator, SV Angel, BoxGroup a angel investorů. Startup vyvíjí AI agenty pro patentové právníky.
🇦🇺 Springboards získal $5M v rámci Seed financování vedeného Blackbird Ventures. AI platforma na podporu kreativních profesionálů v reklamním průmyslu.
🇺🇸 TaxGPT získal $4.6M v rámci Seed financování. AI účetní co-pilot, který získal investici od Rebel Fund, Mangusta Capital, Y Combinator a angel investorů.
🇦🇺 Index získal A$3.5M v rámci Seed financování, které vedli Bain Capital Ventures a Blackbird Ventures. AI nástroj pro produktové manažery v B2B. Říkají, že jsou jako Productboard, jen o 90 % levnější. Další zajímavý počin je Inari z YC.
🇨🇭 LogicStar získal $3M v rámci Pre-seed financování vedeného Northzone. Startup vyvíjí AI agenty určené k autonomní údržbě softwarových aplikací prostřednictvím identifikace a opravování chyb bez lidského zásahu.
🇸🇪 Bluebook získal $3M v rámci Pre-seed financování vedeného EQT Ventures, s účastí angel investorů. Y Combinator investoval $500K. Startup vyvíjí AI účetní agenty.
📊 Povedená vizualizace
Cursor a jeho cesta od $1M k $100M ARR. Stripe nedávno vydal zajímavá data ukazující, že AI startupy mohou růst výrazně rychleji než ty v předešlé SaaS vlně.
🆇 Výběr z X
Lidi si ještě nezvykli na zkratku AGI a teď už se běžně skloňuje ASI.
A na kapitálu bude v post-AGI době záležet hodně.
Skvělý článek o praktickém využívání AI v Keboole dává tušit, že spoustu věcí v PM bude jinak. Andrew Ng to si to myslí taky a říká, že AI produktový management je na vzestupu.
Není to tak dávno, co se povídalo, že Google je starý Microsoft a Microsoft zase nový Google. Teď to vypadá že jsou oba zase tam, kde jsme byli zvyklí.
Elad Gil nedávno sdílel svůj starší článek o firmách, které indexují trh, trend, nebo technologii. A AI kromě Nvidie a dalších čipových hráčů či big tech indexují i konzultační firmy, pro které je AI značným pohonem tržeb - pro McK prý 40 %.
🤖 a ⚙️
Za $20 nabízí produkty jako Claude, ChatGPT, Perplexity, nebo Gemini obrovskou hodnotu. Komu to ještě nedošlo a jede na bezplatných verzích - NGMI.