Posluchaj tego artykulu:

AI Daily: Claude Code ujawnia sekrety, Codex i zagadka ARC

Cześć! Zaparzcie sobie ulubioną kawę, bo dzisiejsze wieści z frontu sztucznej inteligencji mocno zmienią nasze podejście do codziennej pracy z kodem. Z jednej strony śledzimy, jak nagle cała branża potyka się o najnowszy benchmark ARC-AGI-3, a z drugiej obserwujemy, jak Anthropic oddaje swoim modelom pełną kontrolę nad naszymi komputerami. W świecie programistów wrze – ukryte funkcje popularnych narzędzi stają się viralem, a dotychczasowi rywale zaczynają działać we wspólnym ekosystemie. Jeśli myśleliście, że marzec był spokojny, to dzisiejsze ogłoszenia szybko wyprowadzą was z błędu.

Uwaga: Część omawianych nowości w modelach Claude 4.6 jest dostępna w wersji beta. Zanim oddacie AI pełną kontrolę nad systemem produkcyjnym, upewnijcie się, że macie aktualne backupy!

Przegląd najważniejszych wydarzeń minionego dnia – od wyzwań ARC po autonomiczne agenty.

Spis treści

Zagadka ARC: Gdzie AI oblewa test dla ludzi
Claude przejmuje myszkę: Computer Use na Macach
Viralowy wpis: Co ukrywa przed nami Anthropic?
Sojusz gigantów: Codex zadomawia się u Claude’a
Gdy maszyna staje się szefem cyberbezpieczeństwa
Podsumowanie dnia

Zagadka ARC: Gdzie AI oblewa test dla ludzi

Benchmark ARC udowadnia, że sztuczna inteligencja wciąż ma ogromne braki w abstrakcyjnym myśleniu. Cała śmietanka technologiczna żyje dziś tweetami Artura Kurasińskiego dotyczącymi wyników ARC-AGI-3. Abstraction and Reasoning Corpus (ARC) to test stworzony przez François Cholleta, który ocenia zdolność systemów do uczenia się nowych reguł z zaledwie kilku przykładów. Wyniki? To jak zderzenie z rozpędzonym pociągiem. Podczas gdy przeciętny człowiek bez problemu osiąga wysokie wyniki, najnowsze modele łapią zadyszkę na poziomie poniżej 1%. To stawia pod znakiem zapytania całą narrację o szybkim nadejściu AGI. Sztuczna inteligencja potrafi wypluć tysiące linijek kodu w ułamku sekundy, ale kiedy trzeba połączyć kropki w zupełnie nowym, nieznanym scenariuszu logicznym – system kapituluje. To pokazuje nam, gdzie obecnie znajduje się wąskie gardło architektury transformerów.

Dlaczego 2 miliony dolarów czekają na zwycięzcę?

Nagroda w wyzwaniu ARC Prize cały czas leży na stole, ponieważ brakuje nam algorytmów operujących na prawdziwym głębokim rozumowaniu. Choć tworzymy coraz lepsze agenty AI z pamięcią i celami, wciąż opierają się one na potężnej bazie już nabytej wiedzy w procesie trenowania, a nie na błyskawicznej adaptacji.

Perspektywa: Niskie wyniki w teście ARC to sygnał dla deweloperów, że tworzenie niezawodnych systemów nadal wymaga twardych barier (guardrails) i ludzkiego nadzoru.

Claude przejmuje myszkę: Computer Use na Macach

Nowa funkcja Anthropic pozwala asystentowi zyskać natywną kontrolę nad środowiskiem graficznym macOS. Anthropic wrzuciło wyższy bieg. Wprowadzenie „Computer Use” do środowiska Claude Code oraz platformy Cowork to moment, na który czekało wielu programistów. Działające na potężnych modelach Sonnet 4.6 i Opus 4.6 (z niesamowitym oknem kontekstowym do miliona tokenów w becie), narzędzie zyskało fizyczną sprawczość w naszych systemach operacyjnych. AI potrafi teraz na bieżąco analizować zrzuty ekranu, po czym samodzielnie najechać kursorem na odpowiedni guzik, przewinąć stronę, zainstalować pakiety, a nawet uruchomić dedykowane narzędzia programistyczne. Najpierw Anthropic udostępniło świetne integracje API z popularnymi narzędziami jak Slack czy Google Workspace. Teraz asystent wszedł głębiej. Na środowiskach macOS (zarówno układach robionych przez samo Apple, jak i starszych Intelach) możemy wywołać tzw. „tryb auto” (auto mode).

Zdalne zarządzanie i autonomia nadzorowana

Co najbardziej intrygujące, nowa aplikacja Claude Desktop pozwala na sterowanie zdalną sesją Maca z poziomu iPhone’a. Budujemy strukturę „autonomii nadzorowanej”, gdzie AI robi czarną robotę z kodem, a my tylko akceptujemy kolejne kroczki popijając espresso na kanapie.

Ciekawostka: Tryb autonomiczny celowo spowalnia niektóre kliknięcia, aby użytkownik widział, co dokładnie dzieje się na jego komputerze.

Chcesz wdrażać najnowsze rozwiązania z zakresu autonomicznych agentów w swojej firmie, ale nie wiesz od czego zacząć?

Porozmawiajmy o integracji AI

Viralowy wpis: Co ukrywa przed nami Anthropic?

Potęga Agent Teams pozwala na rozproszenie skomplikowanych zadań programistycznych w odizolowanych kontekstach. Złota zasada współczesnego internetu – najlepsze tutoriale to te pisane o północy przez inżynierów. Boris Cherny z Anthropic wrzucił na X wpis, który od wczoraj wygenerował ponad trzy miliony odsłon. Inżynier postanowił podzielić się mało znanymi, „ukrytymi” funkcjami nowego interfejsu. Kiedy wpisujecie w wyszukiwarkę najnowsze frazy, takie jak Claude Code ARC integracja ukryte funkcje 2026, to pewnie trafiliście właśnie na echa tego wątku. Okazuje się, że to środowisko kryje potężne możliwości. Boris wskazał na funkcję Agent Teams, która pozwala odpalić kilka wirtualnych agentów w osobnych, całkowicie odizolowanych od siebie oknach kontekstowych. Jeden agent pisze testy, drugi refaktoruje starszy kod, a trzeci monitoruje logi na bieżąco, komunikując się jedynie poprzez małe pakiety „wiedzy”, które sobie nawzajem przesyłają.

Integracja z tmux i praca rozproszona

Wisienką na torcie jest obsługa zdalnych sesji i gładkie wpinanie się w narzędzia takie jak tmux. Wyobraźcie sobie to na żywym organizmie: wrzucacie polecenie w terminal, jedziecie do biura, a agent w tle przeskakuje po oknach wirtualnych.

$ claude-code spawn-team –workers 3 –goal „refactor-legacy-auth” –tmux-attach
Starting 3 isolated agents…
Worker 1 [Tests] online.
Worker 2 [Core] online.

Wskazówka: Izolacja kontekstu w Agent Teams dramatycznie zmniejsza halucynacje modelu przy dużych projektach.

Sojusz gigantów: Codex zadomawia się u Claude’a

Oficjalny plugin zaciera granice między środowiskami od OpenAI i Anthropic. Dziś rano dowiedzieliśmy się o integracji, której mało kto się spodziewał. Vaibhav Srivastav, znany ewangelista ze świata AI, odpalił absolutną bombę, ogłaszając wtyczkę OpenAI Codex dedykowaną prosto dla platformy tworzonej przez Anthropic. Ekosystemy, które do tej pory mocno się zwalczały, zaczynają ze sobą płynnie współpracować z korzyścią dla użytkownika. Wtyczka jest dostępna do pobrania z oficjalnego marketplace’u wewnątrz platformy Anthropic. Jej uruchomienie dodaje genialną komendę /codex:review. Hybrydowy workflow pozwala nam pisać kod opierając się na szybkości autouzupełniania od chmury OpenAI, ale zarządzanie samym plikiem i logiką leży po bezpiecznej stronie Claude’a.

Code rescuing w praktyce

Największe wrażenie w materiałach Vaibhava zrobiła demonstracja „code rescuing” oraz wbudowanego adversarial testing. Maszyna przejmuje zepsute, przestarzałe skrypty i poddaje je zmasowanym, symulowanym atakom w celu wyłapania tzw. podatności zero-day.

Dobrze wiedzieć: Wtyczka łączy najlepsze cechy obu światów: szeroką znajomość składni OpenAI z oknem analitycznym Anthropic, które świetnie utrzymuje kontekst architektury projektowej.

Gdy maszyna staje się szefem cyberbezpieczeństwa

Wykorzystywanie zautomatyzowanych agentów do łowienia błędów zyskuje na popularności na rynku Bug Bounty. Nicolas Carlini to postać, której w świecie cyberbezpieczeństwa nie trzeba przedstawiać. Dlatego kiedy ten główny badacz bezpieczeństwa w Anthropic otwarcie mówi, że najnowsza iteracja modelu jest lepsza od niego samego w wyszukiwaniu luk bezpieczeństwa – trzeba nastawić uszu. Według najnowszych raportów, agenty oparte o modele Anthropic zgarnęły łącznie oszałamiające 3,7 miliona dolarów wypłat w programach Bug Bounty. Eksploitacja znaleziona w lukach smart kontraktów i popularnym projekcie Ghost to dowód na to, jak agenty AI weszły na nowy poziom zarabiania pieniędzy i realnie testują oprogramowanie o podwyższonym ryzyku finansowym. AI potrafi przeczesać miliony linii kodu w poszukiwaniu rzadkich wyścigów czasowych, których ludzkie oko może po prostu nie zauważyć po dziesięciu godzinach wpatrywania się w monitor.

Maszynowa intuicja

Choć brzmi to dziwnie przypisując ustatystycznionemu węzłowi sieci pojęcie „intuicji”, najnowsze iteracje algorytmów analitycznych ewidentnie odnajdują nietypowe wzorce konstrukcji ułatwiające włamania, wykraczające poza standardowe reguły konwencjonalnych skanerów.

Dobra praktyka: Nie bój się wrzucać swoich snippetów funkcji kryptograficznych czy autoryzacyjnych do sprawdzenia przed wysłaniem pull requestu. Bezpieczeństwo zawsze na pierwszym miejscu!

Podsumowanie dnia

Bariera abstrakcyjnego myślenia: ARC-AGI-3 przypomina światu technologicznemu, że mimo rozwoju AI, modele głębokiego uczenia nadal nie posiadają podstaw logiki znanej ludzkiemu umysłowi. Wynik poniżej 1% to kubel zimnej wody.
Autonomia na pulpicie: Wprowadzona funkcja Computer Use daje inteligentnemu asystentowi pełne, natywne sterowanie systemem macOS, włączając w to zarządzanie kursorem i aplikacjami dla deweloperów.
Ukryty arsenał programistów: Viralowy wpis Borisa Cherny’ego udowodnił, jak wielką wagę mają izolowane środowiska dla wielu agentów (Agent Teams) i ich swobodna integracja z menedżerami sesji w terminalu.
Otwieranie zamkniętych ogrodów: Pojawienie się wtyczki OpenAI dla platformy deweloperskiej Anthropic to znak zmian. Firmy zaczynają tworzyć wspólny front deweloperski, łącząc różne silniki LLM w spójne rozwiązania.
AI milionerem z Bug Bounty: Czołowi inżynierowie oficjalnie potwierdzają wyższość swojej architektury sztucznej inteligencji w żmudnym, praktycznym identyfikowaniu niezwykle złożonych błędów i exploitów w kodzie produkcyjnym.

Dzisiejsze wiadomości uświadamiają nam dziwny dysonans sztucznej inteligencji na początku 2026 roku. Z jednej strony mamy algorytmy łamiące głęboko ukryte zabezpieczenia za miliony dolarów, a z drugiej — maszyny te oblewają proste zadania logiczne z benchmarku ARC. To dowód, że nasza praca z najnowszą technologią stale będzie wymagała balansu i świadomego zarzadzania potęgą i ułomnościami tych potężnych systemów.

Wprowadź AI do swoich projektów

Zastanawiasz się, jak bezpiecznie połączyć modele od Anthropic z posiadaną już architekturą kodu? Pomożemy Ci zautomatyzować Twoje workflowy programistyczne i procesy QA.

Umów bezpłatną konsultację

P.S. Chcesz łapać więcej takich smaczków na żywo? Wskakuj do naszego cotygodniowego zestawienia i ulepszaj swoje wdrożenia: Dołącz do społeczności BotMagic.

AI Daily: Claude Code ujawnia sekrety, Codex i zagadka ARC