Automatické označování prostředí: Modely světa pro roboty řízené VLM
Sdílet
V roce 2023 vyžadovala důvěryhodná datová sada o domácím robotu tisíc osobohodin lidských anotátorů, kteří kreslili rámečky kolem hrnků a židlí. V roce 2026 byla stejná datová sada vytvořena přes noc pomocí zásobníku modelů vizuální gramatiky běžících na jediném serveru s 8 GPU. Člověk je stále součástí procesu, ale pouze jako recenzent vzorkované úrovně, nikoli jako primární označovatel. Tento článek pojednává o tomto posunu – co „automatické označování“ ve skutečnosti znamená pro dnešního robota, jak vypadá proces, kde se přerušuje a proč je výpočetní nároky tou částí, která rozhoduje o tom, zda to váš tým vůbec zvládne.
Toto je součást věnované robotice na Kentino Wiki. Obsahuje křížové odkazy. R08 (argument latence pro vyhrazené výpočty na okraji sítě) a I01 (architektura edge AI s lokální inferencí). Budoucí I05 provede referenční sestavení dimenzované přesně pro tuto pracovní zátěž.
Co znamená automatické označování v robotice
Klasický systém počítačového vidění předpokládal, že popisky jsou vzácné a drahé. Ohraničující rámeček kolem „hrnku“ stál člověka deset sekund a pár centů. Segmentační maska s přesností na pixel stála minutu a dolar. Maska po jednotlivých snímcích v rámci třicetisekundového videoklipu stála cenu malého auta.
Datové sady robotů jsou pro tento model patologické. Jeden čtyřnožec během třicetiminutového mapování rychlostí 30 fps vytvoří 54 000 snímků. Humanoidní teleoptická operace během pracovního dne vytvoří stovky tisíc. Každý snímek ideálně vyžaduje:
- Ohraničující rámečky objektů (otevřená slovní zásoba, nejen 80 tříd COCO)
- Masky segmentace instancí (aby politika mohla uvažovat o uchopitelných oblastech)
- Popis scény v přirozeném jazyce (aby na něm bylo možné podmínit VLA)
- Sledovaná identita napříč snímky (takže „červený hrnek“ zůstává stejným hrnkem)
- Volitelné: 3D odhady polohy, fúzované s hloubkou nebo LiDARem
Ekonomika lidského anotátora u kteréhokoli z těchto faktorů zaniká u prvních tisíc snímků. „Automatické označování“ je zastřešující termín pro použití základních modelů – VLM, detektorů otevřené slovní zásoby, segmentátorů s podněty – k vytváření těchto označení rychlostí inference, nikoli rychlostí kliknutí osoby.
Posun od roku 2023 není filozofický, je mechanický. Během stejného osmnáctiměsíčního období se změnily tři věci:
- Detekce otevřené slovní zásoby se stala použitelnou. Uzemnění DINO, OWLv2 a Florence-2 se mezi polovinou roku 2024 a koncem roku 2025 změnilo z „zajímavé demoverze“ na „produkční úroveň pro ~80 % běžných objektů“.
- Dorazila rychlá segmentace videa. SAM 2 (polovina roku 2024) a nyní SAM 3 (vydaný v listopadu 2025) zjednodušily sledování masek ve videu na základě zadání podstatné fráze. SAM 3 zejména přímo přijímá konceptuální zadání – „žlutý školní autobus“ – a vrací masky a stabilní identity.
- VLM byly uzemněny. Qwen2.5-VL (začátek roku 2025) a následné rodiny Qwen3-VL vytvářejí výstup ohraničujících rámečků na mřížce skutečných pixelů ve stabilním formátu JSON. Můžete vyvolat 72B VLM příkazem „vypsat každý objekt v tomto obrázku jako JSON s ohraničujícím rámečkem a jednovětným popisem“ a získat zpět něco, co můžete propojit s trénovací smyčkou.
Stav techniky v roce 2026 není jeden model – je to složený kanál.
Architektura potrubí
Zásobník pro automatické označování referencí vypadá takto:
Uloženo na lokální NVMe disk a poté synchronizováno se serverem
in: slovník rámečku + popisku (nebo volný popisek generovaný VLM)
z: ohraničující rámečky + popisky tříd na snímek
z: masky pro jednotlivé instance, sledovaná identita v celém klipu
in: rám + krabice/masky z fází 1+2
z: popisky pro jednotlivé snímky, popisky pro jednotlivé objekty, vztahy mezi objekty („hrnek NA stole“)
Promítání popisků do 3D pomocí hloubky + pozice kamery
Deduplikace napříč pohledy, vytvoření úložiště instancí objektů
Recenzent opravuje v Roboflow / Labelbox / V7
Korekce zpětně vázané jako tréninkový signál
nebo podmínit manipulační politiku označenými trajektoriemi
Šestistupňový kanál automatického označování — záznam → uzemnění → segment → popis → akumulace → kontrola → vlak
Než budeme pokračovat, stojí za to zmínit několik věcí.
Za prvé, Fáze 1 a 2 jsou často shrnuty do Grounded-SAM 2., otevřený kanál od IDEA-Research, který propojuje Grounding DINO (nebo Florence-2 nebo DINO-X) do SAM 2 najednou. Skript pro automatické označování v tomto repozitáři je kanonická implementace „boxů a masek z podstatné fráze“. S rozhraním konceptuálního promptu SAM 3 se to ještě více sbaluje – zadáte mu slova a dostanete zpět sledované masky.
Druhý, Třetí fáze je ta drahá a ten, kde je výběr modelu nejdůležitější. Model třídy 7B VLM (Qwen2.5-VL 7B, Florence-2 large) sice levně vytvoří koherentní popisky, ale přehlédne jemné detaily. Model třídy 72B produkuje dramaticky bohatší popisy, častěji správně nastavuje vztahy a je mnohem užitečnější pro následné trénování VLA – za zhruba 10násobek nákladů na snímek.
Za třetí, Když lidé v tomto kontextu říkají „model světa“, myslí to fáze 4. Nejedná se o generativní video model jako Cosmos Predict. Jde o perzistentní, 3D úložiště informací o tom, „jaké objekty v této místnosti existují, kde se nacházejí a jak spolu souvisejí“. ConceptGraphs je kanonický open-source recept; OK-Robot předvedl škálovatelnost na přibližně 170 úloh typu „pick-and-place“ v deseti domech. Model světa umožňuje opakovaně použitelné popisky: když se robot zítra vrátí, nezačíná od nuly.
V čem VLM dělají dobře a kde selhávají
Poctivá tabulka, protože marketingové materiály ke každému z těchto modelů jsou zavádějící v různých směrech:
| Úkol | Kvalita zásobníku VLM (2026) |
|---|---|
| Detekce běžných objektů (kuchyně, kancelář) | vynikající — Vybavení přes 90 %, nízké halucinace |
| Kategorie románů s otevřenou slovní zásobou | Dobré, ale nevyrovnané – záleží na frázování |
| Pixelově přesná segmentace v dobrém boxu | vynikající — SAM 2/3 je v podstatě vyřešen |
| Sledování identity v průběhu 30sekundového klipu | Dobrý se SAM 3, průměrný pouze se SAM 2 |
| Počítání (kolik šálků je na stole) | chudý — VLM mají trvalé halucinační počty |
| Malé / vzdálené objekty | chudý — boxy spolehlivě klesají pod ~20 px |
| Rychlý pohyb (chapadlo, kyvné rameno, upuštěný předmět) | chudý — rozmazání pohybem ničí detekci i segmentaci |
| Extrémní světelné podmínky (oslnění, slabé osvětlení, infračervené záření) | chudý — distribuce školení toto nepokrývá |
| Opakované identické objekty (naskládané krabice) | chudý — sledování identity je zmatené |
| Nové kategorie z úzké průmyslové oblasti | Špatný — open-vocab je „otevřený“ v rámci ImageNetu |
| Popis scény ve volné formě (jeden odstavec) | vynikající — 72B VLM jsou tady opravdu dobré |
| Prostorové vztahy (na, pod, za) | Dobré – Qwen2.5-VL to spolehlivě zvládá |
To nejdůležitější upřímné rozhodnutí: automatické popisky jsou hlučné. V celé literatuře z let 2025–2026 dosahuje detekce otevřené slovní zásoby v doménách mimo distribuci halucinací 5–15 % v závislosti na způsobu měření. Článek GroundCount z počátku roku 2026 uvádí zlepšení přesnosti počítání o 6.6 procentního bodu pouhým přidáním explicitního uzemnění detektoru k VLM – což znamená, že samotné VLM se stále podstatně mýlí v počtech. Nic z toho není rozhodující, ale znamená to, že čistě nekontrolovaný kanál automatického označování není bezpečný pro bezpečnostně kritická trénovací data.
Zmírnění, které v praxi skutečně funguje, je dvoustupňové přezkoumání vzorku: vše automaticky označíte a poté na základě signálu nejistoty (entropie tokenu VLM, spolehlivost detektoru, neshoda mezi více modely) vyberete 1–5 % snímků pro kontrolu člověkem. Kontroloři provedou opravy a tyto opravy se použijí buď jako přímá trénovací data, nebo jako zpětná vazba k rekalibraci prahů spolehlivosti automatického označovače. Jedná se o stejnou smyčku, na které byl trénován samotný Florence-2 – datová sada FLD-5B od společnosti Microsoft byla vytvořena kaskádováním specializovaných modelů a následným vzorkováním pro kontrolu.
Výpočetní stopa – proč se to dostává do lokálních systémů
Tohle je ta část, která překvapuje lidi, kteří si s čísly nepočítali.
Vezměte si reprezentativní cíl: jedna hodina robotického záznamu při 10 fps ze stereo kamery v rozlišení 1080p. To je 36 000 snímků. Chcete všechny čtyři typy popisků: rámečky, masky, popisky a sledovanou identitu.
Hrubé náklady na snímek na jedné grafické kartě RTX 5090 (32 GB, Blackwell, ~104 TFLOPS FP16):
| Fáze | Na snímek | 36 000 snímků |
|---|---|---|
| Uzemnění DINO (malý) | ~30 ms | ~ 18 min |
| SAM 2 velký, maska + šíření | ~25 ms | ~ 15 min |
| Titulek Qwen2.5-VL 7B | ~250 ms | ~ 2.5 h |
| Titulek Qwen2.5-VL 72B (INT4, dávka) | ~1.5–3 s | ~15–30 hodin |
| Florencie-2 velká (pouze popisek) | ~80 ms | ~ 48 min |
Tato čísla jsou řádově zastoupená – předpokládají rozumné dávkování, obsluhu vLLM a kvantizaci FP16/INT4, kde je to vhodné. Samotný SAM 2 běží v původním benchmarku na A100 s rychlostí ~44 fps, takže ~50–60 fps na 5090 je realistických.
Zajímavou řadou je VLM třídy 72B. Pokud chcete podrobné popisy scén pro každý snímek z VLM třídy 72B, Nemůžete to dělat na jedné GPU v reálném čase. Ty taky:
- Silné podvzorkování – titulkování každého desátého snímku, interpolace zbytku. To je přesně to, co většina produkčních kanálů skutečně dělá.
- Použijte menší VLM (třída 7B–11B) pro jednotlivé snímky a 72B rezervujte pouze pro klíčové snímky.
- Přidejte do toho více grafických karet – v tom okamžiku se osm 5090 v jednom šasi stává spodní hranicí praktického rozsahu.
Celkové náklady na plně automatický záznam s automatickým označováním jedné hodiny 10fps záznamu s 72B ve smyčce dosahují zhruba 4–8 hodin výdrže GPU na spotřebitelském křemíku Blackwella šasi s 8× 5090 K-AI 256 to dokáže dokončit za méně než hodinu s paralelním fungováním napříč grafickými procesory.
A teď cloudová matematika. Stejné zatížení na hyperscaleru:
- Výpočet: srovnatelné, možná levnější při spotových cenách.
- Výstup dat: brutální. Stereofonní nahrávka v rozlišení 1080p při 10 fps po dobu jedné hodiny má objem přibližně 30–80 GB v surovém stavu, více, pokud si zachováte hloubku záznamu. Ukládání do cloudu a stahování štítků zpět stojí centy při vstupu a desítky dolarů při výstupu za každý průchod. Článek Robo-DM z Berkeley z roku 2025 to explicitně změřil: uložení 8.9 TB dat Open-X v Google Cloudu stojí 172 dolarů měsíčně, ale každé úplné stažení stojí 172–1 540 dolarů v závislosti na úrovni. To lze škálovat na flotilu dat, která zaznamenává stovky hodin týdně a samotná výstupní kapacita překračuje amortizaci kapitálových výdajů jednoho on-premise serveru během jednoho roku.
- Latence ve smyčce: dlouhá. Smyslem automatického označování je uzavřená smyčka – dnes nahrávat, dnes večer označovat, zítra doladit, ráno prosadit vylepšené zásady. Cloudová zpáteční cesta přidává hodiny času načítání v typickém laboratorním uplinku.
- Soukromí: problém. Stejný argument o regulovaných datech z R08 Platí zde. Nezpracované video robota z pokoje pacienta, tovární haly nebo obranné laboratoře se nedostává do GPU nikoho jiného.
Proto každá seriózní robotická laboratoř v roce 2026 vlastní svůj výpočetní systém s automatickým označováním. K-AI 256 Turin Dual s 8× RTX 5090 je dimenzován téměř přesně pro tuto pracovní zátěž – 256 GB systémové RAM, osm GPU pro paralelní fáze zpracování dat, NVMe pro horkou úroveň datové sady. Konfigurace 4× RTX Pro 6000 Blackwell je cestou upgradu, pokud chce tým provozovat 72B v FP16 namísto INT4 a ponechat více souběžných modelů rezidentních.
Uzavřená smyčka
Důvod, proč se lokální implementace vyplácí, není samotné automatické označování – je to smyčka, kterou umožňuje.
Denní uzavřená smyčka — záznam → automatické označování → kontrola → doladění → ověření → nasazení
Toto je smyčka, pro kterou byl navržen recept OpenVLA-OFT (březen 2025): 25–50× rychlejší jemné ladění než u klasického OpenVLA, navrženého pro použití na serveru s GPU třídy jedné pracovní stanice. FLaRe (ICRA 2025) je analogem učení s posilovačem. Práce s kontinuálním učením na jemném ladění založeném na adaptérech (OMLA, LifeLong-RFT) vám umožňuje adaptovat se bez katastrofického zapomínání.
Nic z toho nefunguje s rychlostí cloudového round-tripu. Smyčka je hodnota a smyčka vyžaduje, aby data a výpočetní prostředky byly ve stejné budově.
Konkrétní příklad – humanoid v domácnosti
Abychom to upřesnili, představte si nejjednodušší funkční systém automatického označování pro humanoida, který provádí domácí úkoly (plnění myčky, skládání prádla, vyndávání věcí z označeného koše).
Záznam: Humanoid má stereo RGB kamery s frekvencí 30 fps, zápěstní kamery s frekvencí 15 fps, hloubku z aktivního sterea a stavy kloubů s frekvencí 200 Hz. Dvouhodinová relace vyprodukuje na integrovaném NVMe ~250 GB raw dat.
Synchronizace: Na konci relace robot nahraje data na server K-AI v laboratoři přes kabel nebo Wi-Fi 6E, přibližně 5–10 minut pro 250 GB.
Fáze 1+2 (Uzemněný-SAM 2): Detekce s otevřenou slovní zásobou s doménovou slovní zásobou přibližně 200 podstatných jmen z domácnosti („hrnek“, „špachtle“, „koš na prádlo“, „modrá utěrka“…) plus vlastní koncové efektory agenta. SAM 2 šíří masky pomocí klipů. Nástěnné hodiny na 8× 5090: ~45 minut.
Fáze 3 (Qwen2.5-VL): 7B VLM v každém snímku pro krátký popis, 72B v každém desátém snímku pro bohatší popis a vztahy mezi objekty. Nástěnné hodiny: ~3 hodiny.
Fáze 4 (graf scény): Akumulátor ve stylu ConceptGraphs vytváří perzistentní 3D graf scény bytu. Do konce týdne je každý objekt, který robot viděl, v grafu uložen se stabilním ID, jazykovými deskriptory a hrubou 3D pozicí. Nástěnné hodiny: několik minut na relaci, amortizované.
Fáze 5 (recenze): Interní nástroj vyhledává snímky, u kterých je spolehlivost třídy VLM < 0.6 nebo u kterých se Fáze 1 a Fáze 3 neshodují v určení třídy. Recenzent zpracovává přibližně 500 snímků za hodinu. Při vzorkovací frekvenci 5 % během dvouhodinové relace to odpovídá zhruba hodině lidského času denně.
Fáze 6 (trénink): Opravené popisky se používají pro jemné doladění VLA ve stylu OFT. Server K-AI to spouští přes noc na stejném hardwaru, který provedl automatické popisky – úlohy jsou sekvenční, nikoli souběžné.
Toto není výzkumný myšlenkový experiment. Toto je to, co 1X, Skild AI a publikované skupiny používající OpenVLA ve skutečnosti dělají v roce 2026, modulo interních variací. Vývojový kanál je otevřený, modely jsou otevřené, úzkým hrdlem je výpočetní a inženýrské úsilí – nikoli přístup k algoritmům.
Poctivé limity
Tři věci, které by tento článek neměl nechat bez povšimnutí:
Halucinace jsou skutečné a přetrvávající. I s dvoustupňovou kontrolou nemůžete důvěřovat nekontrolovaným automatickým popiskům pro školení kritické z hlediska bezpečnosti (vyhýbání se kolizím, rozhodování o kontaktu, cokoli, kde by nesprávný popisek mohl poškodit robota nebo osobu). Používejte je pro školení schopností, nikoli pro školení bezpečnosti. Z bezpečnostních důvodů stále chcete pečlivě vybraná data.
Uzemnění mimo rozvodnou síť se rychle opotřebovává. VLM trénovaný primárně na webových obrázcích bude vynikající v kuchyních a kancelářích a znatelně horší bude v dílně CNC nebo na nemocničním oddělení. Řešením je doladění samotného automatického označování specifického pro danou doménu, což má své vlastní náklady.
Světový model je křehký vůči změnám prostředí. ConceptGraphs a jeho přátelé předpokládají, že svět je mezi návštěvami zhruba statický. Přesuňte nábytek a graf scény je třeba znovu sestavit nebo agresivně znovu validovat. Na tomto tématu se aktivně pracuje (online grafy scén s otevřenou slovní zásobou, článek Naver Labs z roku 2025 a další), ale model světa považujte za doporučující, nikoli směrodatný.
Výpočetní odhady jsou zde hrubé. Všechna čísla na snímek závisí na strategii dávkování, kvantizaci, délce výzvy a rozlišení obrazu. S tabulkou zacházejte jako s řádem velikosti. Řád velikosti je to, co je důležité pro dimenzování boxu.
Co dělat dál
Pokud zvažujete, zda pořídit zásobník pro automatické označování:
- Rozhodněte se, co vlastně potřebujete označené. Pouhé rámečky a masky – Grounded-SAM 2 na jedné GPU je dostatečný. Popisky a relace – potřebujete minimálně 7B–11B VLM. Bohaté popisy pro školení VLA – potřebujete třídu 72B a musíte si poctivě rozvrhnout rozpočet na hodiny strávené na GPU.
- Proveďte audit vaší domény. Jsou objekty, které vás zajímají, součástí trénovací distribuce detektorů s otevřenou slovní zásobou? Pokud pracujete převážně v kuchyních, kancelářích nebo skladech – ano. V průmyslových nebo lékařských specializovaných oblastech – než se rozhodnete pro automatické označování, naplánujte si jeho doladění.
- Naplánujte úroveň hodnocení od prvního dne. Vyberte si nástroj (Roboflow, Labelbox, V7 nebo nějaký vlastní s nejistotou založeným vzorkováním) a v rozpočtu naplánujte alespoň jednoho recenzenta na plný úvazek na každých deset robotických hodin záznamu denně. Systém automatického označování nenahrazuje lidi, ale mění jejich práci.
- Velikost výpočtu pro krok 72B. Ostatní fáze se hodí na cokoli. 72B VLM ve velkém měřítku je položka, která ospravedlňuje server s 8 GPU. Pokud váš pipeline používá pouze VLM třídy 7B, postačí 4GPU server. Pokud chcete bohatší popisy a uzavřenou smyčku s jemným doladěním kadence, chcete konfiguraci s 8 GPU.
- Umístěte úložnou vrstvu na NVMe a studenou vrstvu na rotující disk. Týden záznamů o vozovém parku má velikost terabajtů. Automatické označování je při použití menších modelů častěji omezeno I/O operacemi než výpočetními operacemi GPU.
Sestava Kentina má K-AI 256 Turin Dual / 8× RTX 5090 dimenzováno pro tuto pracovní zátěž na straně spotřebitelského křemíku a K-AI 4× RTX Pro 6000 Blackwell na konci s vyšší pamětí VRAM, pokud chcete současně uchovávat více velkých VLM. Ceny a podrobnosti o sestavení naleznete na příslušných stránkách produktů a v budoucím článku I05, který se provede kompletní referenční sestavením.
Nejnovější verze tohoto balíčku se posouvá každé čtvrtletí – SAM 3 je šest měsíců starý, Qwen3-VL právě dorazil, Cosmos Reason 2 je čerstvý – takže konkrétní modely v tomto článku budou zastarávat dříve než architektura. Samotná architektura je nyní stabilní. Krabice, masky, popisky, graf scény, kontrola, trénování, nasazení. Tato smyčka nikam nevede.
Toto je součást Kentino Wiki, referenční série o výpočetní technologii s využitím umělé inteligence, robotice a systémech, které je propojují. Komentáře a opravy vítány na adrese info@kentino.com.