AI výzkumník generativních jazykových modelů
O pozici
Naším cílem je tvorba a rozvoj velkých jazykových modelů pro interní LLM platformu. Na vlastním výpočetním klastru s nejmodernějšími AI akcelerátory Nvidia H100 učíme modely ve velikosti desítek miliard parametrů. Naše zodpovědnost začíná technickým zprovozněním distribuovaného učení a končí předáním modelu do produkce. Chystáme experimenty, data, měření a neobejdeme se bez neustálého studia SOTA přístupů.
První generaci vlastních modelů máme nasazenou v provozu a modely dále iterativně rozvíjíme v obecné kvalitě i specifických vlastnostech, např. velikost kontextu, function calling, strukturovaný výstup, multimodalita nebo finetuning/preference optimization pro konkrétní downstream task.
Jsme součástí oddělení výzkumu na vyhledávání, díky čemuž máme možnost sledovat řadu projektů týkajících se strojového učení. Samotný výzkum velkých jazykových modelů funguje distribuovaně (Praha, Brno, Zlín), přesto je řada příležitostí k setkání celého týmu, ať už pracovním nebo teambuildingovém. Úzce spolupracujeme s MLOps týmem, který se stará o LLM platformu, na které naše modely běží produkčně.
Základní předpoklady
- Máte netriviální zkušenost s velkými jazykovými modely: ideálně učení nebo vyhodnocování LLM, příp. pokročilé promptování
- Máte dobrou znalost strojového učení, neuronových sítí a architektury Transformers
- Umíte programovat v Pythonu, vč. znalosti algoritmizace
Součástí práce výzkumníka pro LLM je
- Tvorba experimentů - PyTorch, HF Transformers
- Spouštění experimentů v distrubuovaném prostředí (multi-node) - linux, Docker, k8s, DeepSpeed/FSDP
- Příprava a analýza dat – python, HF Datasets, Pandas, PySpark apod.
- Tvorba metrik a vyhodnocování modelu
- Studium State-of-the-Art literatury
- Týmová spolupráce při řešení problému a tvorbě kódu – Git, code review
Co nabízíme
- Zajímavou a rozmanitou práci, řešení netriviálních problémů
- Možnost podílet se na rozvoji velkých jazykových modelů
- Práce s velkými daty, možnost nechat si data anotovat
- Dostáváme věci do produkce, přímý dopad na miliony uživatelů
- Vlastní klastr s kartami nvidia H100 a další výkonný hardware
- Osobní rozvoj – vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
- Sdílení znalostí a zkušeností napříč Seznamem
- Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code