Výzkumník strojového učení pro Vyhledávání

Jméno/Firma
Seznam.cz, a.s.
Pracoviště
Brno
Úvazek
Plný
Vytvořeno
11. 10. 2024

O pozici

Ve výzkumu řešíme širokou škálu úloh pro Seznam vyhledávání z oblasti strojového učení, zejména zpracování webových stránek, textu či uživatelského chování, příležitostně i obrazu. Jelikož jsme zavedená firma se spoustou uživatelů, máme tak k dispozici velké množství různorodých dat, jejichž kvalitu zaručuje tým Bussiness Inteligence. Jako výzkum řešíme projekt od samého nápadu a formování zadání, přes přípravu dat a návrh hlavních metrik až po spolupráci na nasazení. Modely učíme na našich dedikovaných serverech s grafickými kartami pro větší výpočty. Udržování si přehledu v aktuálních trendech je nedílnou součástí naší práce, proto klademe velký důraz na vzdělávání ať už samostudiem nebo v pravidelných organizovaných reading groups. Výzkumníci mají možnost vycestovat na konferenci či přednášet na univerzitách.Jsme tým který, rád řeší různorodé problémy. Naši práci lze vidět na několika komponentách napříč celým vyhledáváním jako je například Autocomplete, Relevance a vektorové hledání pro obrázkové vyhledávání, Abtesty, Související dotazy, detekce jmenných entit v dotazu, Detekce botů atd. Řešení zakládáme na state-of-the-art algoritmech finetunovaných na konkrétní problém na datech anotovaných našimi anotátory. Velkou výhodou je, že máme k dispozici vlastní GPU clustr. O vývoji projektů rádi diskutujeme společně, a proto se potkáváme v kanceláři 3x týdně (po obědě spolu s kafem dáme občas i partičku pingpongu).

Základní předpoklady

  • Umíte programovat v jazyce Python a navrhovat efektivní algoritmy
  • Orientujete se v problematice strojového učení
  • Ovládáte základy Linuxu
  • Máte praxi v oboru alespoň 1 rok

Součástí práce výzkumníka je

  • Podílení se na formování zadání výzkumné úlohy a analýzy problému
  • Příprava a analýza dat - Python, pandas, (Py)Spark, Polars
  • Učení ML modelů - pracujeme se širokou škálou modelů od rozhodovacích lesů (XGBoost/CatBoost) až po hluboké neuronové sítě (PyTorch)
  • Aplikace state-of-the-art metod pro zpracování jazyka a obrazu
  • Týmová spolupráce při řešení problému a tvorbě kódu - Git, code review
  • Vyhodnocení navržených řešení, interpretace a prezentace výsledků
  • Předávání modelů a kódu do produkce např. pomocí Docker containerů

Co nabízíme

  • Zajímavou a rozmanitou práci, řešení netriviálních problémů
  • Velká data, možnost anotací
  • Vyrábíme prototypy pro řešení těžkých problémů,
  • Dostáváme věci do produkce, přímý dopad na miliony uživatelů,
  • Vlastní výkonné servery, dedikovaná výpočetní kapacita
  • Sdílení znalostí a zkušeností napříč Seznamem
  • Osobní rozvoj - vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
  • Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code
  • Možnost HO (až 3 dny v týdnu)