Výzkumník strojového učení pro zpracování řeči

Jméno/Firma
Seznam.cz, a.s.
Pracoviště
Praha
Úvazek
Plný
Vytvořeno
11. 10. 2024

O pozici

Náš tým se specializuje na vývoj a zdokonalování technologií syntézy a automatického rozpoznávání řeči. Pracujeme na celé škále úkolů – od tvorby a validace dat, přes trénování modelů, až po jejich evaluaci a optimalizaci. Naše modely trénujeme na vlastním výkonném GPU clusteru. Součástí naší práce je také pravidelný prostor pro osobní a profesní rozvoj.

Jsme součástí výzkumného oddělení zaměřeného na oblast vyhledávání, což nám poskytuje možnost pracovat na široké škále projektů v oblasti strojového učení. Problematiku řešíme kolektivně a pro modelování využíváme nejmodernější postupy a technologie. Ačkoliv se zaměřujeme především na aplikovaný výzkum, snažíme se věnovat i publikování: z nedávné doby můžeme zmínit dva NLP články: CWRCzech: 100M Query-Document Czech Click Dataset and Its Application to Web Relevance Ranking a Some Like It Small: Czech Semantic Embedding Models for Industry Applications.

Základní předpoklady

  • Praxe v oblasti zpracování řeči.
  • Umíte programovat v jazyce Python a navrhovat efektivní algoritmy.
  • Orientujete se v problematice strojového učení.
  • Ovládáte základy Linuxu.

Součástí práce výzkumníka je

  • Podílení se na formování zadání výzkumné úlohy a analýzy problému
  • Příprava a analýza dat – Python, pandas, Polars
  • Učení ML modelů – hlavním cílem je mít co nejlepší modely pro automatické rozpoznání řeči a její syntéze, což mj. zahrnuje i spoustu menších modelů
  • Aplikace state-of-the-art metod pro zpracování řeči
  • Týmová spolupráce při řešení problému a tvorbě kódu – Git, code review
  • Vyhodnocení navržených řešení, interpretace a prezentace výsledků
  • Předávání modelů a kódu do produkce např. pomocí Docker containerů

Co nabízíme

  • Zajímavou a rozmanitou práci, řešení netriviálních problémů
  • Velká data, možnost anotací
  • Dostáváme věci do produkce, přímý dopad na miliony uživatelů,
  • Vlastní výkonné servery, dedikovaná výpočetní kapacita
  • Sdílení znalostí a zkušeností napříč Seznamem
  • Osobní rozvoj – vzdělávání, reading groups a konference (v případě zájmu i veřejné přednášky na univerzitách a akcích)
  • Super kolektiv a neformální a přátelské prostředí – všichni si tady tykáme a nemáme předepsaný dress code