Kluczowe było opracowanie całych dokumentów przy niewielu danych na temat języka. „Wsparliśmy tłumaczenie innymi metodami” – wyjaśnia Gabriela Pałka.
Rozpoznawaniem jednostek nazwanych, czyli lokalizacje, imiona, nazwiska, albo nazwy wydarzeń. I poziom tłumaczenia tak zwany „document level”, skupiający się na dokumentach, gdyż w większości tłumaczenie polega na tłumaczeniu zdania po zdaniu, a tutaj faktycznie newsy czy artykuły są pełnymi dokumentami i dla systemów sztucznej inteligencji jest to ważne, żeby ten kontekst zachować.
System składa się niejako z dwóch sztucznych inteligencji. Jedna tłumaczy, a druga ocenia jakość tłumaczenia.
W zwycięstwie pomógł wybór języków czeskiego i ukraińskiego. „W internecie nie ma dużo danych i przetłumaczonych tekstów” – tłumaczy Artur Nowakowski.
Po pierwsze, na tego typu parze językowej mogliśmy zastosować więcej ciekawych i autorskich metod i zobaczyć, że rzeczywiście poprawiają one jakość tłumaczenia. A po drugie, nie potrzebowaliśmy aż tyle zasobów obliczeniowych. Bo im więcej danych posiadamy, tym więcej zasobów potrzeba, żeby stworzyć taki system tłumaczenia. I gdybyśmy wzięli udział w parze językowej angielski-niemiecki, dużo ciężej byłoby nam wygrać z Google Translatorem.
Tworzenie systemu tłumaczenia zajęło około 2 miesiące. Konferencja podsumowująca tegoroczne wyniki konkursu odbędzie się na początku grudnia w Abu Dhabi.