Yandex naučil neuronové sítě dešifrovat archivní záznamy pomocí složitého pravopisu
Různé / / April 03, 2023
Historické rukopisy, které člověk jen těžko analyzuje, umělá inteligence téměř okamžitě převede do tištěného textu.
Yandex spustil novou službu s názvem Archive Search, která využívá neuronové sítě k dešifrování archivních záznamů pomocí složitého předrevolučního pravopisu.
Služba poskytuje přístup k více než 2,5 milionům stránek historických dokumentů s textovými přepisy. Jeho algoritmus, postavený na bázi optického systému rozpoznávání znaků, zohledňuje zvláštnosti rukopisu, rozpoznává písmena, která ztratila svou relevanci, a rozumí zvláštní struktuře archivních dokumentů.
Specialisté společnosti trénovali neuronovou síť na datovém poli stovek tisíc ručně psaných řádků ze skutečných textů 18.-19. století a desítek milionů generovaných příkladů.
Rukopisy, které je pro nepřipraveného člověka obtížné analyzovat, technologie Yandex téměř okamžitě přemění na tištěný text. Díky tomu můžete v databázi služby rychle najít dokumenty s uvedením příjmení, lokality, případně dalších slov.
„Pátrání v archivech“ zvýší efektivitu práce historiků, sociologů, demografů, genealogů a pomůže těm, kteří hledají informace o své rodině.
Prvním fondem prezentovaným ve službě byl hlavní archiv Moskvy - na jeho materiálech vývojáři trénovali neuronovou síť. Databáze obsahuje také dokumenty z archivů Orenburgské a Novgorodské oblasti. Postupem času se počet úložišť a dostupných naskenovaných souborů zvýší.
Můžete vyhledávat materiály z 18. - počátku 20. století, které jsou mezi uživateli nejoblíbenější. Jedná se o farní matriky, zpovědní archy a revizní pohádky s výsledky sčítání lidu. Dokumenty lze nalézt v katalogu nebo prostřednictvím vyhledávacího pole. Jsou zde filtry podle let, archivů, fondů a inventářů.
Vedle skenování každé stránky se zobrazí řádkové dekódování vytvořené neuronovými sítěmi. Pokud najedete na požadovaný fragment, okamžitě se zvýrazní na digitální kopii.