LJSear.ch - služba pro ty, kteří potřebují soubory „Živá Journal“
Webové Služby / / December 24, 2019
Chcete najít ve sto let starém záznamu o „Learn“, ale nemůže, protože možnosti hledání jsou omezeny na jeden měsíc? Budete bezplatná služba LJSear.ch, Který obsahuje archivy ruského jazyka-LiveJournal pro období 2000-2015. Diskuse o tom jeho autor Roman Ivanov (kukutz).
Roman Ivanov
Product Manager v "Yandex". Zahájila hledání blogu personalizované vyhledávání „Yandex“, několik verzí „Yandex. Mail "služby" Yandex. Lenta "" Ya.ru "" Yandex. Pictures „a několik dalších. To je nyní zabývá „Yandex. Browser „a LJSear.ch.
Co je LJSear.ch?
„Learn“ To je více než terabajt archivech. Indexována a je k dispozici pro vyhledávání 340 milionů příspěvky a komentáře 1 miliarda od roku 2000 do podzimu roku 2015. A to vše s známý blog vyhledávací nástroje: Limit podle autora, podle data, podle komunitou.
Nové položky nejsou indexována, protože považujeme za náš projekt jako archiv, pamětní.
Projekt je zcela neziskový, žádná reklama, a další způsoby, jak vydělat peníze není určen.
Proč potřebuji službu?
Na podzim roku 2015 vyhledávací funkce pro blogy „Yandex“ byly omezeny pouze na poslední měsíc. Vysvětlení bylo prosté: drtivá většina lidí, kteří hledají
informaceSpojený s nedávnými záznamů a hluboká vyhledávání pro ně je nadbytečný.Je to pravda. Minulý měsíc je dost pro úkoly, jako je pravidelné sledování nebo marnost vyhledávání názorů některých nedávných událostí. Ale je tu problém, a hlubší výzkum.
Domnívám se, že v „Learn“ se stalo, nebo alespoň se projevilo téměř všechny rusky mluvící kultury nulové let. Hodnota tohoto archivu nelze přeceňovat. Když se „Yandex“ má uzavřený vyhledávání v archivu, jsem velmi zklamán, protože přesvědčen, že toto shromažďování informací musí být zachována pro lidstvo. No a já se zeptal: „Yandex“ archivy, a náhle souhlasil a dal jim.
Archiv zcela unikátní, protože tolik nelze stáhnout v „Learn“. Mnoho časopisů jsou odstraněny jejich autorů, z nichž některé rozbité a zničena hackery, v některých případech, záznamy nejsou odstraněny, ale skrytý pod zámkem.
Posledních šest měsíců na I byl zodpovědný za to, že data nejsou ztraceny. Zavolal jsem na pomoc přátel, mezi nimiž byli i tací, kteří se dohodli na pomoci pochopit, zda můžeme tyto informace k dispozici pro vyhledávání. Vytvořili jsme servisní LJSear.ch a zřejmě ho k tomu vedlo ke stavu rozumný.
Dobrovolníci byli mnozí?
Byly nalezeny. Uznávaný odborník v oblasti UX Kohl Zayarny Přišel jsem s návrhem. Sasha Belyanskiy Vzal jsem Bem-vorstku a frontend na Node.js. Spaceinvaderz zabývá systemické podávání. Backend programování v PHP jsem začal na základě prototypu samotného, který dělal můj přítel Tobe.
Největším problémem byla železná: kdo bude platit za hosting? Přátelé jisti, že můžete sbírat peníze na kraudfandingovyh míst, ale byl jsem skeptický. A tam jsou skvělí lidé k nám přišla z Servers.ru a nabídl pomoc. Výsledkem je, že máme velkou dedikovaný server s SSD indexovat a vyhledávat backend a mrak virtuální server frontendu.
Kdo může mít zájem na projektu?
Jako nové záznamy nejsou indexována, publikum, což soudím - jsou výzkumní pracovníci. Jak doslova výzkumníci kulturní vrstvy s nulovým let a současných nebo bývalých uživatelů „Learn“, kteří chtějí najít něco, co bylo napsáno v těch letech. A protože jsem neměl omezovat maximální doby provedení vyhledávání: vyšetřovatel může čekat na složité dotazy a minutu a dvě. Samozřejmě, že jednoduché dotazy jsou prováděny rychle, a je-li služba zjistí, že dotaz je dnes hodně, to zahrnuje řízenou degradaci, včetně limitů časový limit žádosti.
LJSear.ch →