Теория большой свалки: ищем научные документы на просторах интернета

Среда, 06 Июня 2018 г. 13:34 + в цитатник

Система «Антиплагиат» – это специализированный поисковик. Как и положено поисковику, с собственным движком и поисковыми индексами. Самый большой наш индекс по количеству источников – конечно же, у русскоязычного интернета. Довольно давно мы решили, что будем помещать в этот индекс все, что является именно текстом (а не картинкой, музыкой или видео), написано на русском языке, имеет размер больше 1 кб и не является «почти-дубликатом» чего-то, что уже есть в индексе.

Такой подход хорош тем, что он не требует сложных предварительных обработок и минимизирует риски «выплеснуть с водой ребенка» – пропустить документ, из которого потенциально может быть заимствован текст. С другой стороны, в результате мы мало знаем, какие именно документы находятся в итоге в индексе.

По мере роста интернет-индекса – а сейчас, на секундочку, это уже более 300 млн документов только лишь на русском языке – возникает вполне естественный вопрос: а много ли в этой свалке действительно полезных документов.

И раз уж мы (yury_chekhovich и Andrey_Khazov) занялись такой рефлексией, то почему бы нам заодно не ответить еще на несколько вопросов. Сколько проиндексировано научных документов, а сколько ненаучных? Какую долю среди научных статей занимают дипломы, статьи, авторефераты? Каково распределение документов по тематикам?

Так как речь идет о сотнях миллионов документов, то необходимо использовать средства автоматического анализа данных, в частности, технологии машинного обучения. Конечно, в большинстве случаев качество экспертной оценки превосходит машинные методы, но привлекать человеческие ресурсы для решения столь обширной задачи оказалось бы слишком дорогим удовольствием.
Читать дальше ->

https://habr.com/post/413361/?utm_source=habrahabr&utm_medium=rss&utm_campaign=413361

<a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post435999940/">РўРµРѕСЂРёСЏ Р±РѕР»СЊС€РѕР№ СЃРІР°Р»РєРё: РёС‰РµРј РЅР°СѓС‡РЅС‹Рµ РґРѕРєСѓРјРµРЅС‚С‹ РЅР° РїСЂРѕСЃС‚РѕСЂР°С… РёРЅС‚РµСЂРЅРµС‚Р°</a><br/>РЎРёСЃС‚РµРјР° В«РђРЅС‚РёРїР»Р°РіРёР°С‚В» вЂ“ СЌС‚Рѕ СЃРїРµС†РёР°Р»РёР·РёСЂРѕРІР°РЅРЅС‹Р№ РїРѕРёСЃРєРѕРІРёРє. РљР°Рє Рё РїРѕР»РѕР¶РµРЅРѕ РїРѕРёСЃРєРѕРІРёРєСѓ, СЃ СЃРѕР±СЃС‚РІРµРЅРЅС‹Рј РґРІРёР¶РєРѕРј Рё РїРѕРёСЃРєРѕРІС‹РјРё РёРЅРґРµРєСЃР°РјРё. РЎР°РјС‹Р№ Р±РѕР»СЊС€РѕР№ РЅР°С€ РёРЅРґРµРєСЃ РїРѕ РєРѕР»РёС‡РµСЃС‚РІСѓ РёСЃС‚РѕС‡РЅРёРєРѕРІ вЂ“ РєРѕРЅРµС‡РЅРѕ Р¶Рµ, Сѓ СЂСѓСЃСЃРєРѕСЏР·С‹С‡РЅРѕРіРѕ РёРЅС‚РµСЂРЅРµС‚Р°. Р”РѕРІРѕР»СЊРЅРѕ РґР°РІРЅРѕ РјС‹ СЂРµС€РёР»Рё, С‡С‚Рѕ Р±СѓРґРµРј РїРѕРјРµС‰Р°С‚СЊ РІ СЌС‚РѕС‚ РёРЅРґРµРєСЃ РІСЃРµ, С‡С‚Рѕ СЏРІР»СЏРµС‚СЃСЏ РёРјРµРЅРЅРѕ С‚РµРєСЃС‚РѕРј (Р° РЅРµ РєР°СЂС‚РёРЅРєРѕР№, РјСѓР·С‹РєРѕР№ РёР»Рё РІРёРґРµРѕ), РЅР°РїРёСЃР°РЅРѕ РЅР° СЂСѓСЃСЃРєРѕРј СЏР·С‹РєРµ, РёРјРµРµС‚ СЂР°Р·РјРµСЂ Р±РѕР»СЊС€Рµ 1 РєР± Рё РЅРµ СЏРІР»СЏРµС‚СЃСЏ В«РїРѕС‡С‚Рё-РґСѓР±Р»РёРєР°С‚РѕРјВ» С‡РµРіРѕ-С‚Рѕ, С‡С‚Рѕ СѓР¶Рµ РµСЃС‚СЊ РІ РёРЅРґРµРєСЃРµ.

РўР°РєРѕР№ РїРѕРґС…РѕРґ С…РѕСЂРѕС€ С‚РµРј, С‡С‚Рѕ РѕРЅ РЅРµ С‚СЂРµР±СѓРµС‚ СЃР»РѕР¶РЅС‹С… РїСЂРµРґРІР°СЂРёС‚РµР»СЊРЅС‹С… РѕР±СЂР°Р±РѕС‚РѕРє Рё РјРёРЅРёРјРёР·РёСЂСѓРµС‚ СЂРёСЃРєРё В«РІС‹РїР»РµСЃРЅСѓС‚СЊ СЃ РІРѕРґРѕР№ СЂРµР±РµРЅРєР°В» вЂ“... <a href="https://www.liveinternet.ru/users/rss_habrahabr_of_lokoman/post435999940/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Статистика

Теория большой свалки: ищем научные документы на просторах интернета