Частотный биграммный анализ на Python |
Понадобилось мне для одного проекта, о котором хотелось бы отдельно написать через недельку, узнать частотность (как базовую, так и парную) буквенных символов в русском и английском языках.
Побродив по бескрайним просторам интернета, я с удивлением обнаружил, что исследований на такую базово простую, и в то же время локально востребованную тему преступно мало. Их буквально можно пересчитать по пальцам.
Для английского языка было найдено 12 более или менее достоверных анализов для базовой символьной частотности, из которых только 3 обладают внушительными базовыми выборками, и 5 биграммных анализов (парная частотность), из которых внушительной выборкой могут похвастать лишь 2.
Для русского ещё хуже – 7 анализов базовой частотности, из которых 3 без указанного значения выборки, остальные же в пределах хx106 символов. Биграммных – 3, один из которых сделан по единственной книге «Преступление и наказание», а второй на 5.000 символов.
Несложно догадаться, как обстоит дело с менее популярными языками.
Читать далееhttps://habr.com/ru/post/583304/?utm_source=habrahabr&utm_medium=rss&utm_campaign=583304
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |