Internet Archive закачает на Flickr более 14 млн свободных исторических изображений

Суббота, 30 Августа 2014 г. 11:42 + в цитатник

Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?

Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций Internet Archive Book Images, которые находятся в общественном достоянии.

Всего на Flickr закачают 14 млн картинок (на данный момент закачано 2,6 млн).
Читать дальше →

http://habrahabr.ru/post/235031/

<a href="https://www.liveinternet.ru/users/rss_habrahabr/post335485746/">Internet Archive Р·Р°РєР°С‡Р°РµС‚ РЅР° Flickr Р±РѕР»РµРµ 14 РјР»РЅ СЃРІРѕР±РѕРґРЅС‹С… РёСЃС‚РѕСЂРёС‡РµСЃРєРёС… РёР·РѕР±СЂР°Р¶РµРЅРёР№</a><br/>

РћРґРёРЅ РёР· СЂР°Р±РѕС‚РЅРёРєРѕРІ Internet Archive СЂР°Р·СЂР°Р±РѕС‚Р°Р» РїСЂРѕРіСЂР°РјРјСѓ РґР»СЏ Р°РІС‚РѕРјР°С‚РёС‡РµСЃРєРѕРіРѕ РёР·РІР»РµС‡РµРЅРёСЏ РёР»Р»СЋСЃС‚СЂР°С†РёР№ РёР· РјРёР»Р»РёРѕРЅРѕРІ РєРЅРёРі РІ РїСЂРѕС†РµСЃСЃРµ OCR-СЃРєР°РЅРёСЂРѕРІР°РЅРёСЏ, РєРѕС‚РѕСЂРѕРµ СЃРµР№С‡Р°СЃ РѕСЃСѓС‰РµСЃС‚РІР»СЏРµС‚ Internet Archive. РљР°Р»РµРІ Р›РёС‚Р°СЂСѓ (Kalev Leetaru) РёСЃРїРѕР»СЊР·РѕРІР°Р» СЃСѓС‰РµСЃС‚РІСѓСЋС‰РёР№ РјРѕРґСѓР»СЊ СЂР°СЃРїРѕР·РЅР°РІР°РЅРёСЏ С‚РµРєСЃС‚Р°: С‚РѕС‚ СЃРЅР°С‡Р°Р»Р° РѕРїСЂРµРґРµР»СЏРµС‚ РіСЂР°РЅРёС†С‹ РёР»Р»СЋСЃС‚СЂР°С†РёР№, С‡С‚РѕР±С‹ РѕС‚Р±СЂРѕСЃРёС‚СЊ РёР»Р»СЋСЃС‚СЂР°С†РёРё РїРµСЂРµРґ OCR. РќРѕ Р·Р°С‡РµРј РјР°С‚РµСЂРёР°Р»Сѓ РїСЂРѕРїР°РґР°С‚СЊ?

Р’СЃРµ РёР·РІР»РµС‡С‘РЅРЅС‹Рµ РёР»Р»СЋСЃС‚СЂР°С†РёРё Р±С‹Р»Рё РІС‹СЂРѕРІРЅРµРЅС‹, РєР°РґСЂРёСЂРѕРІР°РЅС‹, РѕС‡РёС‰РµРЅС‹ Рё Р·Р°РєР°С‡Р°РЅС‹ РЅР° С„РѕС‚РѕС…РѕСЃС‚РёРЅРі Flickr СЃ СЃРѕРїСЂРѕРІРѕР¶РґР°СЋС‰РёРј С‚РµРєСЃС‚РѕРј РёР· РєРЅРёРіРё. РўР°РєРёРј РѕР±СЂР°Р·РѕРј, РІРѕР·РјРѕР¶РµРЅ РїРѕР»РЅРѕС‚РµРєСЃС‚РѕРІС‹Р№ РїРѕРёСЃРє РїРѕ Р°СЂС…РёРІСѓ РёР»Р»СЋСЃС‚СЂР°С†РёР№ Inte... <a href="https://www.liveinternet.ru/users/rss_habrahabr/post335485746/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Поиск по дневнику

-Подписка по e-mail

-Постоянные читатели

-Статистика

Internet Archive закачает на Flickr более 14 млн свободных исторических изображений