Internet Archive закачает на Flickr более 14 млн свободных исторических изображений
|
|
Суббота, 30 Августа 2014 г. 11:42
+ в цитатник
Один из работников Internet Archive разработал программу для автоматического извлечения иллюстраций из миллионов книг в процессе OCR-сканирования, которое сейчас осуществляет Internet Archive. Калев Литару (Kalev Leetaru) использовал существующий модуль распознавания текста: тот сначала определяет границы иллюстраций, чтобы отбросить иллюстрации перед OCR. Но зачем материалу пропадать?
Все извлечённые иллюстрации были выровнены, кадрированы, очищены и закачаны на фотохостинг Flickr с сопровождающим текстом из книги. Таким образом, возможен полнотекстовый поиск по архиву иллюстраций
Internet Archive Book Images, которые находятся в общественном достоянии.
Всего на Flickr закачают
14 млн картинок (на данный момент закачано 2,6 млн).
Читать дальше → http://habrahabr.ru/post/235031/
Метки:
Обработка изображений
Creative Commons
Wikipedia
Internet Archive
Flickr
public domain
OCR
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-