|
| 3D, actions, adobe, ai, arrows, Brushes, Bugmenot, Coca-Cola, eps, Flash, Flash-часы, google, Icons, Illustrator, js, myspace, OCR-движок, Pepsi, photoshop, png, psd, RSS, Templates, vector, Аватарки, база логинов и паролей, Веб-дизайн, Векторный клипарт, Иконки, информация, Кисти, Кисточки, Клубные флаера, креатив, новый интерфейс фотошопа, Темы оформления для Mozilla Firefox, Уроки, фотографии галактики, Шаблоны, Шрифты
Показать все теги
|
|
| Новости / Google подключил OCR-движок для индексации PDF |
|
17 ноября 2008 mozilla 939 / 1 google, OCR-движок, информация |
Google сделал значительный шаг на пути к индексированию так называемой Невидимой сети, то есть той львиной части сетевого контента, которая до сих пор не поддаётся роботам поисковых систем. Это, в основном, запароленые сайты и различные базы данных, а также огромные массивы отсканированных документов в формате PDF. И Google, и многие другие поисковики без проблем индексируют PDF, если в нём есть текстовый слой (он хранится в стандартном текстовом формате в контейнере файла). Но подобных «правильных» PDF на самом деле довольно мало. Гораздо больше документов представляют собой обычные отсканированные копии в графическом формате, просто сохранённые в PDF. Поэтому для их индексации Google сейчас подключил OCR-движок. Теперь в индекс попадут миллионы недоступных ранее государственных отчётов, судебных решений и академических исследований. Вот некоторые примеры работы нового движка. Нужно напомнить, что в апреле Google научился обрабатывать выпадающие меню и другие HTML-формы в различных интерфейсах баз данных, это тоже важная технология по индексации Невидимой сети. |
 |
|