Google теперь индексирует и отсканированные документы
Компания Google объявила о внедрении ею новой технологии, благодаря которой этот популярный Интернет-поисковик уже индексирует отсканированные документы.
В новой технологии применено оптическое распознавание символов (Optical Character Recognition (OCR)) которое преобразует документ, сохраненный в формате PDF из картинки в текст. Раньше текст в виде образов было достаточно сложно найти Интернет-поиском, так как поисковик распознавал документ как картинку и не мог должным образом распознать ее.
«Раньше отсканированные документы крайне редко включались в результаты поиска, так как мы не были уверены в корректности их содержания. Сейчас же ситуация изменилась. Мы обрабатываем отсканированные документы данной технологией, в результате чего картинка превращается в сотни и тысячи слов, которые поддаются индексированию. Благодаря этому можно будет найти намного больше нужных и ценных документов, нежели ранее», - комментирует представитель Google Эвин Левей.
Новая технология значительно расширит поисковые возможности пользователей Google. Ведь теперь можно будет найти все, начиная от школьных документов и заканчивая правительственными отчетами, которые традиционно выкладываются в Интернет в PDF формате.
Источник:
news.1k.by