Google научился распознавать и индексировать отсканированные документы

Google продолжает расширять возможности своей поисковой системы. С недавних пор компания начала распознавать и индексировать отсканированные бумажные документы.



Как сообщается в блоге Google, при работе с отсканированными носителями применяется специальная технология оптического распознавания. Пока система распознает только файлы, сохраненные в формате Portable Document Format (PDF). Полученные данные затем добавляются в индекс Google, что делает возможным поиск по документам, изначально существовавшим только в бумажном виде. Вполне вероятно, в перспективе к формату PDF будет добавлена поддержка и других типов файлов.

Между тем, как сообщает журнал Wall Street Journal, поисковый гигант Google может отказаться от рекламной сделки с Yahoo. По условиям подписанного договора, рекламные ссылки Google в течение четырех лет должны демонстрироваться пользователям поисковика Yahoo, проживающим на территории Соединенных Штатов и Канады. Однако зеленый свет сделке, которая была заключена еще в середине июня, до сих пор не дает Министерство юстиции США. Поэтому, как отмечает Wall Street Journal, Google и Yahoo могут объявить об отказе от сотрудничества уже на следующей неделе. Впрочем, официально стороны данную информацию пока не подтверждают.