Google оцифровала 25 млн. книг — почему их нельзя читать?

Захватывающая история о том, как человеческая наивность и жадность задушили самый амбициозный IT-проект тысячелетия — проект по оцифровке всех-всех книг, которые только есть в мире. Опубликована в The Atlantic, мы же предлагаем относительно краткий пересказ.

Из идеи об оцифровке книг и возможности мгновенно искать в них любые отрывки текста родилась Google. Ларри Пейдж и Сергей Брин задумывали создать поисковик не по интернету, но по книгам. Но вышло иначе, а к идее о том, чтобы перевести в цифровой формат все книги они вернулись только в начале «нулевых».

Проект по оцифровке всех сначала американских, а затем вообще всех-всех книг получил кодовое название «Project Ocean». Даже в самой Google те сотрудники, что не были в него вовлечены, рассматривали идею как нечто, слабо совместимое с реальностью. Нечто вроде нынешней «хотелки» Илона Маска отправить человека на Марс. Но проект поддерживали сам Пейдж и Брин, так что у него, разумеется, был более чем зеленый свет.

Начиная с 2002 года Google начала жадно сканировать все книги, до которых могла дотянуться. Для этого она договорилась с крупнейшими библиотеками США и организовала специальные центры сканирования, в которые книги из библиотек свозили фурами. Это не фигура речи — логистически «Project Ocean» был не менее сложным, чем технически.

Да, для реализации проекта Google пришлось придумать специальные «железо» и «софт» — ведь до нее на тот момент задачу быстрого сканирования миллионов книг еще никто не решал.

Сканируемая книга жестко закреплялась на специальном стенде, сверху на нее смотрели несколько фотоаппаратов, а лидар («трехмерный радар») определял точное положение листов книги в пространстве, чтобы позже специальное программное обеспечение учитывало это и «распрямляло» криво сфотографированные листы бумаги.

Таким образом, в Google решили самую большую проблему при оцифровке книг — их точном закреплении при сканировании, чтобы все получалось ровно и красиво. Тут «голова болела» об этом не у людей, а у программы и ее алгоритмов.

Интересно, что при всей технологической навороченности стендов для «сканирования» книг, листы вручную переворачивали люди — машины не могли делать это достаточно быстро и одновременно достаточно нежно. Ведь перевести в цифровой формат нужно было и старые, и очень старые книги, обращаться с которыми надо было исключительно аккуратно.

Читать дальше: Google оцифровала 25 млн. книг — почему их нельзя читать?

Leave a Reply