В новом выпуске "Рунетологии" Максим Спиридонов беседует с Михаилом Погребняком, сооснователем компании Kuznech, которая разработала технологию распознавания изображений и видео. Среди клиентов Kuznech - крупнейшие российский социальные сети "ВКонтакте", "Мой Мир" и "Одноклассники".
- В 2012 году Kuznech вели переговоры с Facebook о предоставлении социальной сети доступа к вашей технологии. Чем тогда все закончилось? В итоге они не взяли вашу технологию?
- Мы были в Калифорнии, и совершенно случайно нас познакомили с менеджером, который отвечал за подразделение "Фотографии" внутри Facebook. И буквально на следующий день мы пришли в офис социальной сети разговаривать с ним.
Мы рассказывали о себе, ему все очень понравилось, и мы расстались на том, что нам надо было сделать какое-то предложение. Когда мы узнали, что нужно в день обрабатывать около 250 миллионов новых фотографий, то опешили. Если честно, мы технологически не понимали, что с таким количеством делать.
Мы просто упустили момент своего счастья, птица удачи была на расстоянии вытянутой руки, но мы ее почему-то не схватили за хвост. Так произошло, всякое бывает.
- Почему не схватили? Что остановило?
- Любой поиск состоит из двух частей. Первая часть - это сами алгоритмы поиска, а вторая - это создание высоконагруженной системы, которая в состоянии обеспечивать сервисом всех желающих.
Если первая часть у нас была готова в тот момент, то есть мы умели искать изображения по похожести, то каким образом сделать так, чтобы система была высоконагруженной, и как ее интегрировать внутрь социальной сети, мы тогда не очень понимали. Осознание пришло гораздо позже, когда мы начали работать с "Одноклассниками" в России.
- Как я понимаю, в итоге Facebook приобрел Face.com и на их базе построил распознавание?
- Здесь все очень сложно. Надо понимать, что есть несколько технологий, которые находятся рядом друг с другом, и их все путают.
Одна из них - это поиск изображений. Когда мы ищем похожие изображения, мы не распознаем их. Мы можем искать машину, и это будет как фотография, так и граффити на доме. И в первом, и во втором случае мы найдем картинку, похожую на автомобиль.
Когда мы говорим о распознавании лиц, мы решаем две задачи. Сначала выясняем, что на фото есть человеческое лицо, потом мы его идентифицируем и говорим, что это Элтон Джон, это Барак Обама, а это Мелани Гриффит. Это совершенно другой класс задач, и он решается по-другому.
Face.com является компанией, которая занимается именно технологиями распознавания лиц, то есть Face detection и Face recognition. Если говорить о нашей истории, то к "Одноклассникам" мы попали по счастливому стечению обстоятельств. Компания Facebook купила Face.com, который по соглашению должен был отозвать все свои лицензии у конкурентов, то есть у других социальных сетей. "Одноклассники" объявили тендер на технологию детектирования лиц, то есть Face detection. Мы приняли участие и всех обыграли.
- Заявленные вами на сайте продукты - это, возможно, еще не конечный список, и, может, продукт-звезда еще не найден?
- Есть ощущение, что мы уже подходим к пониманию того, что нужно людям. Наша изначальная гипотеза состояла в том, что в интернете огромное количество фотографий и каждый день загружаются десятки миллиардов новых. Все они не описаны, у них нет тегов, их невозможно найти.
Мы думали, что если мы предоставим инструмент, который позволит искать эти фотографии, тегировать их, находить похожие, то он будет востребованным. Когда мы все сделали и вышли на рынок, выяснилось, что люди готовы это воспринимать как игрушку, но платить за это какие-то деньги не хотят. Нам было непонятно, как выстраивать какие-то механизмы монетизации.
- Иными словами, потребительского продукта не получилось?
- Мы сделали несколько прототипов, которые работали у фотохостингов. Компания Depositphotos была одним из пользователей нашего сервиса. Мы искали похожие фотографии для них и для всех заинтересованных организаций, но построить надежный бизнес, который бы устойчиво генерировал деньги, у нас с этим продуктом не получилось.
После этого возник проект "Одноклассники", и там сказали, что им очень интересно всё, что относится к Face detection и Face recognition. Поскольку у нас были определенные наработки, мы смогли поучаствовать. Наличие обученной группы позволило нам быстро улучшить результаты, которые мы показали в первом туре тендера, и позже мы достигли фантастических результатов и обогнали всех остальных.
Мы боролись с семью компаниями, и после этого к нам обратились другие потенциальные заказчики, которые говорили, что им очень интересно искать не изображения, а видео. Так мы начали серьезно заниматься видео.
Это было где-то год назад, и мы добились очень хороших результатов, сделали систему поиска и несколько индексаторов, запатентовали новый алгоритм. В результате мы сделали решение, которое сейчас работает в "Одноклассниках" и которое будет распространено на все социальные сети Mail.Ru Group.
- Несмотря на то что вы не единственные, кто работает в этом сегменте, есть такое ощущение, что все еще поиск в изображениях, тем более поиск в видео, не стал естественным и не вышел на тот уровень, когда он был бы сопоставим с текстовым поиском?
- Конечно. Вы пишете поисковый запрос на естественном языке, например, "где продается вечером пиво", "хочу купить себе новые шнурки для кроссовок желтого цвета" и так далее. Яндекс или Google, индексируя интернет, находят ответ на ваш вопрос.
Теперь представьте себе, каким образом вы сможете сделать такой видеозапрос. Сфотографировать желтые шнурки? Наверное, это вариант, но смысл заключается в том, что это не очень естественно. Людям и бизнесу нужны другие инструменты, и видеопоиск нужен для решения немного других задач.
К примеру, они связаны с нарушением авторских прав. Не секрет, что в интернете гигантское количество нелегальных копий, которые лежат в тех же социальных сетях, а собственники и акционеры социальных сетей заинтересованы в монетизации. Каким образом можно монетизировать нелегальную копию? Сначала ее нужно найти, заменить на легальную копию, потом перед легальной копией показать какую-то рекламу и получить за это деньги. Задача поиска нелегальных копий для социальной сети, в которой десятки и сотни миллионов видеофрагментов, - это большая и серьезная задача.
- Она более интересна правообладателям, потому что социальной сети, как правило, нужно, чтобы те или иные контентные объекты находились внутри нее без необходимости сильно запариваться с легальной стороной вопроса.
- Нет, подождите. Бизнес - это то, что зарабатывает деньги. В чем зарабатывание денег для социальных сетей в тот момент, когда она тратит свое компьютерное оборудование, жесткий диск, интернет на пиратское видео, которое лежит у нее на сервере? Это же не благотворительность.
Правильное понимание - это предложить механизм монетизации, когда я буду заходить во "ВКонтакте" или "Одноклассники", открывать сериал "Кухня в Париже" и смотреть этот сериал, но при этом увижу 20-секундные ролики, которые будут очень таргетированы под меня, потому что я зарегистрирован в этой социальной сети и она про меня все знает. Рекламодатель будет платить деньги, которые будут делиться между всеми участниками процесса, то есть между правообладателями, социальными сетями и компанией, которая сделала механизм поиска.
- В идеальном варианте в идеальном мире было бы так. Сейчас же российские социальные сети находятся на переходном этапе к этому движению. Психология, подобная вашей, помогает скорее правообладателям, дополнительно подталкивает соцсети, и они вместе находят пути монетизации, устраивающие их и почти не травмирующие пользователей.
- Это только один аспект. Каждый из нас понимает, что средний фильм длиной в один час будет весить не меньше гигабайта. Теперь представим, что это большая социальная сеть и что фильм загрузило 12 000 человек. Сеть будет хранить 5000 копий этого фильма, все эти копии будут разного качества и с разными названиями. Это дисковое пространство, которое тоже стоит недешево.
Чего хочет социальная сеть? Она хочет найти все копии, оставить только одну в самом хорошем качестве, а остальные удалить и поставить на них ссылку на видео в хорошем качестве. Представляете, какое большое количество денег можно сэкономить на капитальных затратах?!
- Еще раз можно повторить то, что вы - одна из технологий этаких санитаров леса, которая сегодня помогает навести порядок в правовом поле в области пиратского контента.
- Пиратский контент - это раз. Роскомнадзор не дремлет, скоро ко всем придет Никита Михалков и спросит: "Где?", и на его вопрос надо будет ответить в течение 48 часов по закону.
Два - это решение технологических задач с точки зрения работы
с медиаконтентом.
Третий момент связан с тем, что мы делаем разнообразные системы, которые умеют внутри контекста изображения понимать, какой тип видео показывать. Мы сделали систему, которая может понять, является ли данный фильм эротическим или порнографическим.
Не секрет, что огромное количество такого видео загружается в социальные сети, и площадка может автоматически детектировать такие фильмы и помечать, что они не предназначены для широкого показа, и убирать в закрытые комьюнити, в которых находятся любители подобных фильмов. Таким образом соцсети предотвращают доступ к подобному контенту несовершеннолетних школьников, наших же детей. Это тоже очень непростые задачи, которые мы умеем решать.
- Правильно ли я понимаю, что вы стремитесь найти разные способы применения и коммерциализации своих технологий?
- Да, это так. Сначала мы думали о том, что сможем создать такой продукт, который будет работать с конечным пользователем, с консьюмером, то есть по модели B2C. Примерно через полгода разнообразных попыток мы узнали, что либо не понимаем, как это надо сделать, либо нет рынка.
- Что вы пробовали сделать? Самое логичное - поисковая система по изображениям.
- Это классно, это супер. Идея лежит на поверхности, но дальше возникает основной вопрос "Кто за это заплатит деньги?". Вы сделали, потратили полмиллиона долларов на кучу серверов, мощный интернет, проиндексировали два миллиарда картинок. Дальше возникает вопрос "Откуда берутся деньги?".
Ты начинаешь общаться с людьми и понимаешь, что, скорее всего, денег нет. Или они есть, но для того чтобы они появились, тебе нужно найти еще несколько десятков миллионов долларов инвестиций, чтобы начать закупать трафик, заводить людей, показывать большой неорганический рост, и, возможно, это кого-то привлечет. Получается велосипед.
В тот момент у нас не было инвестиционных денег, которые нам могли бы дать на то, чтобы мы могли это сделать. И не было четкого понимания, что даже если мы все это сделаем, то это привлечет какие-то инвестиции или какую-то рекламную модель, которая позволит нам монетизировать проект.
- Как я понимаю, в B2C вы так и не пошли. Просто подумали и отказались от этой идеи, да?
- Да, на текущий момент это так.
- Есть какие-то знаковые, большие и известные всем клиенты, кроме "Одноклассников"?
- Да. Mail.Ru Group.
- "Одноклассники" к нему относятся.
- Да. Кто еще относится?
- Перечислять все части Mail.Ru Group можно долго. Скажите, кто еще есть.
- Все три социальные сети, которые относятся к Mail.Ru Group, являются нашими клиентами. Я не могу прямо их называть, но таким образом я могу о них сказать. Думаю, если вы сами их назовете, то я ничего не нарушу.
- "ВКонтакте" и "Мой Мир", видимо, тоже есть у вас.
- Да.
- Насколько я знаю, ТАСС работает с вами и работало "РИА Новости".
- С "РИА Новости" мы были в долгих разговорах и проговорили до того момента, пока агентство не расформировали. Толком работы не получилось, но было много пиар-активностей.
Что касается ТАСС, да, мы довольно долго разговаривали, долго запрягали, но в результате поехали. Мы предложили им сервис, который связан с поиском нарушений их прав на фотографии, и поиск тех, кто нелегально использует их фотоконтент в интернете.
- Я так понимаю, что довольно важный этап - эффективное распознавание образов с мобильных устройств. Я, как конечный потребитель, думаю о том, зачем мне это может быть нужно, и понимаю, что, увидев какую-то вещь, хотел бы, чтобы распознавание происходило как можно быстрее и точнее. Сейчас то, что я вижу в мобильных исполнениях, находится на начальной стадии, не является полноценным эффективным продуктом. Когда ситуация может измениться? Как продвигаются ваши разработки в этом направлении?
- Мне кажется, что на текущий момент мы очень приблизились к тому, чтобы получить достаточно хорошее мобильное распознавание. Понятно, что в момент, когда мы начинаем обсуждать это направление, возникает вопрос, что именно мы хотим распознавать. Путь, по которому идут крупные компании типа Amazon, будет превалировать в ближайшем будущем.
Что предлагает Amazon? Скачать свое приложение на мобильный телефон и использовать технологию Flow. Вы наводите свой iPhone или Android на какой-то товар, например, книжку или DVD-диск, и через пару-тройку секунд сервис, если сможет распознать объект, скажет, что вы то же самое сейчас можете купить одним кликом в Amazon, и завтра вам товар придет.
С точки зрения клиентского использования, мне кажется, в этом довольно глубокий смысл. Все хотят упрощения, создания одной большой красной кнопки, которая позволит уменьшить время на поиск, выбор, принятие решения, и можно будет воспользоваться вау-эффектом, который есть у потенциального покупателя. Человеку что-то понравилось, и он на волне этой эйфории, нажимая на кнопку iPhone, может быстро купить товар.
- Мне кажется, что есть несколько насущных вопросов. Важен поиск товара, поиск информации о человеке и поиск информации о товаре. Человек хочет узнать, что это вообще. Этот вопрос очень широкий, однако он именно так и возникает. Например, я вижу перед собой дом или какой-то объект и не понимаю, что это. Мне бы хотелось, чтобы поисковая система, распознав изображение, дала мне какой-то релевантный ответ.
- Все, что вы говорите, абсолютно правдиво, и все это имеет право на существование. Единственный вопрос заключается в том, что история с мобильным распознаванием людей противоречит известному закону о хранении персональных данных.
Все компании, которые что-то делают в этой области, боятся судебных исков, потому что это внедрение в частную жизнь. Можно рассказывать много историй про тот же Google, который делает фотографии городов, при этом удаляет и ретуширует лица людей, которые попадают на фотографии, потому что с точки зрения закона это вторжение в частную жизнь. Я сомневаюсь, что в ближайшее время появятся сервисы, которые позволят при наведении на человека сразу найти его профайл в Facebook, "ВКонтакте" или "Одноклассниках".
- Технологически это возможно?
- Да, это самое простое из того, что есть. И "Одноклассники", и "ВКонтакте", и Facebook думают о том, что все закончится судебными исками к ним, а этого никому не хочется.
- С распознаванием человека разобрались. Что относительно распознавания товара? Насколько это эффективно работает?
- Это работает. С нашей точки зрения, это одна из потенциальных зон роста. У нас у самих есть такое решение для американского магазина, который торгует запасным оборудованием для ресторанов, баров и других пунктов общественного питания.
Мы тоже движемся в этом направлении, пробуем разные модели. Есть два больших подхода - обработка изображений на сотовом телефоне и на сервере.
Оба подхода имеют свои плюсы и минусы. Мы видим, что рынок развивается в сторону так называемого "тяжелого клиента", когда у вас большое количество обработки происходит на клиентской части и уже наполовину обработанные полуфабрикаты данных передаются на сервер, где они подвергаются специализированной обработке.
Я думаю, что сотовые телефоны, которыми мы пользуемся сейчас, уже близки к тому, что выпускают крупные компании типа NVIDIA для решения профессиональных задач. Например, у NVIDIA есть система Jetson, внутри которой находятся 192 вычислительных ядра, и она дает производительность около 300 гигафлопсов, а этого более чем достаточно для распознавания и тегирования объектов на лету.
Другой вопрос, что если смартфон с утра до вечера будет заниматься распознаванием, батарейка быстро кончится.
- При этом скорость распознавания на стороне клиента будет выше, верно?
- Она будут сравнима. Здесь вы имеете производительность 300 гигафлопсов, а если вы поставите NVIDIA Kepler K80б, она будет 8,74 терафлопсов. Получается в 30 раз больше.
Основной момент заключается в том, что все равно необходимо хранить либо нейронную сеть, либо описание, либо фингерпринты в телефоне. Насколько это правильно делать, ведь это постоянно будет с вами?
Мне кажется, что все равно большая часть бизнес-логики будет находиться на серверной стороне в сети и поставщики будут разными. Кто-то хорошо умеет детектировать автомобили, кто-то хорошо разбирается в еде, кто-то может по фотографии блюда на лету посчитать его калорийность. Мне кажется, что скоро мир превратится в поставщиков разнообразной информации, которую будут классифицировать и распознавать на лету по изображениям.