Твиттер в поиске Яндекса

Иван Комаров

Твиттер
в поиске Яндекса

Иван Комаров

разработчик

Я.Субботник в Екатеринбурге, 6 июля 2013

Мотивирующий пример

26 октября 2012 года пользователям Рунета стал доступен сайт zapret-info.gov.ru. Мы хотим его как можно быстрее начать показывать по запросу [реестр запрещённых сайтов].

Какие данные мы можем для этого использовать?

Текст и URL страницы

Ссылки на страницу

Твиттер

Что дальше?

I. Распознавание языков

Twitter Firehose

Твитов со ссылками в день — около 45 млн.
Нас интересуют только русские и турецкие твиты (в сумме около 4 млн).

Как оставить только нужные твиты?

Машинно-обученные классификаторы!
Обучающая выборка Запросы пользователей Твиты
Охват языков Малая часть Все возможные
Дата появления Начало времён Февраль 2013 года

Неоднозначность

На каком языке написан этот твит?

Все врут:

Человек
uk
ru
ru
bg
ru
ru
tr
az
az

Все врут:

Человек
bg
ru
bg
tr
en
tr
ru
ru
mn

Все врут: методы борьбы

II. Короткие ссылки

Эта ссылка ведёт на всё тот же http://zapret-info.gov.ru.

Популярные укорачиватели

http://t.co/MOPYXN59 *
zapret-info.gov.ru
http://bit.ly/ZsCNpV
http://goo.gl/PWy1b
http://fb.me/21ILnymuz
http://vk.cc/11sQxh
*добровольно-принудительное укорачивание

Полная картина

Некоторые любят подлиннее

Хранение редиректов

III. Текстовая релевантность

Релевантен ли твит запросу?

навальный

ДА ИЛИ НЕТ?!

Однозначные запросы

джигурда
pussy riot

Многословные запросы

северное братство хомяков
карта россии

Неправильное выделение объекта

за рулем

Текст «не про то»

народный фронт
лужков, матвиенко

IV. Социальный граф

Граф дружбы

Ориентированный граф (V, E), где:
@navalny
@MedvedevRussia

ТТХ

Применение: авторитетность

* На самом деле нет.

TunkRank

Живая иллюстрация

смотреть бесплатно видео онлайн

V. Спам

Чем занимаются спамеры?

Как мы с этим боремся?

Спасибо за внимание!

#TweetLangChallenge

Это не спам!

Реальная возможность заработать призы!