Сегодняшним постом выскажусь о трех недавних работах, которые можно считать попытками сделать в блогосферке, да и в интернете, что-то научное.
Во-первых, это новость про алгоритм определения влиятельных блогеров для наилучшего распространения информации, его даже
на ленту перепечатывали. Удивительно, но реализации у этой методики нет, так как для этого алгоритма потребуется знать все ребра и вершины социального графа в конечный момент времени, а это уже есть утопия. Также почти все социальные сети не позволят Вам беспрепятственно извлекать информацию о связях (ребрах) социального графа. Авторы гордятся доказательством того, что блогеры с большим числом друзей, не всегда самые влиятельные. Но на практике, когда ретрансляция рекламного поста быстро затухает рекламодатель прежде всего заинтересован в размещении рекламы у тех блогеров, аудитория которых не пересекается и максимальна. То есть просто сортируются все блогеры по стоимости контакта и ищутся те, кто согласится размещать материал. Мой вывод, что алгоритм ранжирования на яндексе (
за исключением ранжирования твиттера, ибо каждый ответ приравнивать к ссылке - это идиотизм) куда более жизненный и демонстрирует кластерную обработку поступающей информации, нежели предложенный в работе.
Вторая работа является
кандидатской РАН на точно такую же тему - определение точек вброса информации в социальную сеть. Правда в отличии от первой работы автор не ограничивает себя во времени и строит сети Маркова на N мерном графе, которые могут сходиться к заданному значению бесконечно долго. Работа опять страдает вышеперечисленным, что считается известным все и вся в графе. Абсурд дополняется тем, что считается, что точки вброса информации со временем могут менять транслируемое мнение и то, что все участники сети с одинаковой степенью впитывают чужеродную информацию и к любому участнику сети мы можем приложить управляющий вектор. Пользы от такого тоже мало.
И в заключение, новость
о запуске HotLog'om статистику статистик по сайтам рунета, по аналогии с той, что уже два года работает у меня на
ljmap.info и обрабатывает больше источников включая зарубежные. По опыту, отмечу удобство нахождения данных по произвольному сайту, для которого хочется найти данные, но заработать на этом невозможно. Если брать научную составляющую, то подобный сервис является из разряда 8го инварианта семантического интернета - Monitoring, то есть сбор воедино распределенных статистик(5х инвариантов - Combine). Прозрачность получения данных и общедоступность таких ресурсов позволяет говорить об их полезности для интернета в целом.