Проблеми узагальнення PceRank
Якщо на вас посилається хтось авторитетний, це піднімає ваш статус більше, ніж посилання («голоси») від багатьох малоавторитетних джерел - така була початкова ідея ранжування сайтів Гуглом. Вона знайшла своє очевидне продовження в social network analysis, де формула для PceRank є різновидом центральностей, тобто визначенням того, який з вузлів соціального графа є більш «центральним» і за якою ознакою. Я не фахівець в даній тематиці; з побіжного огляду по діагоналі мені здалося, що social network analysis в інтернеті застосовується в основному для потреб social media marketing, де ранжування людей не є основною метою. Швидше, мета smm - ефективніше просувати бренди, збільшувати продажі і т. п. Однак ранжування людей може бути самостійною цікавою метою. Ось тут я короткотезово перерахував ці інтереси.
Пряме застосування формули PceRank для ранжирування людей викликає питання; мені не вистачає компетенцій щоб на них відповісти, сподіваюся на відгук знаючої спільноти.
1. Класичний PceRank сайту має ймовірнісну інтерпретацію - це ймовірність того, що людина шляхом безладного клікання за посиланнями потрапить на цей сайт. При цьому враховується damping factor, тобто та обставина, що користувач не клікає нескінченно. З математичної точки зору damping factor забезпечує єдність вирішення завдання ранжування. Але якщо мова про ранжування людей, ймовірнісна інтерпретація втрачає сенс. Незрозуміло тоді, як тлумачити damping factor. Хіба що абстрактно - для регуляризації завдання, як вважає Дмитро Шепелянський. І яке його значення буде адекватним в цьому випадку.
2. Інша проблема пов'язана з тим, що вважати посиланням або голосом щодо людей. Для сайтів є тільки один тип голосу - гіперпосилання, тоді як для людей як голос можна розглядати різні речі. Найбільш очевидне - френд-зв'язки в блогах і соцмережах. Але наприклад наявність коментарів до вашого топіку - теж по суті «голоси» на вашу користь, тому що тема привернула інтерес і увагу аудиторії. Сюди ж віднесемо лайки, ретвіти, факти прочитання та інше. Узагальнимо: будь-який прояв уваги до автора або його контенту є голосом. Звідси виникають ще проблеми.
3. Наприклад голос по кармі від випадкового читача не можна вважати рівнозначним френд-зв'язку. Або знову ж один коментар не рівнозначний регулярному коментуванню від одного і того ж автора. Тому матриця, яка кодує соціальний граф (adjacency matrix), повинна містити ваги зв'язків. Наскільки я розумію, у випадку Google matrix зв'язку по суті і є зваженими, оскільки один вузол роздає ранки назад пропорційно кількості виходять з нього зв'язків і виходить, що зв'язки у всьому графі розрізняються за своєю «силою». Інакше кажучи, проблеми з боку математики тут начебто немає, питання лише в адекватному визначенні терезів (хоча воно нетривіальне саме по собі).
4. У класичній формулі PceRank, якщо є посилання на сайт, то передане значення ранку не може бути від'ємним. Невід'ємність ранків будь-якого вузла дозволяє застосовувати теорему Перрона-Фробеніуса про існування рішення. Але голос по кармі може бути негативним, коментар може бути негативним і т. д. Можливість передачі від'ємних значень ранків між вузлами соціального графа, мабуть, вимагає математичного доказу існування і єдності вирішення завдання ранжування в такій постановці.
5. Класичний PceRank застосовується до мережі однорідних об'єктів, тобто об'єктів одного типу - «сайт». Але як вище сказано, при ранжуванні людей увага може проявлятися як безпосередньо до автора (голос по кармі, френд-зв'язок, рекомендація на LinkedIn тощо), так і побічно через реакцію на його контент. Останній випадок причому поширений в інтернеті - ми частіше оцінюємо людей за їхнім контентом, ніж через особисте знайомство. А автори та одиниці контенту утворюють вже мережу різнорідних об'єктів, в якій наприклад високорейтинговий пост може «голосувати» за його автора. Судячи з ось цього посту, в методиках ранжування Witology цю обставину якимось чином врахували. У плані математики рейтинг від агенства PRUFFI аж ніяк не настільки ж просунуть, але акцентується на іншому важливому аспекті - при рейтингуванні людей цілком має сенс враховувати рейтинг організацій, в яких вони працюють. Якщо під організаціями розуміти досить абстрактну річ - будь-які проекти за участю рейтингу людини, теж отримаємо мережу різнорідних об'єктів, в яких об'єкти різних типів передають один одному ранки.
6. У реальній мережі зв'язку не тільки мають різну вагу, але ця вага ще залежить від часу. Сьогодні люди дружать, а завтра вони ворогують.
З урахуванням сказаного, дана проблематика відноситься, мабуть, до розвивається нині області Dynamic network analysis.
Не хочеться записувати сьомим пунктом, оскільки це особисто моє нерозуміння, але у мене на простенькому тестовому завданні обчислення PceRank в мережі з чотирьох вузлів виходить, що якщо вузол не має вихідних зв'язків, то ранки всіх вузлів мережі в кінцевому рахунку обнуляються. В одному місці я знайшов, як людина виключила всі такі вузли з розгляду. Це зрозуміти можна, але ж Гугл присвоює значення PR будь-яким сайтам, включаючи ті що не мають посилань на інші сайти. В іншому місці написано, що вузли без вихідних зв'язків слід замінити вузлами, які мають вихідні зв'язки відразу до всіх інших вузлів мережі. Але не дуже зрозуміло, чому слід зробити саме так і як це впливає на результати ранжування.