CleverDATA 100 . , -. , . - , .
, . , , .
, :
, , , , . , . , ,
Text mining.
, , , . , , .
, !
, , , .
, -. , . , , .
- 100 . , 98 496. : 100 . . , , 59.6%, .
40.4% , (23,461), - (2,315), techcrunch.com, - (, , , , 3,402 ).
, 60 . , , . , 2 . , .
?
. , : . ? , , , - . , , .
, , . : - 100 (20% ), , 200-500 (~80%).

. , , , . . , .
, . 20 300 , 100 , .
, 40 . , 10-20 .
, , , , . . :
. (.. ), ( IMDB). , 4 , , -1 , +1 .
.
0.72 . , . , , .
, ( ), , : 0.74 0.03.
, . , : .
, .
, , .
? , . .
, , , .
. . , ( ) . : , , - .
, ( , ), -.
, , .
Alexa Rank , -, .
Yandex Thematic Citation Index (TIC, ) - ,
Google Page Rank , ; .
Google Page Rank , , - ( ). , - Google Page Rank, , .
: YandexTIC AlexaRank. , ( , ), . .
- ,
Klout score. , : . , , , . , Klout score
2011 : - , 15
America Online,
Ford Kraft, , Klout score, 67. Klout score. ,
Klout score 40.1. , -
Klout score , : - , .
Klout score , .
, , Klout score , . , ( ), . , , : , , .. . , , .
, , , . , , , .
Fuzzy String Matching .
Fuzzy String Matching
, . , ( , , ), . , Python fuzzywuzzy, 0 100. , , 0, , 100. , : , .
, , .. ( ), , , , . Fuzzy String Matching , , Face Oil, .
, 90% Fuzzy String Matching, . 100 , 100 .
. , .
. , 30, 10 3.4, 2.3 1.6.
, ( ), .
, , Word2Vec, , .
. :
- ,
- ,
- AlexaRank + YandexTIC,
- ,
- ,
- Klout score.
, , 500 , 100. . , 0.70 0.78.
. , , . , .
, , , . :
. - , .
, , .
. . .

. .
, . ? , , , ,
TF-IDF ( TF-IDF ,
) . , , . : , , , , , , , ..
NMF, : / /. , 0.
. , .
NMF LDA LSA (pLSA), :
BigARTM, . , BigARTM,
. Fuzzy String Matching, , Word2Vec.
: , , , .
, . - .
. , .
(TF-IDF, NMF, etc), , . , , , . , , .
. . :
- , . , . , : .
, - Klout score, ,
-. -. , . , .
(Fuzzy String Matching, TF-IDF, NMF), , .
, 30% . , - 70%, . , , , Word2Vec BigARTM. , ,
CleverDATA .
-, . , , .
, .. . , .
, . , , . : .
https://habrahabr.ru/post/329892/