intro, переосмысление:
1 .
1 .
Код:
[501] TitleTrigramsQuery Вычисляет покрытие запроса буквенными триграммами заголовка документа
2 .
Код:
[639] UrlInQueryTrigrams Доля триграмм урла среди триграмм транслитерированного запроса
[294] UrlDomainFraction Покрытие домена трехбуквиями из*запроса. (Челябинская лотерея – chelloto. Переводим запрос в*транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от*всех трехбуквиев покрыли )
3 .
Цитата:
Сообщение от yanus (Сообщение 16208851) В ролике буквенные триграммы, а ТС о биграммах слов. И про словарные биграммы в ролике тоже есть ) |
verse:
Буквенные н-граммы, а в свете п. 1-2-3-4, буквенные 3-граммы дают приличный результат в плане цена-качество=быстро-более менее. В какой то мере замена стеммеру и лемматизации.
coda:
Имеет ли смысл делать анализ по топов данному критерию?