TF-IDF (Term Frequency — Inverse Document Frequency, частота термина — обратная частота документа) — статистическая мера, используемая для оценки важности слова в конкретном тексте относительно коллекции документов. Чем чаще слово встречается в данном тексте и чем реже — в других текстах коллекции, тем выше его TF-IDF. Метрика была разработана для задач информационного поиска и до появления нейросетей широко применялась поисковыми системами.
В SEO-практике TF-IDF используется как инструмент анализа текстового контента: сравнение TF-IDF слов на продвигаемой странице с топом выдачи позволяет выявить «недостающие» термины, которые алгоритм считает важными для данной темы, и «переспам» — слова, встречающиеся слишком часто.
Как рассчитывается TF-IDF
Метрика состоит из двух компонентов:
TF (Term Frequency) — частота термина:
TF = (число вхождений слова в документ) / (общее число слов в документе)
Чем чаще слово встречается в тексте, тем выше TF. Если слово «SEO» встречается 10 раз в тексте из 1000 слов, TF = 0,01 (1%).
IDF (Inverse Document Frequency) — обратная частота документа:
IDF = log(N / df), где N — число всех документов в коллекции, df — число документов, содержащих данное слово.
Слова-«стоп-слова» («и», «в», «на», «что») имеют очень низкий IDF — они встречаются во всех документах. Специализированные термины («дисинтермедиация», «краулинг») имеют высокий IDF — они редки.
TF-IDF = TF × IDF — итоговая оценка «уникальной важности» слова для конкретного документа.
Применение TF-IDF в SEO-оптимизации контента
Практический подход: сравните TF-IDF слов вашей страницы с топ-10 конкурентов по целевому запросу. Слова с высоким средним TF-IDF в топе, но отсутствующие или редкие у вас — это «пробелы» в тематическом покрытии, которые нужно заполнить.
- Анализ конкурентов — инструменты вроде Semrush Writing Assistant, Clearscope, Surfer SEO автоматически рассчитывают TF-IDF для топа и показывают, каких слов не хватает вашей странице.
- Устранение переспама — слова с аномально высоким TF (встречаются в вашем тексте чаще, чем у конкурентов) — признак переоптимизации. Сократите их количество.
- Добавление тематических терминов — слова с высоким средним TF-IDF в топе, отсутствующие у вас, нужно органично включить в текст.
Ограничения TF-IDF в современном SEO
TF-IDF — линейная статистическая метрика, не понимающая смысла текста. Она не учитывает:
- Синонимы — «купить» и «приобрести» алгоритм считает разными словами.
- Контекст — «банк» в статье про финансы и в тексте про реку — разные понятия.
- Грамматические формы — «SEO» и «SEO-оптимизация» считаются разными терминами.
Именно поэтому современные поисковые алгоритмы используют нейросетевые модели (BERT, MUM), которые понимают смысл, контекст и семантические связи. Тем не менее TF-IDF остаётся полезным практическим инструментом для первичного анализа контента.
Часто задаваемые вопросы
Использует ли Google TF-IDF для ранжирования?
Google использовал TF-IDF на ранних этапах развития алгоритма, но сегодня полагается на значительно более сложные нейросетевые технологии. Тем не менее принцип оценки «важности слова в документе относительно коллекции» сохраняется в более продвинутых формах. Практический вывод: TF-IDF полезен как аналитический инструмент для SEO-специалиста, но не нужно считать конкретные числа для самого Google.
Какие инструменты рассчитывают TF-IDF для SEO?
Платные инструменты: Surfer SEO, Clearscope, Semrush SEO Content Template, MarketMuse. Бесплатные варианты: TF-IDF Tools (tfidf.com), различные Python-скрипты с библиотеками scikit-learn или NLTK. Российские SEO-инструменты: Rookee Content Analyzer, некоторые функции Serpstat. Для быстрого анализа «на глаз»: сравните тексты топ-10 конкурентов и отметьте слова, которые встречаются у большинства из них.
Что такое «оптимальная плотность ключевых слов»?
Понятие устаревшее, но живучее. Нет единого «оптимального» процента: рекомендации в 2–3% или 5% не имеют научного обоснования. Современный подход: ориентируйтесь на средние TF конкретного слова у топ-10 конкурентов. Если у них оно встречается в среднем 5–8 раз на 1000 слов — это и есть «нормальный» диапазон для данной темы. Аномальное превышение — риск фильтра за переспам.
Как TF-IDF связан с понятием «тошнота текста»?
«Тошнота» — российский SEO-термин, обозначающий чрезмерное повторение слова в тексте. Классическая тошнота рассчитывается как квадратный корень из числа вхождений слова. «Академическая тошнота» — процент вхождений от общего числа слов (аналог TF). Принцип связи: слово с аномально высокой TF — это и есть «тошнота». Инструменты вроде Text.ru или Advego Plagiatus показывают тошноту и помогают определить слова, которые встречаются слишком часто.