Gatekeeper,
profhce, а поподробнее?
Подробнее так:
полнотекстовый индекс блога - статистика, по крайней мере - слова и расстояния между ними (некоторые индексы содержат больше но я в них не гуру). Традиционный запрос в виде регулярного выражения - не совсем тот механизм, чтобы искать подхдящих - сложный фильтр нужен.
Делаем так: берём репрезентативный фрагмент текста (20-50к), индексируем его, и сравниваем две статистики (с возможностью применить эвристики типа, знаки препинания, предлоги, спец_символы - {бывшие программеры легко найдутся по относительному количеству скобок и спец_символов}).
Пусть будет прообраз "фильтрационной решетки" :-)
Подробнее будет (hopefully) на моём типа_блоге, который с удовольствием переделал бы в community.