Одним из важных критериев, по которому судят о качестве текста, является уникальность. Это логично, ведь плагиат не жалуют ни сами читатели, ни роботы-поисковики. По такой причине создана масса программ для проверки показателя. Большинство из современных сервисов функционируют с применением собственного алгоритма, о котором разработчики не распространяются. Однако есть люди, предпочитающие “действовать по старинке”, пользуясь древним методом шинглов. Попробуем разобраться, насколько это плохо или хорошо.

Суть проблемы

Алгоритм шинглов – один из методов выявления плагиата в интернете. Название с английского переводится как чешуйка и отражает само функционирование. Проверка текста по этому способу выглядит так:

  • канонизация – придание материалу “единой формы”: удаление союзов, предлогов, тегов и прочего, что не должно участвовать в анализе;
  • разделение на шинглы – определенные последовательности слов. Количество лексических единиц в одном шингле зависит от устанавливаемых пользователем настроек и равняется от 2 до 10. Это значит, что система будет искать в интернете похожие фразы с заданным количеством слов. Наиболее распространенным показателем является 4. При большем значении проверка будет неточной, а при меньшем добиться какой-либо уникальности вряд ли получится. Обратите внимание: слова считываются не встык, а внахлест (что и определило выбор названия). Если проиллюстрировать, то это выглядит так:

На примере показано разбиение слов на группы при шингле 4;

  • непосредственная проверка и выдача результата.

Казалось бы, все идеально продумано, если бы не одно “но”.

Что не так?

В 2017 алгоритм шинглов празднует свой двадцатилетний юбилей. Для различного программного обеспечения это колоссальная цифра. Чтобы представить весь масштаб, посмотрим, какое количество сайтов зарегистрировано в сети. Для этого воспользуемся отчетами аналитической компании Netcraft. На 1997 (год появления метода шинглов) в интернете был 1 миллион ресурсов. Для сравнения: на сентябрь 2014 года фирма предоставила данные о том, что в сети числится 1 022 954 603 узла. За 17 лет количество сайтов увеличилось в 1022 раза! А алгоритм проверки остался тем же. Выглядит несколько комично.

Здесь и лежит “корень зла”. Текстовый контент на определенную тематику зачастую создается из конкретного набора релевантных слов. Проблема в том, что такие фразы используются и на втором подобном сайте, и на третьем, и на сто четвертом, и т.д. Как результат, система считает их плагиатом. Если вспомнить фразы общего употребления (например, “посмотрим с другой стороны”, “как известно” и пр.), то вырисовывается вообще грустная картина.

Увидев низкие проценты при проверке, копирайтер начинает извращаться над текстом, стремясь угодить системе. В итоге статья, написанная полностью самостоятельно и со вкусом, превращается в нечитабельное “нечто”, которое стыдно не только отправлять заказчику, но и вообще кому-то показывать.

Настоящее веселье начинается, когда речь идет о материале на узкоспециализированную тематику: медицинскую, юридическую, инженерную и пр. На войне с беспощадным антиплагиатом слова и словосочетания приобретают новые формы: «органы видения», «дитяти», «терочки» и пр. Как видим, в борьбе за пресловутую уникальность часто теряется смысловая нагрузка текста.

Что делать?

Не пользоваться программами, функционирующими на основе метода шинглов. Такой способ проверки уже не актуален в современном мире, он не отвечает его запросам. С огромным количеством сайтов проверять отдельные группы слов просто бессмысленно. Это подтверждается и многочисленными жалобами пользователей, когда одна конкретная программа находит плагиат на ресурсах совершенно другой тематики. К примеру, статья о медицине, а отображается копипаст со страницы с автомобилями. Нелогично, правда?

Сегодня сервисы проверки уникальности должны анализировать структуру, стиль, возможный синонимайзинг, а не только ругать за употребление нескольких слов к ряду, если такое сочетание уже когда-то индексировалось. Подобные программы и онлайн-сервисы существуют и успешно функционируют. Они точно не используют шингл, придуманный еще в прошлом тысячелетии. К тому же их алгоритм работы максимально приближен к тем, которые заложены в поисковых системах.