Как уникализировать контент или синонимизация
Дата записи: Февраль 18th, 2008 | написал Fist |Всем известно, что в нашем бизнесе на неуникальном контенте далеко не уедешь (хотя конечно есть способы уехать и на неуникальном контенте очень даже далеко =) но это тема не этого поста). Существует множество способов получить уникальный контент. Например: купить, заказать рерайт, рерайтить самому, качественно переводить с других языков. Все это конечно очень хорошо, но подходит только для (говоря словами Яши) СДЛ (сайтов для людей), а по простому белых сайтов. Можно конечно создавать белые сайты и используя вышеперечисленные методы зашибать денежку, можно даже очень неплохую. Но нам это сейчас не интересно… Кому интересно может дальше не читать….
Для адалтового сплогостроения и любого другого сплогостроения подойдут 2 метода для уникализации контента: машинный перевод, синонимизация. Поговорим о втором. Итак, что же такое синонимизация? По сути людям закончившим среднюю школу должно быть понятно, что это замена слов в тексте их синонимами. Естественно это можно реализовать на програмном уровне. Вот к примеру , а самое главное бесплатный, спасибо за это Roddik-у. Собственно этот плагин появился в результате активной дискуссии по поводу покупки CyberSEO на форуме Nulled.ws
Итак, допустим вы импортируете спонсорский контент через rss на свои адалт блоги… Все хорошо, но таких как вы наверняка дохрена и больше… Поэтому было бы нихренова, чтобы контент прогонялся через синонимизатор. Все просто ставим этот чудный плагин себе на WP, при подключении должна создаться таблица… Если не создается, то создаем в ручную вот таким запросом
CREATE TABLE `wp_simplesyn2` (
`id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY ,
`string` TEXT NOT NULL
) ENGINE = MYISAM CHARACTER SET=utf8;
Все теперь вы готовы к труду и обороне… Кроме одной маленькой детали…. Нужна база синонимов и желательно хорошая. Что значит хорошая? Такая, чтобы в ней было как можно меньше говносинонимов, которые могут иметь сходные значения только в некоторых случаях. Вообще конечно в идеале, нужен глубокий анализ текста, чтобы определялись части речи и т.д. Но с этим есть 2 проблемы, 1-ая это будет затрачиваться слишком дохрена системного времени, 2-ая такой софт еще ненаписан (насколько мне известно, покрайней мере все спрашивают и не кто не говорит где есть, если и есть такой продукт, то думаю он используется приватно) Поэтому нам просто было бы нехреново заиметь базу, абсолютных синонимов (кстати я так и не нашел) или очень близких.
Для адалт вебмастеров:
http://male101.com/synonyms.html
http://www.mondoerotica.net/sex-porn-thesaurus.html
вот пожалуйста небольшие базки синонимов адалт тематики, нужно чистить руками, сразу говорю.
Для тех же кому интересен не только адалт, нужна база общетематических синонимов. Вот между прочим очень даже ничего…. Вот тоже неплохая база, но в ней дохрена мусора…
Теперь о том как этот мусор отсортировать. Каюсь, я подошел к этой проблеме чисто как баран… Решил все перелопатить ручками… Почистил 50 первых строк, честно скажу заебался пиздец как…. Тут пришла до боли простая мысль, что можно написать скриптик, который будет искать обратные связи… Для тех кто еще не понял как это обьясню на пальцах.
Берем в строчке слово1:слово2,слово3,….. первое слово т.е. слово1 и второе слово слово2, ищем слово2 среди первых слов во всех строчках, если не находим удаляем к едрени фени и ищем таким же образом слово3 итд, если находим, то смотрим в найденой строчке нет ли слова слово1, если есть, отлично, записываем в отдельный текстовый файл, если нет, то тоже удалям.
Надеюсь вам сей алгоритм понятен. Таким образом база заметно поредеет, но в ней будет гораздо меньше говносинонимов. В таком виде ее можно будет довольно быстро пробежать ручками.. Самое интересное, что для этого не обязательно хорошо знать инглишь, достаточно знать нормально русский и держать под рукой переводчик со встроенным словарем. Я юзаю сократ, простенько и со вкусом.
Хотел еще кинуть скрипт, который работает по вышеизложенному алгоритму, но его проблематично отыскать в бесконечных папках темп, так как он писался как программа призерватив за 10 минут на коленке и предназначался для одноразового использования. Буду признателен, если кто решит чиркануть что то похожее, и выложит в коментах.
Вот собственно и все чего тут еще мусолить??
5 ответов to “Как уникализировать контент или синонимизация”
By Ольга on Фев 25, 2008 | Reply
Интересно! Спасибо!
By Нанотехнолог on Март 11, 2008 | Reply
Прикольно пишешь, жалко раньше я сюда не заходил. Единственное, что плохо, это невозможно скачать не одного файла с easy-share.com бесплатно (
By Fist on Март 12, 2008 | Reply
почему же нельзя)) можно… там нужно подождать немного, там же таймер с лева…. как время кончится, открывается ссылка на загрузку
By Nevill on Май 23, 2008 | Reply
хотел бы увидеть кодсинонимизатора, пусть даже частичный
By Plirim on Июнь 30, 2008 | Reply
адалт через сайты знакомств уходит влет))