Что такое R-Bot?
R-Bot – это десктопная програмулина, которая рерайтит тексты на русском языке, учитывает тематику текста, морфологию и еще много фенечек. За время, что прошло с момента написания прошлой записи, я выловил немало багов. Но программка еще косячит прилично…
Как работает R-Bot:
Шаг 1: Анализирует полученный текст на наличие копий в Интернете (сейчас только по Яндексу). Те массивы текста, которые совпадают – он помечает.
Шаг 2: Определяет тематику контента по ключевым признакам (сейчас нужно вручную выбирать) и подключает нужную базу синонимов, а также регулярных выражений.
Шаг 3: Вносит коррективы в текст. Есть возможность обучать робота и добавлять в базу новые синонимы и выражения.
Шаг 4: Опять проверяет текст на наличие копий в Интернете. Если копий нет – выдает готовый текст. Если находит копии – повторяет п.3-4 до тех пор, пока текст не станет уникальным.
Примеры текста:
Оригинал статьи (много копий в Интернете): Оригинал статьи
После рерайта роботом: После рерайта R-Bot
На момент публикации статьи – уникальность составляет 100%. Интересно – вам нужен такой контент?
Кстати, сейчас идет первый тест данной проги. Поэтому, я могу пропустить через R-Bot ваш текст. Но есть некоторые нюансы:
1 – текст должен быть объемом не больше 1500 знаков;
2 – текст должен быть на распространенную тематику, например стройка, финансы и т.п. Просто для узких тематик, как-то промышленность, металлургия и т.п. я еще не создавал базы синонимов и регулярок;
3 – от одного человека – один текст.
Отправляйте тексты через раздел Контакты. Сам текст размещайте в поле для сообщения. НЕ прикрепляйте файл с текстом.
В обмен я хотел бы получить от вас небольшой комментарий о работе R-Bot:
1 – как вам качество текста?
2 – что нужно изменить\дополнить?
И еще пара нюансов:
1 – в среднем обработка 1 текста занимает от 2 до 15 минут. Модуль прокси еще не готов, поэтому при обращении к Яндексу – вылазит капча, которую нужно вбивать вручную.
2 – у меня есть официальная работа, плюс свои срочные дела. Поэтому, я не могу гарантировать мгновенную обработку вашего текста.
3 – количество мест для тестирования ограничено. На данном этапе я обработаю всего 50 текстов. В принципе, я мог бы обрабатывать свои тексты и тем самым тестировать программу. Но я и так это делаю.
Мне важен взгляд со стороны…
Если вы хотите оставить комментарий, пожалуйста, заполните поля ниже.
Продаваться будет ? Цена ?
Закинул на проверку, интересно посмотреть
посмотрел два файла, великолепно! рерайт на высоте, полностью читабельный текст.
а когда доделаешь прога платная будет?
Очень заинтересовала программка.
Отправил тикет с текстом.
Сколько будет стоить?
Удачи в развитии!
В принципе интересно, люблю платить меньше за всякие рерайты корявых рерайтеров.
хочу услышать мнение других.
Потому посижу тут понаблюдаю.
Классная реализация хорошей и нужной программы. Один минус, она узконаправленная.
Интерессно ты уже прикинул ее стоимость на продажу? Думаю попользовавшись с годик, можно смело продавать. Спрос точно будет.
да вы тут хотите создать завод по созданию уника
Kass, в ближайшее время выставлять на публичную продажу не планирую. С прогой еще очень много работы. В частности – это базы синонимов и регулярок. Их собирать очень трудно.
andy, вообще-то продавать не собираюсь. Хотя есть будет спрос – я над этим подумаю.
perec531, поделюсь секретом. R-Bot, это всего один модуль к системе автоматического создания сайтов. Насчет стоимости – даже и не думал.
renegat86, а почему бы и нет…
ОМГ, если все на самом деле так круто то это бомба, достойный ответ всяким АГСам и прочим выходкам Яндекса.
А пробовали тексты яше скармливать? На случай сможет ли он определить рерайт это или нет…
Подниму процент отзывов
Текст получил, спасибо. Тематику указал Туризм, хотя от Туризма там было мало – скорее Искусство.
Текст на 1246 знаков превратился в 1424 знака.
Программа ShinglesExpert при отбросе стоп-слов, лемматизации и длине шингла 5 показала процент совпадения текстов 15%.
Отлично читаемый текст, у меня самого такой рерайт только и получается – машинный
Единственную проблему заметил – “русский” “русскоязычный” в отношении неодушевлённого предмета (картина).
Смешно: “глобус изображающий Луну”.
Во фразах типа “блабла: слово1, слово2, слово3″ можно перемешивать слова, заменять последнюю запятую на “и”. Или программа не перемешала их из-за того, что фраза была в кавычках?
Функционал программы хорош. Возможно, меньшего процента сходства можно и не достигнуть машинным рерайтом. Другое дело, что Яндекс наверняка умеет определять такой лёгкий рерайт и тексты для него более похожи, чем на 15%.
Спасибо за отзыв.
Критерии, которые нужно улучшать, понятны. Будем работать дальше.
Если текст в кавычках, в большинстве случаев он остается без изменений. Исключение – длинные цитаты, которые в кавычках.
Насчет Яндекса – специально зарегистрировал новый чистый домен и наполняю сайт по 1 статье, обработанном прогой, в 3 дня. Посмотрим, на его реакцию.
Весьма неплохо. Читабельность отличная. Даже если сравнить на нечеткие дубли (методом шинглов), то уникальность получается чуть более 80%, что очень даже неплохо. Молодец.
Думал, честно говоря, что нечеткие дубли покажут больший процент сходства текстов, но был приятно удивлен, что машинный рерайт дал такой процент уникальности.
Если бот будет доведен до всядности и будет давать такой результат на любых темах и текстах, то вообще круто.
Мне кажется, что так программа не может:
“рисовалась не такая уж и плохая картина” заменить на “показывала”
Явно многое убирается слишком в тему…
Вот если бы была демка – чтоб воочию увидеть сие чудо и результаты его работы и убедится, то хвала тебе – Программист!
PoMka, демки нет и не будет в ближайшие несколько месяцев. Это факт.
Весь секрет в дроблении тематик и подбор под каждую тематику комплекса регулярных выражения и синонимов для замены. В этом и весь сок робота. То есть, одно слово может быть заменено на несколько слов, или же несколько слов может быть заменено на одно (как в указанном вами примере).
Genux, получается, чтобы получить такой робот надо сначала подобрать под слово кучу регулярок, а это сотни человеко-часов, чтобы получилась достойная база…
А тематику сам определяет или указывать надо?
О, да… Регулярки – это самый затратный по времени этап. Их я уже раньше создавал (примерно 5-6 мес. по 3-5 часов). Потом надоело, и я забросил. Но сейчас опять начал работать по наполнению баз регулярок.
Сейчас тематику выбирать нужно вручную. В дальнейшем робот будет сам определять тематику и подключать нужную базу.
Это почти то. что я и хотел реализовать. Жаль не силен в программировании. С нетерпением жду начала продажи.
Какой принцип планируется использовать при автоматическом определении тематики?
Интересно, а как же Яндекс определяет тематику (если определяет)…
Не знаю как Яндекс. Но у меня идет определение по ключевым признакам.
Если не секрет – можно подробнее об определении тематики