Способы добычи контента
05.05.2010
Я уже писал, что планирую контент брать с иностранных сайтов. Но взявшись переводить один из сайтов, оказалось что это слишком трудоемко и долго. Делать откровенные ГС я не хочу, поэтому надо получать более менее качественный контент. Проблема в том, что для того чтобы машинный перевод превратить в удобочитаемый текст, нужно перелопатить практически каждое предложение. Итого получается это чуть проще чем писать тексты самому. Такими темпами к концу года мне врядли удастся получить запланированную сумму в сапе, поэтому надо найти наиболее быстрые способы получения контента.
Давайте подумаем, откуда еще можно брать контент? По сути можно выделить следующие способы:
- писать самому;
- покупать на биржах контента;
- переводить иностранные сайты;
- сканировать книги и журналы;
- рерайт готовых статей;
Сам много текстов не напишешь, но исключать этот пункт полностью нельзя (тот же блог, это же полностью собственный контент). Покупать контент это слишком дорого и на данном этапе полностью исключаю. Перевод иностанных сайтов тоже медленно, но этот пункт полностью не исключаю (постепенно наполняю сайт itfi.ru). Рерайт тоже считаю не продуктивным способом, к тому же это всё-таки нарушение копирайтов и для себя полностью исключаю, хотя многие со мной не согласятся.
Самым продуктивным способом остается сканирование и распознавание бумажной литературы. Так что на текущий момент это будет основным моим способом получения контента. К тому же существуют сотни и тысячи старых книг и журналов(сходите в местную библиотеку), правообладателей на которые просто не существует, так что это вполне “белый” способ получения контента.
Сейчас я взялся сканировать старые журналы о домашнем хозяйстве, благо у моей мамы их накопилось несколько сотен. На выходе я не буду делать ГС. Хочу сделать нормальный сайт посвященный домашнему хозяйству с поиском и разбиением на рубрики. Но без тегов, дабы исключить повторение контента. На практике для себя уже доказал, что яндекс теги ой как не любит. В общем в плане получить не менее 10к страниц на сайте. Далее подниму ему тиц хотя бы до 10 и можно уже будет добавлять в сапу.
Кстати! Ускорить сканирование можно раз в десять. Сделать это можно полностью отказавшись от сканера… Да, да сканер совсем не нужен! Берем современную мыльницу. Достаточно мыльницы на 8 мегапикселей. В некоторых даже есть функция для фотографирования текстов, если этого нет, то достаточно просто поставить режим фотографирования без цвета. Как показала моя практика на выходе получается фото в достаточно высоком разрешении для распознования. И на такое “сканирование” уходит как минимум раз в 10 меньше времени, чем на обычное сканирование. Таким образом буквально за один час я прощелкал десяток журналов и теперь осталось только распознать текст.
А почему же рерайт считается нарушением копирайта, если делать качественно (менять полностью текст)и вставлять немного копирайта, а не просто слова добавлять, получается уникальный контект.
Контент то может и будет уникальным, но ведь это всё равно по сути воровство. Не? Только если переосмысливать текст автора и выдавать свой текст на основе прочитанного, тогда это уже не будет воровство, а по сути получится реферат на основе другой статьи.
Спорный вопрос про рерайт. Например, пишешь статью про функции цифрового фотоаппарата, упомянутого в статье-) Так, если эти функции строго определены и ограничены, ты же свои не придумаешь? Получается, ты в своей статье опишешь те же функции, что описаны в других статьях, но своими словами.
Есть всего два вида рерайта, это замена слов на синонимы и глубокий рерайт. Глубокий рерайт это когда вы изучаете несколько статей на заданную тему и выдаете свой текст на основе их. Это близко к копирайту и ничего плохого нет. А вот если если заменять на синонимы, это уже по сути воровство, так как статья всё равно написана другим человеком и вы просто пытаетесь ее уникализировать.
рерайт – нарушение копирайтов, а скан – всё allright )))) умора)))
“правообладателей на которые просто не существует” – ну покажите такие, и я скажу кто их правообладатель 😉
Многие книги уже давно не переиздают и их вы нигде не купите. Может с точки зрения закона, у них и есть правообладатель, но он книги не переиздает и дохода от них не получает, и вряд ли вообще будет интересоваться использует ли кто-то эти книги в том же интернете.
Правильно, если брать книги, то только старые (беру в основном 70-90 года), так как они уже забыты и концов не найти кто автор и т.д. в большенстве, раньше не человек писал, а переписывали разные статьи уже существующие (писали их редакции и т..)