Способы добычи контента

Я уже писал, что планирую контент брать с иностранных сайтов. Но взявшись переводить один из сайтов, оказалось что это слишком трудоемко и долго. Делать откровенные ГС я  не хочу, поэтому надо получать более менее качественный контент. Проблема в том, что для того чтобы машинный перевод превратить в удобочитаемый текст, нужно перелопатить практически каждое предложение. Итого получается это чуть проще чем писать тексты самому. Такими темпами к концу года мне врядли удастся получить запланированную сумму в сапе, поэтому надо найти наиболее быстрые способы получения контента.

Давайте подумаем, откуда еще можно брать контент? По сути можно выделить следующие способы:

  1. писать самому;
  2. покупать на биржах контента;
  3. переводить иностранные сайты;
  4. сканировать книги и журналы;
  5. рерайт готовых статей;

Сам много текстов не напишешь, но исключать этот пункт полностью нельзя (тот же блог, это же полностью собственный контент). Покупать контент это слишком дорого и на данном этапе полностью исключаю. Перевод иностанных сайтов тоже медленно, но этот пункт полностью не исключаю (постепенно наполняю сайт itfi.ru). Рерайт тоже считаю не продуктивным способом, к тому же это всё-таки нарушение копирайтов и для себя полностью исключаю, хотя многие со мной не согласятся.

Самым продуктивным способом остается сканирование и распознавание бумажной литературы. Так что на текущий момент это будет основным моим способом получения контента. К тому же существуют сотни и тысячи старых книг и журналов(сходите в местную библиотеку), правообладателей на которые просто не существует, так что это вполне “белый” способ получения контента.

Сейчас я взялся сканировать старые журналы о домашнем хозяйстве, благо у моей мамы их накопилось несколько сотен. На выходе я не буду делать ГС. Хочу сделать нормальный сайт посвященный домашнему хозяйству с поиском и разбиением на рубрики. Но без тегов, дабы исключить повторение контента. На практике для себя уже доказал, что яндекс теги ой как не любит. В общем в плане получить не менее 10к страниц на сайте. Далее подниму ему тиц хотя бы до 10 и можно уже будет добавлять в сапу.

Кстати! Ускорить сканирование можно раз в десять. Сделать это можно полностью отказавшись от сканера… Да, да сканер совсем не нужен! Берем современную мыльницу. Достаточно мыльницы на 8 мегапикселей. В некоторых даже есть функция для фотографирования текстов, если этого нет, то достаточно просто поставить режим фотографирования без цвета. Как показала моя практика на выходе получается фото в достаточно высоком разрешении для распознования. И на такое “сканирование” уходит как минимум раз в 10 меньше времени, чем на обычное сканирование. Таким образом буквально за один час я прощелкал десяток журналов и теперь осталось только распознать текст.

7 thoughts on “Способы добычи контента

  1. Алексей

    А почему же рерайт считается нарушением копирайта, если делать качественно (менять полностью текст)и вставлять немного копирайта, а не просто слова добавлять, получается уникальный контект.

     
  2. admin

    Контент то может и будет уникальным, но ведь это всё равно по сути воровство. Не? Только если переосмысливать текст автора и выдавать свой текст на основе прочитанного, тогда это уже не будет воровство, а по сути получится реферат на основе другой статьи.

     
  3. снежный человек

    Спорный вопрос про рерайт. Например, пишешь статью про функции цифрового фотоаппарата, упомянутого в статье-) Так, если эти функции строго определены и ограничены, ты же свои не придумаешь? Получается, ты в своей статье опишешь те же функции, что описаны в других статьях, но своими словами.

     
  4. admin

    Есть всего два вида рерайта, это замена слов на синонимы и глубокий рерайт. Глубокий рерайт это когда вы изучаете несколько статей на заданную тему и выдаете свой текст на основе их. Это близко к копирайту и ничего плохого нет. А вот если если заменять на синонимы, это уже по сути воровство, так как статья всё равно написана другим человеком и вы просто пытаетесь ее уникализировать.

     
  5. хахаха

    рерайт – нарушение копирайтов, а скан – всё allright )))) умора)))

    “правообладателей на которые просто не существует” – ну покажите такие, и я скажу кто их правообладатель 😉

     
  6. admin

    Многие книги уже давно не переиздают и их вы нигде не купите. Может с точки зрения закона, у них и есть правообладатель, но он книги не переиздает и дохода от них не получает, и вряд ли вообще будет интересоваться использует ли кто-то эти книги в том же интернете.

     
  7. Алексей

    Правильно, если брать книги, то только старые (беру в основном 70-90 года), так как они уже забыты и концов не найти кто автор и т.д. в большенстве, раньше не человек писал, а переписывали разные статьи уже существующие (писали их редакции и т..)

     

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *