Ce week-end, j’étais donc à la rencontre SEO Camp de Toulouse. Le temps d’un après-midi et d’un resto, j’ai pas mal discuté référencement, forcément. L’un des points qui a retenu mon attention, c’est clairement le contenu et la manière de créer celui-ci.
Les réflexions ont plus tourné autour des interrogations de ce fameux contenu qu’adore tant Google… mais qui avance de plus en plus armé face au contenu qu’on lui donne à avaler. Alors que Google reste toujours une grosse brêle au niveau de la détection des liens, il commence à disposer d’outils semble-t’il efficaces pour détecter la valeur du contenu, notamment en terme de Duplicate Content. Rapidement, voici deux remarques que j’ai pu relever tout au long de ce SEO Camp :
Analyse de contenu, Google et Laurent Bourrelly
L’imposant Laurent Bourrelly, qui a lui-même animé la première conférence, nous a fait part que Google est en mesure de détecter maintenant tout contenu similaire, y compris en faisant ce qu’on appelle du content spinning (j’y reviendrai un peu plus loin dans l’article). En gros, Google dispose d’outils très poussés en analyse sémantique latente (LSA). J’espère ne pas me tromper dans ce que je raconte, tu peux corriger le cas échéant Laurent. Ce machin là n’est pas propre à Google, il s’agit d’arriver à mettre en relation plusieurs textes en fonction du contenu. Google s’en sert donc pour détecter les plagiats, même sophistiqués.
Laurent en a très rapidement touché deux mots pour nous dire que Google possédait des outils LSA très puissants, et qu’en gros, le content spinning, c’est mort. A titre personnel, je pense qu’il y a encore de quoi faire pendant quelques temps.
Sanction, Contenu, Google et Tiger – seoblackout
Pour continuer rapidement sur les sentiments des uns et des autres, l’excellent Paul a rappelé qu’il fallait disposer sur son site principal d’un contenu irréprochable. C’est la base même pour éviter toute sanction de Google. De fait, il vaut mieux passer du temps à rédiger du bon contenu et s’armer correctement pour accélérer le reste. Ah oui, au niveau du contenu propre, on peut éviter cette tâche en faisant appel à des agences étrangères. Si vous avez des noms sérieux, je suis preneur au passage.
Avec un contenu irréprochable sur ton money site, Google n’a aucune raison de te sanctionner. Tiger
On tient donc la base d’un site solide : du contenu de folie, unique, bien foutu et répondant à la demande de l’internaute. Que peut venir te dire Google après ? Pas grand chose, c’est clair.
Toujours dans la partie de Paul, il nous contait une histoire intéressante, qui fera peut-être taire les derniers septiques sur le duplicate content. En gros, un client à lui a perdu une position. Check du site… bilan : gros DC, d’autre sites + un PDF avait bien pompé. Une fois ce contenu enlevé du net, la position en question est remontée comme il se doit. Le plus dur reste encore à faire gicler le contenu des sites qui nous copient. Mail, lettre, téléphone, avocat… mais quand il s’agit d’un site étranger, il est très compliqué de faire bouger les choses. J’en sais quelque chose.
Générateurs de contenu
Je vous livre en gros quelques méthodes pour générer du contenu en masse et le plus rapidement possible. L’objectif est de disposer de textes uniques à partir d’un même contenu. Attention, il ne s’agit sans doute pas des méthodes les plus pertinentes et il en existe d’autres. C’est pour ça aussi que je fais appel à l’intelligence collective (en commentaire quoi).
Content Spinning
Je ne vais pas y passer 30 ans sur celui-là, vous le connaissez presque tous j’imagine.
{Au passage|D’ailleurs|Aussi}, je {vais|me rends|monte} sur {Toulouse|Paris|ta femme} {demain|tout à l’heure|bientôt}
- D’ailleurs, je monte sur Paris tout à l’heure
- Aussi, je vais sur Toulouse bientôt
- Au passage, je me rends sur Paris tout à l’heure
Les possibilités sont énormes, je pense que vous l’avez compris ou que vous le savez déjà. Bien entendu, ça prend du temps. Il convient donc d’avoir un endroit pour poster en masse ce type d’articles. 10 fois, 20 fois… Mais le problème, c’est lorsqu’on veut le poster 80 fois. On se ramasse pas mal de similitudes entre les textes, à moins de s’acharner sur son texte de base.
Cette technique est-elle donc suffisante ? Pas si sûr.
Il y a des scripts à foison sur le net concernant le content spinning. Je vous en donne un que j’utilise dans ma moulinette lorsque je balance mes macros. Je ne sais plus où je l’ai trouvé. Il y a d’autres outils de content spinning plus puissants si vous voulez investir. 😉
function contentspinning($txt){$pattern = ‘#{([^{}]*)}#msi’;$test = preg_match_all($pattern, $txt, $out);if (!$test) return $txt;$atrouver = array();$aremplacer = array();foreach($out[0] as $id => $match){$choisir = explode(« | », $out[1][$id]);$atrouver[] = trim($match);$aremplacer[] = trim($choisir[rand(0, count($choisir)-1)]);}$reponse = str_replace($atrouver, $aremplacer, $txt);return $reponse;}
Mélange de contenu
On peut essayer d’améliorer les choses en mélangeant le contenu.
- Mais qui avance de plus en plus armé face au contenu qu’on lui donne à avaler. Google qu’adore tant fameux contenu des interrogations autour de ce. Niveau de que google une grosse il commence la détection brêle au reste toujours des liens, alors.
- Grosse brêle au niveau de la détection des liens, il commence à disposer d’outils semble-t-il efficaces pour détecter la valeur du contenu, notamment en terme de duplicate content. Voici deux au long rapidement, remarques que de j’ai pu relevé tout.
- Au contenu qu’on lui donne à avaler. Alors détecter la efficaces pour à disposer une grosse la détection des liens, brêle au que Google reste toujours en terme contenu, notamment valeur du d’outils semble-t-il de duplicate niveau de il commence.
C’est pas mal, associé à du content spinning on peut tenir quelque chose. Comme pour le paragraphe ci-dessous, quelques lignes de PHP suffisent ou sinon il faut utiliser des outils facilement trouvables sur la toile, comme huge shaker.
Traduction – Translation – Tradução
Dernière méthode pour chopper du contenu unique. La traduction bourrin. En gros, ça consiste à traduire un texte en passant par plusieurs langues pour revenir au Français.
- Mes pensées sont plus centrés sur les questions de ce célèbre idoles de contenu Google … mais avant cela tous armés de la force qu’il est nécessaire.
- L’esprit est plus porté sur la question de culte est connu sous le nom de contenu Google … Toutefois, pré-bersenja.
- J’ai pensé à ce fameux amour porté sur les questions … mais le contenu de Google, armés de beaucoup de contenu à l’avance, avant le spectacle.
Je ne suis passé pour ces exemples là que par 4 ou 5 langues différentes. On peut y aller beaucoup plus fort.
Je pense que là, en automatisant bien comme il faut ces 3 possibilités, il y a moyen de faire en sorte de disposer d’un contenu unique assez rapidement, l’objectif étant bien sûr de faire avaler ça à Google pour favoriser le référencement de son money site. En pleine réflexion là dessus, je suis aussi en recherche de solutions supplémentaires et efficaces.
crédit photo : Lars Plougmann
Sans déconner je trouve quand même qu’à un moment il faut savoir faire la balance entre le fait de devoir rédiger un minimum et élaborer des automatismes pour ça. Je pense que le développement peut servir en SEO à tout (et bien des choses !) sauf rédiger. Mais ce n’est que mon point de vue …
Simon, je parle de générer en masse du contenu pour du robot, pas pour l’internaute…
L’idée de la trad, tu la tiendrais pas de moi par hasard vieux pirate !!
Bon en tout cas, pour le spinning, j’espère que Bourelly se trompe (mais, j’ai très peur qu’il est raison)…
Le contenu, le contenu, le contenu… les BL, les Bl, les BL
Le principal problème du spinning content est, à ma connaissance, le fait qu’il génère souvent des phrases très peu correctes d’un point de vue du français. Mais bon, on va me dire que ce n’est pas vraiment ce qu’on chercher ici…
A quand les « centres de contenus » délocalisés comme les centres d’appels ? Je suis sûr que ça existe en Inde, alors pourquoi n’y en a-t-il pas en Afrique du Nord pour les sites français ?
@cedrikp : Même pas, ça fait un moment que je l’expérimente, mais ça aurait pu en grand champion que tu es ! Tiens, au passage, je suis tombé sur un soft d’auto blog il y a peu qui récupère du flux puis Traduction – Translation – Tradução – post 😉
@Sebastien : Ca dépend l’objectif. On est d’accord que pour générer du contenu totalement 100% propre, le content spinning c’est pas100% efficace (pour le reste je n’en parle même pas).
Cependant en s’appliquant sur des choses assez simples, c’est large faisable d’obtenir un contenu honorable.
Merci pour cette synthèse, les résultats obtenus avec les trads automatiques sont très…. folkloriques !
le content spinning c’est bien à petite dose, Google commence à voir l’astuce, mais les annuaires et CP ne detecte pas encore les descriptions en content spinning. 😉
Tu as zappé David Degrelle et son intervention sur le diable Google. 😉
Pour le LSA et son application, j’ai de sérieux doutes…
Salut Keeg,
Toujours le même débat à savoir si un bon CS est détecté ou pas par Google. Franchement il est clair et net que Google arrive a repérer ce type de contenu puisqu’il ne s’arrête pas à LSA, mais on parle désormais de LDA (à lire d’ailleurs cet excellent mais très technique article chez spoonylife : http://www.spoonylife.org/algorithms-and-computation/latent-dirichlet-allocation).
Apres dans le cadre d’une utilisation vraiment pure BH, le problème est « un peu » moins bloquant. Si tu génères ton contenu sur 200 splogs, google en pénalisera quelques uns (si tu t’es pas trop fait chiant pour le CS), mais pas tous. Comme tu le dis, la ou ça devient vite chiant c’est lorsque que l’on duplique ton contenu et que le site est hébergé à l’étranger.
Disons qu’il y a ce que Google détecte, ce qu’il tolère et ce qu’il ne tolère pas. Je vois vraiment mal une armée de chercheurs, d’ingénieurs butter sur ce genre de problème. Surtout que le Content Spinning, même shaké n’est pas insurmontable à reverser (attention je ne parle pas a titre personnel hein).
Heureux de te relire !!
Merci pour ce compte rendu.
Je partage (dans une certaine mesure) l’avis de Laurent concernant le content spinning. En effet, une majorité de personnes se contentent de remplacer un mot par un synonyme. Dans ce cas là, la structure de l’article et le nombre de mots ne varient pas des masses.
De ce cas, je suis moi aussi persuadé que Google arrive (ou dans pas longtemps) à le détecter. Par contre, en y ajoutant une image, en coupant un paragraphe entier {paragraphe|} et en spinnant (ca existe ?) des phrases ou expressions, je pense que cela passe.
@Gwa : Non, je ne l’ai pas oublié, c’est simplement qu’elle ne rentre pas vraiment dans la case contenu de l’article. Son intervention était d’ailleurs pleine de sens, et la première partie mériterait d’être diffusé au plus grand nombre. Genre envoyer automatiquement le PPT lors de l’appel IP de Google.
Pour le LSA, je pense qu’on y vient, mais d’après ce que je peux voir à droite ou à gauche, c’est peut-être pas encore très au point. 🙂
On va arriver à un moment, où même quand on fera un texte 100% original à la main, Google nous trouvera quand même du DC… :-/
Merci pour ces informations, je découvre des techniques qui m’étaient inconnues. Pour moi la conclusion de tout cela, c’est qu’il n’est pas si facile de générer du contenu de qualité en masse. Sans doute que si on veut générer du contenu en masse, il faut faire fi de la qualité ; mais que sacrifier la qualité peut rendre service dans certains cas. D’où l’avertissement nécessaire dans l’article pour rappeler que le site principal qui doit être propre de chez propre.
Bon je vais passer mon commentaire à la moulinette français -> anglais -> allemand -> français pour voir ce que ça donne ;o)
J’ai lu un post sur un blog qui donnait des pistes pour masquer le plus possible que le texte soit du content spinning avec entre autre du spinning sur le balisage HTML. Moi personnellement, j’essai de ne reprendre une phrase déjà utilisée le moins possible, ce qui impose des phrases avec beaucoup de « variables » pour faire du volume.
Pas simple de gérer le duplicate à grande échelle lorsqu’on veut l’éviter, pas simple non plus de générer proprement du duplicate content lorsqu’on veut en produire en masse.
Les techno évoluent sans arrêt et ce qui est valable aujourd’hui ne le sera déjà plus demain.
Perso, j’aime pas trop la soupe à moteurs, mais bon… chacun son truc.
D’une manière générale, je produits toujours du contenu unique lorsque je rédige un billet, pas contre, pour les sites communautaires, c’est plus compliqué de gérer le duplicate des autres, surtout lorsqu’on s’éloigne des sujets SEO, high tech… avec des gens qui n’ont même pas conscience que le DC puisse exister !
Ca devient vraiment une plaie ce DC !
Pour avoir explorer un peu le LSA et l’avoir implémenté c’est de la comparaison vectoriel de termes pas les mêmes termes = pas le même vecteur le content spinning de haut niveau passe le test à mon avis.
Je peux me tromper et j’aimerai lire une analyse de Laurent la dessus 😉
« Le plus dur reste encore à faire gicler le contenu des sites qui nous copient. »
J’ai trouvé le truc non pas pour empêcher le copiage mais pour apporter la preuve du copiage. (voir l’article par le lien dans ma signature)…
Je tatoue mes textes d’une signature unique. Je donne pas le truc mais si vous êtes malin, vous le détecterez à sa lecture.
« le content spinning, c’est mort. A titre personnel, je pense qu’il y a encore de quoi faire pendant quelques temps. »
Je suis d’accord, et je pense qu’il y aura toujours une avance sur Google, c’est ainsi que vont les choses en informatique. Les blackhat ont de l’avance sur Google comme les pirates ont de l’avance sur les antivirus.
Personnellement je me suis développé une application expérimentale de content-spinning avec gestion des pluriels, des genres, des probabilités, possibilité d’inclure de paragraphe dans le désordre, et avec aussi des liens internes ou externes qui puissent différer. Et franchement quand je génère deux textes, même un lecteur humain pourrait croire à deux textes différents, alors un moteur…
Comme vous demandez des noms d’agences capables de créer du vrai contenu, je fais ma pub, pour dire que nous intégrons aujourd’hui des compétences de rédaction/correction optimisée pour le référencement. Ca permet de faire du contenu nickel, y compris des articles de fond sérieux, mais ça a un cout.
Ceci étant dit, je vais « mitiger » ma pub et ajouter qu’aujourd’hui un content spinning de qualité marche très bien. Faut juste pas faire n’importe quoi.
Non mais j’ai bien compris que le but est de faire croire aux bots qui indexent que c’est du bueno. Seulement apparemment il semble que Laurent indique que c’est mal barré tellement Google est au point de ce coté là. Sans compter que les outils de traduction pour faire des mélanges, c’est eux qui fournissent et que les algo de détection et tout le bouzin ont l’air vraiment costauds. D’où ma perplexitude : pouquoi ne pas simplement écrire ou trouver un bon moyen de forcer l’internaute à écrire comme le font certains annuaires en brimant complétement les descriptions sur le duplicate, la longueur, etc … ?
Thanks pour le lien vers Uspin 😉
Pour moi, un contenu similaire peut se détecter de différentes manières :
– même occurence de termes,
– même balisage html,
– même longueur.
Je pense donc qu’il faut inclure dans le spin la présence (ou non) de paragraphes entiers, afin d’avoir des longueurs vraiment différentes : {paragraphe1|}
Il faut aussi savoir spinner les structures : [tag={h1|h2|h3}]{mon titre|mon entete}[/tag]
Je pense qu’il faut également savoir déplacer les blocks dans le texte : le premier paragraphe arrive au début, ou à la fin, au milieu, ça dépend.
Ajouter ou non des images.
En même temps, j’ai l’intime conviction que nous, SEO, sommes légèrement paranos…
J’ai plusieurs exemples :
– les dépêches AFP reprises partout, sur les grands sites d’information,
– les produits que tu vends dans une boutique où les descriptions sont rigoureusement les mêmes que chez les concurrents,
– les blogueurs qui relaient une info en faisant une citation (donc DC !) en plein milieu du texte,
etc
J’essaie, sur mes sites, d’avoir le contenu le plus propre possible (souvent je passe par Dragon) et j’utilise le spin seulement pour les pages « satellites », et sur les blogs qui linkent : advienne que pourra 🙂
Je pense que Paul en a parlé sur place, mais pour ceux qui n’ont pas peur de l’aspect scientifique de l’exposé, un article de Sylvain (l’autre) à ce sujet mérite le détour :
http://www.spoonylife.org/algorithms-and-computation/latent-dirichlet-allocation
Chez moi on dit « pas vu, pas pris, pas pris, pas puni » 😛 Plus sérieusement, je ne suis pas du tout persuadée que le spinning soit mort.
C’est clair que certaines méthodes de gorets donnent des contenus dégueu, même pour les bots ! Ce qui est dommage, c’est que que pour créer un vrai bon spinning, il faut d’abord créer un contenu de qualité 🙂
@DLDstyle : Pas bête le concept d’une phrase utilisée le moins possible. Je vais creuser.
@cdillat : J’aimerai aussi avoir l’avis de Laurent. Si tu passes par là et que tu peux détailler, ce serait un plaisir.
@Maxime : Bogoss le Maxime ! Tu as prévu de la vendre ton application expérimentale de content-spinning ?
@Simon : Je te suis dans ton raisonnement, mais tu peux pas ne pas en passer par là si tu veux balancer des centaines de splogs.
@Philippe : Je suis tombé sur ton article ce matin. Mais moi, pas malin comme je suis, je n’ai pas trouvé. Bon, j’ai surtout pas eu le temps… Je repars à la recherche.
Ami Keeg, c’est pas que t’es pas malin, c’est que c’est fait pour ne pas être trouvé.
Cette astuce est unique, pas difficile à mettre en œuvre et apporte une preuve définitive que le texte est plagié. Pas dans toutes les conditions mais dans 95% des cas.
La prochaine agence qui me vole mon contenu c’est direct au Pénal.
Si on ne veut pas de problème avec Google, c’est simple, il faut tout faire dans les règles, de façon logique. Mais après, il faut vérifier que personne ne repompe notre contenu.
Pour du spinning, le logiciel « the best spinner » est vraiment pas mal en anglais (le français manque de vocabulaire). En fin, c’est pas mal pour alimenter les blogs créés par LFE ;).
Google aura toujours un temps d’avance sur l’ensemble des SEOs. Une méthode publiée est une méthode caduque.
@Alain : Tu te fourvoies complètement, c’est complètement l’inverse.
Mouais c’est encore des methodes d’affiliés tout ca! 😉
Je note quand meme au passage l’excellent conseil de tiger – « un contenu irréprochable sur ton money site » –
@keeg
T’as vus, la methode de philippe elle fait se gratter la tete… pas trouvé non plus
@keeg
tu as bien fait de reprendre Alain.
Le gendarme court toujours après le voleur.
@Juju
enlèves ton chapeau d’abord. 😀
C’est trop BH le content spinning et la création de splogs associé. Il vaut mieux faire des sites nichés avec du contenu de qualité, non ?
@le juge : A tous les coups, ce filou de Philippe nous mène en bateau et s’amuse à regarder sa moyenne de temps passé par article augmenté par notre fait. 🙂
@Kados : Euh… les deux ?
Effectivement, un de ces 4 même avec du contenu 100% original Google finira par détecter du CS !
Ce qui m’interpelle, en revanche, dans cette discussion c’est le but de ce contenu dupliqué… Si c’est pour obtenir des BL, OK. Mais si on se place du point de vue de l’utilisateur (du crédo de Google donc), des articles incompréhensibles en donnent pas envie d’aller voir le site en question.
C’est peut-être intéressant pour le SEO, mais pas pour le trafic directement dérivé de tous ces articles.
De plus, ces articles contiennent toujours les mêmes liens… Google ne peut-il pas utiliser cette variable comme indicateur de CS ?
@André : L’objectif n’est pas le visiteur, il n’y a pas d’ambiguïté la dessus. Ces sites là n’ont pas pour vocation de faire de la visite, et ils n’en font pas.
Et pour te question, la réponse est oui. Cependant, tu n’es pas dans l’obligation de faire les mêmes liens à chaque fois. Et comme le soulignait Tiger lors de la conf, si Google sanctionnait cette pratique, alors il faudrait continuer à envoyer la sauce… mais sur la concurrence.
@keeg
C’est vrai que philippe c’est un vieux de la vieille… allez on vote … moi je dis il bluff!
Ah les enf***** ! (lire « enfants », bien sûr)… 😀
Chacun à sa méthode. Keeg, par exemple, il oublie des lettres :
« Tu suis maintenant les futurs keeg-commetaires »
Juju, lui, il met pas d’accents, il inverse les caractères, il fait des fautes d’accord, de grammaire, de syntaxe… bref,
chacun a son truc pour protéger son contenu.
Où bordel, il était temps qu’on me le dise. Bon, je sais pas si je le modifie du coup, tu viens de griller mon mega-copyright.
En même temps, avec son clavier Qwerty, Julien n’a pas le choix 🙂
Ah ouais! les accents c’est un coup bas eh! Tu sais combien ca me prends de temps de relire mes articles juste pour ces conneries d’accents! surtout que word les voit pas tous (surtout ceux sur les « a ») …bon pour le reste je plaide coupable (ma femme deja elle m’engueule quand elle voit comment j’écrit – NDLR elle est prof de FLE)… blood and Guts! Mais c’est parce que je passe un temps fou a coller les accents!
Ouaip, il a bon dos le coup du Qwerty…
Et Sylvain aussi il a adopté la méthode à Keeg : « Slution simple »
Que des pros j’vous dis ! 😀
Salut Alex
Bon article il est clair que le duplicate content a de mauvais jours devant lui,
le content spinning il faut que soit vraiment bien fait
et c’est efficace
et puis la règle de base est qu’un lien reste un lien,
j’aime bien la remarque de tiger
c’est tout à fait cela
« Avec un contenu irréprochable sur ton money site, Google n’a aucune raison de te sanctionner. »
Tiger
Je suis pas trop fan de la méthode « traduire un texte en passant par plusieurs langues pour revenir » Le fait de passer par un algo de traduction peut peut-être générer des expressions toute faite et par la même occasions, augementer ces chances de « duplicate content » avec d’autre site.
@phillipe
« Que des pros j’vous dis !:) »
Ils sont sans pitié les réfédacteurs! T’aurais pas été prof’ de Francais dasn ta prime jeunesse????
@Hijabs : Tes expressions toutes faites sont modifiées de fait en passant par de nombreuses langues.
Je sens que si Philippe fait une faute, sa boite mail va exploser 😉
C’est pour vous taquiner les amis, vous le savez bien.
C’est aussi par réflexe professionnel : il fût un temps, quand je pondais des articles à la chaîne, où je balancais dans la hâte de la livraison, des textes insuffisamment relus qui comportaient des co(q)uilles et des fautes ÉNORMES que des crétins me collaient sous le nez pour renégocier mes tarifs.
Bref, je ne peux m’empêcher dans mes lectures de voir les fautes et de râler, comme le vieux con que je suis, contre les rédacteurs négligents.
Tu as complètement raison. Je fais moi même des fautes à la con, et je m’auto-horripile. Heureusement, j’ai une correctrice attitrée à qui je fais relire quand je le peux. Il ne faut pas se le cacher, on juge souvent le sérieux de quelqu’un par son orthographe, moi le premier… Je ne suis pourtant pas un champion, loin de là.
Tiens essaye par toi même
http://lsa.colorado.edu/
Choisir « document to document » en « comparaison type » et le dico français du convient en « topic space »
Il faudrait que je rédige un billet pour raconter tout ça, mais Google n’utilise pas cet algo en l’état et en direct. La formule est trop lourde pour être digérée en live. Par contre, c’est exactement ça pour Adsense. Mais aucun doute qu’ils ont une formule maison pour le search naturel.
Il pré-mâche tout ça plutôt que le servir à l’entrée d’une requête.
L’extraction de grappes sémantiques additionnée d’entités nommées permet facilement de digérer les relations entre les termes puisque Google dispose d’un index gigantesque où les interconnexions permettent de voir ce qui se rapporte à quoi.
Mieux que le spinning, l’outil va également démonter le morphing et même la paraphrase.
Si un petit outil universitaire y arrive, croyez moi que ça ne fait pas un pli chez Google.
Après, qu’il en laisse passer est une autre histoire. Voir l’algo par couches pour comprendre.
J’ai vu encore récemment certains adeptes de black hat faire l’apologie du content spinning. Je ne savais pas que google était capable de mener des analyses si pointues quand au remaniement et/ou recoupage de certains textes.Bref difficile de le duper, et comme tu le dis, rien ne vaut le contenu frais et purement original (où l’on peut travailler par exemple la densité des mots-clés).
@Laurent : A quoi correspondent les chiffres 0.XX ?
La notation va de -1 à +1.
+1 étant le maximum de similitude.
Oubliez les traducteurs automatiques, ça décridibilise complètement votre site, les résulats laissant vraiment à désirer
Je n’ai pas dit de balancer cette merde sur ton site à visiteurs hein…
Voici l’article que nous venons de publier pour donner notre point de vue de rédacteur sur le sujet : http://www.redactio.fr/contenu-seo-et-optimisation-partie-1 ! 🙂
j’ai souvent fait des traductions automatiques de l’anglais vers le français avec l’outil de Google, mais je ne sais pourquoi ces pages ne sont pas bien référencées, faut il le faire plusieurs fois? alors que les vraies pages rédigées manuellement ont plus de trafic, bizarre.
Je pense comme toi keeg, les référenceurs Black Hat auront toujours de l’avance sur Google. C’est ainsi depuis que le SEO existe : les référenceurs mettent en place des techniques et des stratégies pour duper l’algorithme de pertinence de Google, Google met en place un patch pour annuler l’effet de ces techniques, on passe à une autre technique, et ainsi de suite…
C’est une histoire sans fin…
Moi j’arrive pas a voir l’interet du content spinning :s ca discrédite une société si l’internaute tombe sur une page générée qu’avec ce genre de contenu non ?
étant débutant dans la création de texte pour obtenir du trafic par référencement naturel, je te remercie pour ce petit cours. En effet, je ne connaissais pas ces petites techniques.
Aussi je me pose une petite question : Quel est l’intérêt de poster jusqu’à 80 post avec contenu similaire, et dans quel cas il faudrait le faire ?
Je ne vois pour le moment que pour l’inscription dans les annuaires avec contenu unique de description.
@Anthony et Stéphane : Vous êtes dans la bonne démarche, la recherche. Oui, ça discrédite donc il ne faut pas le faire en nommant une société. Oui, pourquoi pas avec les annuaires mais on peut aller plus loin. 😉
la rédaction de contenu existe bel et bien en Afrique du nord. J’ai travaillé avec deux sociétés françaises qui faisaient du référencement en Tunisie, et la tâche principale était de rédiger du contenu optimisé, d’y insérer des liens internes, d’y mettre du gras, de faire la soumission dans les annuaires, etc.
en France, les chefs de projet étaient en charge de l’audit du site, la sélection des mots clé, les réunions avec les clients, et les rapports mensuels et trimestriels (parfois c’est en Tunisie que les rapports sont faits).
je le fais toujours en free lance, au cas où quelqu’un est intéressé.
mon email est small_bigfat(at)yahoo.com
alors là bravo.
Je ne connaissais pas le terme « content spinning ». En plus j’ai du mal à imaginer qu’on veuille balancer un même article plus de 80 fois ! Pour faire ça il faudrait avoir 30 blogs, 30 sites de communiqués de presse etc. Monstreuse organisation …
L’un des soucis est qu’il n’est pas toujours évident d’éviter le duplicat content y compris sur son propre site !
Concernant le LSA visiblement sur SEOMOZ ils disent que pour l’instant l’impact est vraiment très limité… et qu’ils ont encore du mal.
Mais connaissant les ingénieurs Google, ils perfectionneront la bête au maxium. Ils ont les génie et l’argent alors bon…
Pour avoir du contenu unique, il faut du personnel unique, des petites mains ou avoir bcp de temps…
Et moi qui pensais avoir mis en place un nouveau procédé en terme de référencement ces derniers mois .. j’apprends ce soir que ce procédé unique (le mien !) est fortement utilisé, connu de Google, et qu’il porte même un nom dont j’ignorais totalement l’existence : content spinning ^^
Nous avons créer notre agence (nekazen) justement pour fournir du contenu propre et sur mesure sur son « money site ». Et pas uniquement pour du SEO, en fait.
Puissent les robots ne pas totalement éradiquer les plumes…
Il ya plusieurs bonnes façons de générer du trafic…mais nous devons avoir la patience
Du contenu c’est bien, des backlinks c’est mieux !
@Stéphane Rambaud: en ayant 80 morceaux de textes qui sont différents et qu’on réussit à les faire indexer par Google, on peut créer assez rapidement un réseau de liens assez massif.
Je pense qu’il faut faire attention avec ce genre de techniques. D’ailleurs, ça verserait un peu (beaucoup) dans le blackhat par hasard? Que se passe-t-il si les concurrents se rendent compte de ça et te dénoncent auprès de Google?
@Keeg : Merci pour le petit script PHP (la fonction « contentspinning »), ca peut toujours servir. Assez bien codé d’ailleurs.
@Paul : Le risque ? Des pénalités…
Le bilan de tout ça c’est que le contenu demeure la clé du référencement et que nous sommes donc nombreux à essayer de trouver autre chose que tu temps pour en générer. Personnellement, j’ai l’impression (mais je débute) qu’il vaut mieux tenter de vendre un peu plus de temps et de faire un maximum de chose sans « machine » ni « formule ». Après cela demande beaucoup d’organisation et explose un peu les budgets mais je pense les résultats sont forcément meilleurs. D’ailleurs, 1 lien sur une vrai page d’un vrai blog sur un vrai contenu ne vaut-il pas mieux que 10 liens « LFE » ? Je me pose la question.
Tout dépend du blog et des blogs LFE en question. Dans l’absolu, tu as bien entendu raison, mais poster sur 10 blogs en question prend une poignée de dizaines de secondes.
Je pense qu’on est encore loin du jour où Google détectera le spinning content ! mais vivement le jour où ça arrivera ! on évitera de polluer le web, et seule la qualité primera…
d’ici la, il y a encore le temps pour certains balckhats de bien s’amuser !
Salut,
Super article comme d’hab’. Pour ta demande de sociétés externes de rédaction d’articles en forte volumétrie et optimisés pour le SEO, j’entends de plus en plus souvent parler d’Editplace (www.edit-place.com). Va jeter un oeil ils ont de belles références. A+!
Le content spinning, c’est sympa pour les inscriptions annuaires mais pour dupliquer des pages, ce qu’on gagne en référencement, on perd le double en retour des visiteurs (qui ne revienne jamais). Pas terrible, terrible pour le moment. Le mieux est à mon sens de piquer le contenu de grands sites d’actualités qui ne référencent que très mal leurs pages et de les référencer mieux qu’eux. Exit la page du grand site de google et bonjour notre page. Ca a du bon le duplicate content !
C’est toujours la même chose! je me demande SI ça sert à quelque chose de créer des sites internet!!!!
Un content spining bien travaillé ne sera jamais détecter même dans 100 ans ….
il faut juste savoir les bonnes méthodes pour le faire… et les doses !
sinon j’aime bien la phrase de tiger … surtout pour un moneysite il faut toujours rester white hat.
En vérifiant un texte avec copyscape ou positeo, à partir de quel pourcentage de contenu dupliqué google interprète cela comme du duplicate content? (environ)
Ca va plus loin qu’un simple pourcentage de contenu dupliqué, impossible de répondre.
Aujourd’hui, il se murmure que Google prend aussi en compte la construction de la phrase. Je l’ai encore entendu aujourd’hui. Attention donc au Content Spinning fait à la va vite.
Le content spinning doit être obligatoirement bien travaillé. Je pense que Google détecte 80% des cas qui utilisent le content spinning, comme tu le dis keeg, google peut analyser la structure des phrases avec son LSA.
Le content spinning n’est pas un produit miracle qui permet en 5 min d’avoir du contenu à foison, un gros, gros, vraiment gros travail de recherche sémantique etc doit être fait au préalable pour assurer un certain contenu propre sur le long terme.
cela dépend du trafic que l’on veux générer qualitatif ou quantitatif.
Faut arrêter de cracher sur le DC. Comme l’a dit Keeg, c’est pour du contenu destiné au robot, pas aux internautes. De ma longue vie d’internautes, je n’ai JAMAIS croisé un article DC qui a pourrit mon expérience utilisateur.
Google est très fort il découvre tout !! il faut passer plus de temps à rédiger nos articles et évité de perdre notre temps a faire du copié collé .
De toute façon si c’est sur nofollow , je crois que ça ne sert pas a beaucoup. Google a changé pleins de choses sur le facteur ranking . je vois des sites avec une page battre des sites avec 1000 . Noublions pas c’est une page qui seule page qui rank à la fois .Donc tout ce contenu à quoi ça sert ?
Je ne suis vraiment pas pour l’utilisation des traducteurs automatiques… Je trouve que ça décridibilise totalement l’article et votre site par la même occasion… Aujourd’hui il n’y a aucun outil produisant une traduction de qualité. Mieux vaut abandonner l’idée…
3 méthodes bien pratique, il faur l’avouer… mais est-ce qu’au final ça ne ressemble pas à une ferme de contenu qu’à du contenu vraiment fait pour le visiteur ? C’est de l’esclavagisme d’articles et d’info :'( Faut penser aux visiteurs qui lisent les articles…
Le DC sur des splogs est discriminant pour un bon lien ?
Sinon sympa l’astuce de la traduction ! Même on peut chopper un article en anglais (ou autre langue), le traduire et le spinner, c’est du contenu assez rapide.
Comme le dit Sébastien le spinning génère parfois des fautes de français peu appréciés de notre ami Google…
« Avec un contenu irréprochable sur ton money site, Google n’a aucune raison de te sanctionner. Tiger »
Avec un contenu irréprochable sur un de mes blogs, je me suis fais sanctionné car j’ai des liens venant de cp et annuaires…
Après, c’est sur qu’on avait pas vu arriver pingouin…
Effectivement, un de ces 4 même avec du contenu 100% original Google finira par détecter du CS !
Ce qui m’interpelle, en revanche, dans cette discussion c’est le but de ce contenu dupliqué… Si c’est pour obtenir des BL, OK. Mais si on se place du point de vue de l’utilisateur (du crédo de Google donc), des articles incompréhensibles en donnent pas envie d’aller voir le site en question.
C’est peut-être intéressant pour le SEO, mais pas pour le trafic directement dérivé de tous ces articles.
De plus, ces articles contiennent toujours les mêmes liens… Google ne peut-il pas utiliser cette variable comme indicateur de CS ?