Hoe maak je een computer Robot bouwen

Hoe maak je een computer Robot bouwen


Computer robots (ook wel bots, crawlers of spiders) zijn softwareprogramma's die op het internet te zoeken, het verzamelen van informatie van webpagina's. Het zijn geen virussen omdat ze niet software in andere computers injecteren - ze gewoon informatie verzamelen. De software draait op de computer van de robot eigenaar en niet over de middelen te gebruiken van een ander systeem. Sommige robots verzamelen van informatie van de eigenaren van de bezochte webpagina's liever niet worden vrijgegeven, maar de computer robots hebben een aantal goedaardige toepassingen en er zijn wat je zou waarschijnlijk wilt uw bedrijf webpagina te bezoeken.

instructies

1 Maak eerst een duidelijk algoritme. Haastte zich door dit deel is de meest voorkomende fout gemaakt door robot makers. Je moet weten wat je wilt het bot te doen in elke situatie, precies welke gegevens u wilt verzamelen en wanneer u wilt dat de bot te stoppen met het verzamelen van informatie. De typische structuur van een bot is een enkele lus: Kijk naar de input lijst met mappen, voor elk bestand in elke map het verzamelen van de informatie die u zoekt, als je links om nieuwe mappen zet ze in uw lijst met mappen te vinden, altijd controleren voor doublures en blijf dit doen totdat de map is leeg. De lijst van de gevonden voorwerpen moeten worden geregistreerd in een vorm die makkelijk te halen.

2 Kies de taal en het coderen van het algoritme. U kunt een computer robot in elke taal te schrijven, maar sommige talen zijn makkelijker dan anderen. Als je een expert bent in een bepaalde taal, dan is dit de duidelijke taal van uw keuze. Als je goed thuis in een verscheidenheid van talen en wordt het leren van een taal alleen maar om het bot te schrijven, sommige talen zijn beter dan anderen. De talen van de keuze voor bot schrijvers zijn Perl en Ruby. Ze zijn allebei vrij beschikbaar op het web, relatief gemakkelijk te leren, rennen snel en hebben functies die bot het schrijven van eenvoudig voor niet-experts. Bijvoorbeeld, beide talen hebben een eenvoudige instructies om alle bestanden in een map vast te leggen.

3 Test het bot. Het is gemakkelijk om een ​​bot dat loopt zonder te crashen maken, maar de juiste gegevens verzamelen. Je moet het bot te testen op uw eigen website, waar u weet welke informatie moet worden verzameld. Hoe meer websites die u kunt uw website te testen op, hoe beter.

Hints

  • Websites hebben soms een bestand met de naam 'robots.txt' op het hoogste niveau van een website die robotbesturing code bevat aan de bezoekende robot sturen. Als u het verzamelen van legitieme informatie - zoals de indeling van de website voor een zoekmachine - de robotbesturing code kunt u een hoop tijd besparen door uw zoekopdracht te beperken tot de juiste bestanden.
  • Sommige mensen niet graag worden bezocht door robots en zal informatie van robots te verhullen. Zo kan bijvoorbeeld e-mailadressen worden geschreven "abc {at} xyz.net" in plaats van met het @ teken als dit is wat een e-mailadres onderscheidt en zal zijn wat het e-mailadres verzamelen bots zoeken.