Elektrothermisches Design Teil 1: Digitale Elektronik Digital Electronics “Lazier” -Webkratzung ist bessere Web-Scraping

“Lazier” -Webkratzung ist bessere Web-Scraping

, die jemals benötigt werden, um Daten von einer Webseite zu erhalten? Das Analysieren des Inhalts für Daten wird als Web-Scraping bezeichnet, und [Doug Guthrie] hat ein paar Ideen, um den Prozess des Grabens von Daten aus einer Webseite einfacher und viel effizienter mit Code-Beispielen in Python zu tätigen. Er verwendete Daten von der Yahoo-Finanzierung als Beispiel, da es anscheinend ein ziemlich hübscher Anwendungsfall ist, indem er herausragt, wie oft Fragen dazu auf dem Stapelüberlauf auftauchen. Die allgemeinen Konzepte sind jedoch ziemlich weit verbreitet.

[Doug] zeigt, dass beim Analysieren einer Webseite für ein bestimmtes Datendatenteil (z. B. ein Aktienkurs) nicht schwierig ist, oft wesentlich einfachere und schnellere Möglichkeiten, um darüber zu gelangen. Im Falle von Yahoo-Finanzen sehen die Webseite eine Menge von uns von uns nicht wirklich die tatsächliche Quelle der angezeigten Daten, es ist nur ein Frontende.

Eine Möglichkeit, um dabei mehr effizienter zu kratzen, besteht darin, die Quelle der Daten zu gelangen. Im Falle von Yahoo-Finanzen stammen die auf einer Webseite angezeigten Daten von einer JavaScript-Variablen, die für den Endbenutzer perfekt zugänglich ist, und viel leichter zu analysieren und zu arbeiten. Eine andere Möglichkeit besteht darin, eine Niveau niedriger zu machen und JSON-formatierte Daten von demselben Ort abzurufen, an dem die Front-End-Webseite tut; das vordere Ende insgesamt ignorieren und im Wesentlichen als inoffizielle API behandelt. Jede Weise ist nicht nur viel einfacher als das Analysieren des Endergebnisses, aber schneller und viel zuverlässiger, um zu booten.

Wie findet man diese Ressourcen? [Doug] gibt einige großartige Ideen, wie genau dies genau tun, einschließlich der Verwendung eines Webbrowser-Entwicklerwerkzeugs, um XHR-Anforderungen auszurichten. Diese Methoden funktionieren nicht für alles, aber sie sind absolut wert, zu sehen, ob sie eine Option sind. Eine andere Ressource, die Sie im Sinn behalten, ist WOOB (Web außerhalb von Browsern), das eine ausgezeichnete Liste von Rückenenden zum Lesen und Interaktion mit Webinhalten aufweist. Wenn Sie also Daten für Ihr Programm benötigen, aber es ist auf einer Webseite? Lass dich nicht aufhalten!

Leave a Reply

Your email address will not be published. Required fields are marked *