🧲İnternet Üzerinden Veri Çekme
Python ile internet, web üzerinden veri alma, çekme (data grab, web grab)
💨 URL'den Veri Alma
Veri almanın en hızlı ve basit yolu
🆔 Web Kimliği UserAgent
Ayarlama
UserAgent
AyarlamaBazı web siteleri, isteklerin nereden geldiğini bilmeden hareket edemezler.
Bu sebeple isteği detaylandırmamız gerekmektedir.
UserAgent
ile hangi tarayıcıdan ve bilgisayardan bağlandığımızı belli ederiz
HTML
alanına bağlantıyı yazın,pd.read_html(html)
şeklinde kullanın
🧙♂ Detaylı bilgi için "[Python][Crawler]“HTTP Error 403: Forbidden” alanına bakabilirsin.
🧐 Tarayıcı Üzerinden Veriyi Bulma
CTRL + SHIFT + C kısayolu ile aradığınız elemanı ona tıklayarak seçin
Elements ekranından açılan satıra sağ tıklayın ve Copy → Copy selector deyin
Gelen metni bir notepad gibi bir yere kaydedin
🐍 Python Kodu ile Veriyi Çekme
pip install beautifulsoup4
komutu ile html verilerini işleme paketi olanbs4
paketini indirinpip install requests
ile html isteklerini yönetme paketi olanrequests
paketini indirinDaha önceden kopyaladığınız selector verisini ve veriyi aldığınız url bilgisini sırasıyla
SELECTOR
veURL
objelerine atayınİlk olarak kendimizi tanıttığımız
headers
verileri ileGET
isteği atıp, içeriği alıyoruz ve ardındansoup
objemiz ile istediğim selector ile elemanı alıyoruz
📅 Tablo Verisi Alma
Web siteleri üzerindeki tabloları çekmek için
pd.read_html
kullanılırTüm tablo verileri arasında
0
,1
... değerleri ile gezinebiliriz.
👮♂️ Verilerin Sağlaması Gereken Özellikler
Günlük hayatta veriler istediğimiz kadar basit olmaz, bunlar üzerinde işlemler yaparak uygun hale getiririz
Tek tablodan oluşan basit veya bağlantılı bir kaç tablodan oluşan
Farklı veriler için mapping ile veri tipleri birbirine benzetilir
Kolay analiz edilebilir formatta olan
Makine öğrenimine sokulabilecek veriler
Düşük karmaşıklığa sahip
Yüksek boyutlu veriler için optimizasyon
Last updated