În lumea analizei datelor, utilizarea foilor de calcul este obișnuită, mai ales atunci când se lucrează cu date structurate într-un format de coloană. Una dintre bibliotecile populare pentru lucrul cu date din foile de calcul în Python este Pandas. Această bibliotecă puternică permite dezvoltatorilor să citească, să manipuleze și să exporte cu ușurință datele tabulare. În acest articol, ne vom concentra pe o problemă specifică: actualizarea celulelor dintr-o foaie după nume de coloană folosind Pandas. Ne vom scufunda în soluție, urmată de o explicație pas cu pas a codului și, în sfârșit, vom discuta despre conceptele și funcționalitățile asociate din Pandas, cum ar fi lucrul cu indici și selectarea datelor. Asadar, haideti sa începem.
Actualizarea celulelor după numele coloanei folosind Pandas
Pentru a actualiza celulele dintr-o foaie după numele de coloană, mai întâi trebuie să instalăm biblioteca Pandas dacă nu este deja instalată folosind următoarea comandă:
!pip install pandas
Cu Pandas instalat, să descriem pașii pentru a actualiza celulele dintr-o foaie după numele coloanei:
1. Încărcați foaia într-un obiect DataFrame.
2. Accesați celulele pe care dorim să le actualizăm.
3. Modificați celulele dorite atribuind noi valori.
4. Salvați obiectul DataFrame înapoi pe foaie.
Iată un fragment de cod care demonstrează soluția printr-un exemplu simplu:
import pandas as pd
# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')
# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1
# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)
Înțelegerea Codului
Primul pas este să importați biblioteca Pandas sub aliasul `pd`. Apoi, trebuie să încărcăm datele dintr-un fișier CSV într-un obiect DataFrame folosind funcția `pd.read_csv()`, specificând numele fișierului de intrare ('your_spreadsheet.csv').
Acum vine partea principală a problemei: accesarea și actualizarea celulelor dorite. În acest exemplu, dorim să actualizăm coloana „Vârsta” adăugând 1 la fiecare valoare din coloană. Facem acest lucru adăugând pur și simplu 1 la coloana „Vârsta”, care este accesată folosind sintaxa `df['Vârsta']`. Acest cod va adăuga câte 1 element la fiecare articol din coloana „Vârstă”.
În cele din urmă, salvăm DataFrame-ul actualizat înapoi în fișierul CSV folosind funcția `df.to_csv()` cu numele fișierului de ieșire ('your_updated_spreadsheet.csv'). Parametrul `index=False` este folosit pentru a evita scrierea numerelor de rând în fișierul de ieșire.
Indexuri Pandas și selectarea datelor
Pandas se bazează în mare măsură pe conceptul de indici pentru selectarea și manipularea datelor. În mod implicit, la încărcarea datelor dintr-un fișier, Pandas atribuie un indice numeric la fiecare rând al DataFrame, începând de la 0. Când lucrați cu date în Pandas, este esențial să înțelegeți diferitele moduri de selectarea și filtrarea datelor pe baza valorilor de index sau a numelor de coloane.
De exemplu, pentru a selecta un anumit rând sau rânduri, puteți utiliza indexorul `iloc`, care vă permite să accesați rândurile pe baza indexului lor întreg:
# Select the first row of the DataFrame first_row = df.iloc[0] # Select rows 1 to 3 (excluding 3) rows_1_to_2 = df.iloc[1:3]
Când trebuie să actualizați celulele pe baza unei anumite condiții, cum ar fi actualizarea coloanei „Vârsta” numai pentru acele rânduri în care o altă coloană (de exemplu, „Orașul”) are o anumită valoare, puteți utiliza indexarea booleană:
# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York' df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1
În acest exemplu, indexerul `loc` este folosit pentru a selecta rânduri pe baza unei condiții booleene, iar apoi coloana 'Vârsta' este actualizată.
Rețineți că acesta este doar vârful aisbergului atunci când vine vorba de lucrul cu date în Pandas. Biblioteca oferă o multitudine de funcții și tehnici pentru a manipula, analiza și vizualiza datele în mod eficient. Înțelegerea elementelor de bază, cum ar fi actualizarea celulelor dintr-o foaie după numele de coloană, stabilește o bază solidă pentru lucrul cu structuri de date mai complexe și sarcini de analiză în viitor.