پیاده سازی KNN با پایتون: پیشبینی سرطان
این آموزش یکی از پستهای زیرمجموعه آموزشهای مرتبط با پایتون میباشد، که به آموزش پیاده سازی الگوریتم KNN با پایتون میپردازد. در صورتی که تمایل دارید کل آموزشهای مرتبط با پایتون را مشاهده کنید، از این لینک استفاده کنید. در ضمن اگه حوصله خوندن متن ندارید، میتونید از ویدیو آخر این پست استفاده کنید و از متن صرف نظر کنید. همچنین اگه با خوندن این مطلب سوالی برای شما پیش اومد، خوشحال میشم که اون را از طریق راههای ارتباطی که در همین وبسایت موجوده، باهام مطرح کنید.
پیشنیاز این آموزش تسلط نسبی بر پایتون است.
KNN چیه؟
KNN یا k-nearest Neighbors یکی از الگوریتمهای ساده و در عین حال خیلی کاربردی یادگیری ماشین (Machine Learning) هست که در ادامه به ابعاد مختلف این الگوریتم مثل فلسفه، فرمولهای ریاضی و پیادهسازی اون در پایتون میپردازیم. مثالی که در این آموزش قراره پیادهاش کنم مربوط به دیتای حدود 600 نفر بیمار مشکوک به سرطان سینه هست که قصد دارم با استفاده از این دیتا و KNN، برای یک بیمار جدید پیشبینی کنم که آیا سرطان سینه دارد یا خیر؟ البته دیتا حاوی اطلاعات واقعی افراد نیست و صرفا جنبه آموزش دارد.
فلسفه KNN اینه که بعضی از چیزها را میشه از همسایههای دیوار به دیوار شما (نزدیکترین همسایههای شما) فهمید، مثلا اگه نزدیکترین همسایههای شما از یک سوپر مارکت خرید میکنند، احتمالا شما هم از همون سوپر مارکت خرید میکنید یا اگه بچههای اونا به یک مدرسه خاص میرن، احتمالا بچه شما هم به همون مدرسه میره. البته KNN اینا هم میگه که بعضی از چیزها را نمیشه از نزدیکترین همسایهها فهمید، مثل رنگ مورد علاقه شما. قطعا واضحه که اینجا منظور از همسایه، همسایه فیزیکی نیست و منظور هر فردی هست که در چندین عامل، مشابه شماست. مثال زیر را در نظر بگیرید:
فرض کنید قراره مهاجرت کنید، در مهاجرت عوامل زیادی مثل درآمد، تحصیلات، سن و… در قبول یا رد ویزا نقش دارند، حالا شما دوست دارید بدونید چقدر شانس گرفتن ویزا از کشور مقصدتون را دارید؟ کافیه مثلا 10 نفر که شرایط مشابه شما را داشتند و اقدام به اخذ ویزا کردند را پیدا کنید و ببینید چند نفر از اونها موفق شدهاند. مثلا اگه 7 نفر از اونها موفق به اخذ ویزا شده، این یعنی شانس شما برای گرفتن ویزا احتمالا 70 درصده. از نظر KNN این 10 نفر همون نزدیکترین همسایههای شما هستند که وضعیت مهاجرت شما را میشه با در نظرگیری وضعیت مهاجرت اونها حدس زد. همچنین عواملی مثل درآمد، تحصیلات، سن و… که در رد یا قبول ویزا تأثیر دارند، متغیرهای مستقل (Independent Variable یا Inputs) ما هستند و شانس اخذ ویزا هم متغیر وابسته (Dependent Variable یا Output) ما هست. اصولا متغیر وابسته تحت تاثیر متغیرهای مستقل هست.
KNN هم برای مسائل گسسته بکار میره و هم برای پیوسته. مثلا فرض کنید طول و عرض 1000 تا لاکپشت را اندازه گرفتیم و بعد هم که اون لاکپشتها مُردن، عمرشون را کنار طول و عرضشون نوشتیم. حالا یک لاکپشت جدید داریم که قصد داریم عمرش را با توجه به طول و عرضش پیشبینی کنیم (لطفا گیج نشید، طول و عرض لاکپشتها شاید با عمر اونها ارتباطی نداشته باشه و این کاملا یک مثال برای فهم بهتر انواع مسائل هست)، طبق KNN میریم از داخل دیتا خودمون چندتا لاکپشت که نزدیکترین طول و عرض به این لاکپشت را دارند، پیدا میکنیم و از عمر اونها میانگین میگیریم و این عدد میشه پیشبینی عمر لاکپشت جدید ما. به این مسأله پیوسته یا Regression میگن چون طول عمر لاکپشت هر عددی میتونه باشه، مثلا میتونه 7 سال باشه یا 8 سال یا 9.5 سال و خلاصه هر عددی. حالا فرض کنید قراره نتیجه بازی منچستر یونایتد و اورتون را پیشبینی کنید، جواب پیشبینی سه حالت بیشتر نداره: برد منچستر، باخت منچستر و مساوی. در نتیجه در اینجا برخلاف مثال عمر لاکپشت با بینهایت جواب مواجه نیستیم و جواب الگوریتم کلا سه حالت بیشتر نداره. به این نوع مسائل گسسته یا Classification میگن.
KNN برای حل مسائل Regression از مقدار نزدیکترین همسایهها میانگین میگیره و این میانگین را به عنوان جواب آخر به شما برمیگردونه، ولی برای حل مسائل Classification، نظر اکثریت همسایههای دیوار به دیوار را به عنوان جواب مدل در نظر میگیره.
ملاک فاصله در KNN چیه؟
در رابطه با اینکه نزدیکترین همسایهها در این الگوریتم نقش خیلی مهمی دارند، صحبت کردم ولی ملاک این نزدیکی چیه؟ برگردیم به مثال لاکپشت، زوج مرتب طول و عرض هر لاکپشت را میتوان یک نقطه روی محور مختصات در نظر بگیریم، یعنی محور مختصاتی را تصور کنید که محور x طول لاکپشت را نشون بده و محور y عرض اون را:
هر لاکپشت جدیدی که قرار طول عمر اون را پیشبینی کنیم یک نقطه روی این محور مختصات داره (در حوزه هوش مصنوعی به هر نمونه Observation میگیم، یعنی یک لاکپشت جدید میشه یک Observation جدید):
اون 1000 تا لاکپشت فوت شده هم 1000 تا نقطه روی این محورها دارند:
حالا من 6 تا از نزدیکترین همسایهها به لاکپشت جدید را انتخاب میکنم و از عمر اونا میانگین میگیرم تا تخمین عمر لاکپشت جدید بدست بیاد (در KNN این عدد 6 را با حرف k نمایش میدن):
رسیدیم به سوال اصلی این قسمت، چطور فهمیدم این 6 نقطه نزدیکترین نقطهها به نقطه جدید هست؟ کاری که کردم این بود که با فرمول زیر فاصله نقطه جدید را با 1000 نقطه قبلی حساب کردم، این فاصلهها را از کوچک به بزرگ مرتب کردم و 6 تای اول را انتخاب کردم:
شاید سوال براتون پیش بیاد که اگه متغیرهای مستقل ما بیشتر از 2 تا بود چی؟ اون موقع فضا مسأله از حالت دو بعدی درمیاد ولی اصلا مهم نیست، چون حتی اگه 1000 بعد هم داشتیم، آخرش فاصله دو تا نقطه یک عدده. مثلا برای سه بعد کافیه توان دو اختلاف xها، yها و zهای دو نقطه را بدست بیارید، با هم جمع کنید و از حاصلشون جذر بگیرید (عین فرمول بالا با این تفاوت که z هم اضافه میشه).
KNN با پایتون
خب بریم سراغ پیادهسازی KNN با پایتون. KNN الگوریتم سادهای هست و شما میتونید بدون کتابخونه خاصی هم اون را پیاده کنید ولی من اینجا از Sklearn به عنوان کتابخونه اصلی استفاده میکنم.
کدهای استفاده شده در این آموزش را هم از اینجا میتونید کپی کنید و هم از گیتهاب من با این لینک.
مرحله اول: دیتا
دیتا مهمترین بخش از پیادهسازی یک مدل هوش مصنوعی هست، دیتایی که قراره باهاش یک مدل ایجاد کنید باید مرتبط با مسئله باشه، کافی باشه و تمیز باشه. هر کدوم از این سه عامل اگه درست رعایت نشده باشه، دقت مدل کمتر میشه. در این آموزش من قصد ندارم وارد بحث نحوه جمعآوری دیتا و تمیز کردن اون بشم ولی مقاله تمیز کردن دیتا در اکسل میتونه دید خوبی در رابطه با دیتای تمیز به شما بده، همچنین مقاله وب اسکرپینگ هم یکی از راههای جمعآوری دیتا را به شما آموزش میده.
بجز دیتا، انتخاب نوع الگوریتم هم مهمه، منظورم اینه که شاید برای یک دیتا KNN خوب عمل کنه و برای دیتای دیگهای نه! بعضی وقتا بعد از پیاده کردن مدل متوجه میشید که الگوریتمی که انتخاب کردید برای دیتای خودتون مناسب نیست و باید برید سراغ یک الگوریتم دیگه.
من یک دیتا دانلود کردم که برای شما هم در این لینک قرار میدم تا دانلود کنید. دیتا همونطور که توضیح دادم در رابطه با مشخصات غده موجود در سینه حدود 600 نفر مشکوک به سرطان سینه هست. تصویر زیر چند ردیف از این دیتا را نشون میده:
ستون اول کد هر بیمار را نشون میده که ستون مهمی برای من نیست و جلوتر در مدل حذفش میکنم. ستون دوم، یعنی ستون diagnosis متغیر وابسته من هست که اگه برابر M باشه، یعنی اون غده بدخیمه و اگه برابر B باشه، یعنی غده خوشخیمه، از همین جا میشه فهمید که مسأله من از نوع Classification هست. بقیه ستونها هم هر کدوم یک متغیر مستقل را در بر داره، مثلا ستون سوم متوسط شعاع غده را نشون میده.
نکته خیلی مهمی که وجود داره اینه که اگه واحد اندازهگیری ستونهای دیتا شما متفاوته، در الگوریتمهای بر مبنای فاصله مثل همین KNN، قبل از اینکه از دیتا استفاده کنید باید حتما دیتا را نرمال کنید. به بیان دیگه فرض کنید یک ستون از دیتای شما قد افراد برحسب سانتیمتر را نشون میده و یک ستون هم وزن اونها را برحسب کیلوگرم، در نتیجه شما نمیتونید روی دو ستون دیتا با واحد اندازهگیری متفاوت، عملیات محاسبه فاصله را انجام دهید.
مرحله دوم: وارد کردن دیتا
من از VS Code به عنوان محیط برنامه نویسی استفاده میکنم، البته روی VS Code خودم پلاگین Jupyter را نصب کردم تا محیطی شبیه Jupyter Notebook بدست بیارم ولی شما میتونید از خود Jupyter Notebook یا هر محیط دیگهای استفاده کنید. دوباره یادآوری میکنم که اگه حوصله خوندن متن ندارید، میتونید از ویدیو آخر این پست استفاده کنید و متن را صرف نظر کنید.
با استفاده از کد پایین، از دیتا در کد خودم استفاده میکنم:
import pandas as pd
data = pd.read_csv("Cancer_Data.csv")
print(data.shape)
data.head()
در کد بالا، فایل دیتا را کنار فایل پایتون خودم قرار دادم و با استفاده از تابع read_csv کتابخونه Pandas اون را خوندم. خروجی کد بالا به شکل زیر هست:
مرحله سوم: دستکاری دیتا
متغیر وابسته من اینجا از نوع کاراکتر هست، یعنی مقادیر M و B را میگیره ولی من برای پیادهسازی KNN با پایتون نیاز دارم که این ستون عددی بشه. در نتیجه با دستورات زیر، مقدار M را با 1 مقدار B را با 0 جایگزین میکنم:
data["diagnosis"].replace('M' , '1',inplace=True)
data["diagnosis"].replace('B' , '0',inplace=True)
با کد زیر میتونم متوجه بشم که هر متغیر مستقل چقدر روی متغیر وابسته یا همون diagnosis تاثیر داره:
correlations = data.corr()
correlations['diagnosis']
خروجی این کد به این شکله:
id 0.039769
diagnosis 1.000000
radius_mean 0.730029
texture_mean 0.415185
perimeter_mean 0.742636
area_mean 0.708984
smoothness_mean 0.358560
compactness_mean 0.596534
concavity_mean 0.696360
concave points_mean 0.776614
symmetry_mean 0.330499
fractal_dimension_mean -0.012838
radius_se 0.567134
texture_se -0.008303
perimeter_se 0.556141
area_se 0.548236
smoothness_se -0.067016
compactness_se 0.292999
concavity_se 0.253730
concave points_se 0.408042
symmetry_se -0.006522
fractal_dimension_se 0.077972
radius_worst 0.776454
texture_worst 0.456903
perimeter_worst 0.782914
area_worst 0.733825
smoothness_worst 0.421465
compactness_worst 0.590998
concavity_worst 0.659610
concave points_worst 0.793566
symmetry_worst 0.416294
fractal_dimension_worst 0.323872
Unnamed: 32 NaN
Name: diagnosis, dtype: float64
تفسیر خروجی اینجوریه که مثلا متغیر radius_mean تأثیر خیلی بالایی روی متغیر وابسته داره (چون عدد مقابلش بیشتره) ولی مثلا متغیرهای texture_se و symmetry_se تاثیر کمی روی مدل دارند و میشه اونها را حذف کرد (هر چند من اینجا اینکار را نکردم). در کد بعدی ستونهای id و Unnamed: 32 که هیچ تأثیری روی مدل ندارند را حذف کردم:
data.drop(columns=['Unnamed: 32' ,'id'] , inplace=True)
مرحله چهارم: بخشبندی کردن دیتا
کد زیر را به کدهای خودم اضافه میکنم:
from sklearn.model_selection import train_test_split
y = data.values[: , 0]
x = data.values[: , 1:28]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=12345)
این کد اول دیتا را به دو بخش x و y تقسیم میکنه. x شامل ستونهای 1 تا 28 دیتا است که در حقیقت متغیرهای مستقل را شامل میشه و y شامل ستون 1 هست که متغیر وابسته یعنی ستون diagnosis را شامل میشه.
در خط 5 کد، با استفاده از تابع train_test_split از sklearn متغیرهای x و y را به 4 بخش تقسیم کردم. در ایجاد مدلهای هوش مصنوعی ما معمولا یک قسمت از دیتا را جدا میکنیم و با اون مدل را ایجاد میکنیم (اصطلاحا مدل را Train یا Fit میکنیم) و با قسمت باقیمانده از دیتا، مدلی که ایجاد کردیم را تست میکنیم و دقتش را اندازه میگیریم. اینجا هم متغیرهای x_train و y_train برای ایجاد مدل قراره بکار بره و متغیرهای x_test و y_test برای ارزیابی مدل بکار میره.
پارامتر test_size مشخص میکنه که چقدر از دیتا را برای تست لازم داریم، من این پارامتر را روی 0.3 قرار دادم، یعنی 30 درصد دیتا را برای تست جدا کن. پارامتر random_state را برابر یک عدد دلخواه قرار میدم که هر بار که کد را اجرا میکنم، مقادیر متغیرهای x_test، x_train و بقیه متغیرهای حاصل از این تابع، عوض نشه.
مرحله پنجم: ایجاد مدل
با کد زیر مدل KNN خودم را ایجاد میکنم:
from sklearn.neighbors import KNeighborsClassifier
model = KNeighborsClassifier(n_neighbors=5)
model.fit(x_train, y_train)
در این کد با استفاده از کلاس KNeighborsClassifier یک متغیر به نام model ایجاد کردم. این متغیر در حقیقت شی اولیه KNN من هست. در خط بعدی هم مدل را با استفاده از متد fit و دیتاهایی که برای آموزش مدل کنار گذاشته بودم، train کردم.
چیزی که اینجا باید بگم اینه که اگه خط سوم کد را ببینید، یک پارامتر به نام n_neighbors داریم. در این پارامتر من تعداد نزدیکترین همسایه که باید در نتیجهگیری لحاظ بشن را روی 5 تنظیم کردم (k=5).
نکته مهم اینه که اگه مسئله شما از نوع Regression بود، به جای کلاس KNeighborsClassifier از کلاس KNeighborsRegressor استفاده کنید. البته یادتون نره قبلش اون را با دستور زیر به کد اضافه کنید:
from sklearn.neighbors import KNeighborsRegressor
مرحله پنجم: پیشبینی
الان کافیه تکه کدی بنویسم که وقتی بیمار جدیدی به من مراجعه میکنه، کد متغیرهای مستقل اون فرد را بگیره و پیشبینی کنه که آیا غده این فرد خوشخیمه یا بدخیم. این پیشبینی با استفاده تابع predict شی model انجام میشه:
import numpy as np
sample = np.array([13.73,22.61,93.6,578.3,0.1131,0.2293,
0.2128,0.08025,0.2069,0.07682,0.2121,1.169,2.061,19.21,0.006429,
0.05936,0.05501,0.01628,0.01961,0.008093,15.03,32.01,108.8,697.7,0.1651,0.7725,0.6943])
y_pred = model.predict(sample.reshape(1, -1))
print(y_pred)
خروجی کد بالا به صورت زیر هست:
['0']
تفسیر این عدد اینه که طبق پیشبینی هوش مصنوعی غده این بیمار خوشبختانه خوشخیمه ولی سوال اساسی اینه که دقت این مدل چقدره؟
مرحله ششم: سنجش دقت مدل
تابع زیر دقت مدل را با استفاده از متد accuracy_score که از متدهای sklearn هست، اندازه میگیره:
from sklearn.metrics import accuracy_score
def calAccuracy(y_test , y_pred):
accuracy = accuracy_score(y_test, y_pred) * 100
return accuracy
چیزی که شاید لازم باشه بگم اینه که من باید به عنوان پارامتر y_test و y_pred را به تابع calAccuracy بدم، حالا y_pred چیه؟ این متغیر، حامل مقادیر پیشبینی شده حاصل از پیشبینی x_test هست. به زبان ساده من مقادیر واقعی و مقادیر پیشبینی شده را به این تابع میدم تا دقت KNN را برام حساب کنه. دقیقا برای همین بود که اون اول کار، دیتا خودم را به چند بخش تقسیم کردم.
در کد پایین، x_test که دیتا مربوط به تست مدل بود را به تابع predict دادم تا برام مقادیر پیشبینی را بدست بیاره و بریزه داخل یک متغیر به نام y_pred. بعدش مقادیر واقعی خودم یعنی y_test و مقادیر پیشبینی را به تابع calAccuracy دادم تا دقت KNN را بدست بیاره:
y_pred = model.predict(x_test)
accuracy = calAccuracy(y_test , y_pred)
print(accuracy)
خروجی این کد به صورت زیر است:
92.98245614035088
الان من میدونم که دقت پیشبینی انجام شده حدود 93 درصد هست، پس با اطمینان خاطر بیشتری برای قدمهای بعدی درمان این بیمار تصمیمگیری میکنم.
بهبود دقت مدل
برای بهبود مدل KNN میشه چندتا کار کرد، یکیش اینه که مقدار پارامتر n_neighbors را عوض کنید تا ببینید دقیقا انتخاب چند همسایه دقت بیشتری برای شما فراهم میکنه. البته کتابخونههایی هستند که مقدار بهینه k را برای شما مشخص کنند، میتونید درباره اونا سرچ کنید.
قدم بعدی میتونه این باشه که از پارامتر weights کلاس KNeighborsClassifier استفاده کنید، این پارامتر به شما کمک میکنه که به جای میانگین گیری عادی از همسایهها، از میانگین وزندار استفاده کنید، اینطوری میشه به همسایههای نزدیک وزن بیشتری نسبت به همسایههای دورتر داد.
برای افزایش دقت مدل، میتونید از تکنیکهای یادگیری گروهی هم استفاده کنید که قطعا بعدا براش یک پست مینویسم.
البته توجه کنید که همونطور که گفتم، دیتا مهمترین بخش پیادهسازی یک مدل هوش مصنوعی هست، در نتیجه بهبود دیتا همیشه گزینه اول بهبود هر مدله.
مقالههای مرتبط
در صورتی که به این موضوع و کلا یادگیری الگوریتمهای هوش مصنوعی علاقه دارید، میتونید از آموزشهای پیادهسازی درخت تصمیم با پایتون و جنگل تصادفی من هم استفاده کنید. قطعا این مقالات و دانش مرتبط با هوش مصنوعی خیلی در عصر حاضر واجبه!
ویدیو آموزش پیادهسازی KNN با پایتون
قبل اینکه ویدیو را ببینید، بگم که من ویدیوها را در چنل یوتوب خودم هم آپلود میکنم، خیلی خوشحال میشم که اونجا هم من را دنبال کنید.