سلام به همه شما دوستان عزیز
در این پست با پروژه زیبا و جدیدی آشنا خواهید شد که قادر است تعداد ۸۰ شی را تشخیص داده و موقعیت آنها را به زبان فارسی مشخص و ردیابی کند. این اشیاء شامل حوزه شهر و ترافیک، وسایل نقلیه، لوازم منزل، میوهها، حیوانات و… میباشند که لیست کامل آنها در جدول زیر آورده شده است.
انسان | دوچرخه | اتومبیل | موتور سیکلت | هواپیما | اتوبوس | قطار | کامیون | قایق | چراغ راهنمایی رانندگی |
شیر آتش نشانی | تابلو ایست | پارکینگ | نیمکت | پرنده | گربه | سگ | اسب | گوسفند | گاو |
فیل | خرس | گورخز | زرافه | کوله پشتی | چتر | کیف دستی | کروات | چمدان | فریزبی |
اسکی | اسنوبورد | توپ ورزشی | بادبادک | چوب بیس بال | دستکش بیس بال | اسکیت بورد | تخته موج سواری | راکت تنیس | بطری |
شیشه آب | فنجان | چنگال | چاقو | قاشق | کاسه | موز | سیب | ساندویچ | پرتقال |
کلم بروکلی | هویج | هات داگ | پیتزا | دونات | کیک | صندلی | مبل | گیاه گلدانی | تخت خواب |
میز ناهارخوری | توالت | تلویزیون | لپ تاپ | موس | کنترل تلویزیون | کیبورد | موبایل | ماکروویو | فر |
توستر | سینک ظرف شویی | یخچال | کتاب | ساعت | گلدان | قیچی | خرس عروسکی | سشوار | مسواک |
قبل از توضیحات، ویدیوی خروجی های این پروژه را مشاهده کنین:
در این پروژه از یادگیری عمیق و YOLO2 استفاده شده و برای مرحله آموزش مدل از هزاران تصویر برای ۸۰ کلاس استفاده شده است. این مدل آموزش دیده در این پروژه در اختیار شما قرار خواهد گرفت و برای تست آن فقط از کتابخانه OpenCV استفاده شده است. همچنین برای نوشتن لیبلهای فارسی از ماژول فارسی نویسی putTextFarsi استفاده شده است.
این پروژه در ۳ نوع مختلف ۱- اجرا روی تصاویر(Image)، ۲- اجرا روی ویدیو یا وبکم (WebcamVideo) و ۳- اجرا روی تصویر و روی ویدیو (یا وبکم) (All) آماده شده است که شما میتوانید بسته به نیاز خود یک نوع را انتخاب کنید.
در نوع اول شما فقط قادر خواهید بود که این پروژه را روی تصاویر پیاده سازی کنید. ابتدا تصویر ورودی را تعریف کرده و این پروژه برای شما مکانهای اشیاء آموزش دیده را تشخیص میدهد. اطراف هر شی یک مستطیل زرد (bbox) رسم میشود و لیبل هر کدام به زبان فارسی بالای اشیاء نشان داده خواهد شد.
در نوع دوم شما فقط میتوانید از این پروژه برای تست روی ویدیو (یا وبکم) استفاده کنید. فقط کافیست ویدیو ورودی را تعریف کرده و پروژه لحظه به لحظه برای شما نتیجه خروجی را نمایش داده و آن را به صورت ویدیو نیز ذخیره میکند. همچنین میتوانید به جای ویدیو از وبکم (تصاویر real-time) استفاده کنید.
در نوع سوم نیز شما میتوانید هم روی تصاویر و هم روی ویدیو (یا وبکم) این پروژه را اجرا کنید. در واقع نوع سوم، به صورت ویژه شامل ۲ نوع قبلی نیز میباشد.
ویژگیها:
- – تشخیص همزمان ۸۰ شی و استفاده از مدل آموزش دیده YOLO
- – به همراه ماژول فارسی نویسی روی تصاویر (putTextFarsi) به صورت رایگان
- – قابلیت اجرا روی تصاویر، ویدیو و تصاویر زنده از وبکم
- – تنها استفاده از کتابخانه قدرتمند OpenCV به دلیل سرعت و راحتی بیشتر
- – قابلیت پیادهسازی روی رزبری پای (RaspberryPi) و قابلیت صنعتی سازی
- – قابل تعمیم و استفاده در حوزههای ترافیک و شهری، امنیتی و …
- – مناسب برای پروژههای درسی، آزمایشگاهی، علمی-پژوهشی
نکتهها:
- – مراحل نصب ماژولهای مورد نیاز در فایل pdf توضیح داده شده است.
- – همچنین ماژولهای مورد نیاز برای نصب آفلاین، به صورت جداگانه هم در فایل دریافتی وجود دارد و نحوه نصب آفلاین ماژولها نیز گفته شده است.
- – سرعت پردازش ویدیو به قدرت پردازش سیستم شما بستگی دارد، اما در مجموع میتوان گفت سرعت تشخیص معمولی میباشد.
- – بدیهی است که ویدیوی خروجی، به صورت بدون صدا میباشد و در صورت نیاز باید صدا را جداگانه به ویدیو متصل کنید. جهت اطلاع دوستان عزیزی که تازهکار هستند.
در این پروژه از زبان پایتون و کتابخانه OpenCV استفاده شده است، که به دلیل سادگی زبان پایتون به تمام علاقهمندان توصیه میشود.
امیدواریم از دریافت این پروژه لذت ببرید.
لطفا یک مورد را انتخاب کنید.
دیدگاه ها