مصاحبه با دکتر محمدرضا محمدی؛ به عنوان یکی از برجستهترین اساتید هوش مصنوعی ایران
تحصیلات: (کلیک کنید)
دکتری: مهندسی برق، دانشگاه صنعتی شریف، ایران (۱۳۹۴)
عنوان رساله: تخمین شدت واحدهای کنشی چهره با استفاده از مشخصه های تنکی آنها
منبع جداول : دانشگاه علم و صنعت
برای اولین سوال بنظر شما با توجه به اینکه هوش مصنوعی از سال ۱۹۵۰ ایجاد شده، چرا کشورها پس از حدود ۷۵ سال به دنبال تدوین چارچوب و سند هستند؟
در چند سال اخیر، الگوریتمهای هوش مصنوعی توسعه زیادی پیدا کردهاند و در زندگی روزمره تاثیرگذار شدهاند و حتی به زندگی شخصی افراد نفوذ کردهاند. به همین دلیل، نیاز به تدوین چارچوب و سند نسبت گذشته بسیار بیشتر احساس میشود.
لطفا برای علاقهمندان به این حوزه یک تعریف از هوش مصنوعی و جنبه های کاربردی آن خصوصا در حوزه بینایی ماشین بفرمایید؟
به صورت ساده، هوش مصنوعی شامل تمام الگوریتمهایی میشود که انجام دادن آنها توسط انسان نیاز به تفکر دارد. در حوزه بینایی کامپیوتر، هوش مصنوعی کاربردهای بسیار گستردهای از سیستمهای کنترل کیفیت تا نظارت تصویری و حتی تولید تصویر دارد.
وقتی ما یک سیب را روی درخت میبینیم، مغز ما اطلاعات زیادی را پردازش میکند: رنگ، شکل، اندازه و حتی خاطرات مرتبط با سیب. آیا ماشینها هم میتوانند به همین شکل، دنیای پیرامون خود را درک کنند؟ چه تفاوتهایی بین بینایی انسان و ماشین وجود دارد؟
ماشینها هم از هر شیئ ویژگیهای مختلفی مانند رنگ و اندازه را استخراج میکنند تا بتوانند بر اساس آنها تصمیمگیری کنند. با این حال، بسیار از مدلهای موجود برای یک وظیفه خاص آموزش میبینند و تنها همان وظیفه را میتوانند به خوبی انجام دهند و توانایی استدلال ندارند. در سالهای اخیر، مدلهای فونداسیون با استفاده از مجموعهدادههای بزرگ به سمتی رفتهاند که توانایی استدلال هم داشته باشند.
همه ما با فیلمهای علمی تخیلی آشنا هستیم که در آنها رباتها میتوانند دنیای اطراف خود را دیده و حتی محیط خود را درک کنند. اما در دنیای واقعی، این فناوری تا چه حد پیشرفت کرده است؟ آیا میتوان گفت که ماشینها هم دقیقا مشابه یک انسان قادر به مشاهده و درک محیط هستند؟
در حال حاضر، نمیتوان گفت مدلهای بینایی مانند انسانها میبینند، اما بسیاری از اطلاعات موجود در تصویر را به خوبی استخراج میکنند. با توسعه مدلهای فونداسیون میتوان امیدوار بود که ماشینها بتوانند در آیندهای نزدیک، رابطه بین اجزاء تصویر را بهتر درک کنند و اطلاعات بسیار بیشتری را از تصویر استخراج نمایند و عملکرد آنها نسبت به ما هم بهتر شود.
از نگاه تخصصی، بینایی ماشین چیست و چه تفاوتی با بینایی انسان دارد؟
در بینایی ماشین، به دنبال آموزش مدلهایی هستیم که بتوانند وظایف مرتبط با بینایی را به خوبی انجام دهند و حتی از انسانها عملکرد بهتری داشته باشند. در انسانها هم تصویر محیط توسط چشم ثبت و توسط مغز پردازش میشود اما پردازشی که توسط شبکههای عصبی مصنوعی انجام میشود با پردازشی که توسط مغز انسانها انجام میشود لزوما مشابه نیست.
چگونه میتوان از بینایی ماشین در زندگی روزمره استفاده کرد؟ آیا اپلیکیشن یا سیستمی در حال حاضر وجود دارد که از این فناوری بهره برده باشد؟
الگوریتمهای مختلفی در دسترس قرار دارد از جمله در حوزه شناسایی چهره، تولید تصویر، تشخیص اشیاء و ردیابی اشیاء. بازار اپلیکیشنها و سیستمهایی که از بینایی ماشین بهره میبرند، همچنان در حال رشد است. برخی از اپلیکیشنهای معروف شامل Google Lens، Microsoft Azure Computer Vision، و Amazon Rekognition هستند که از این فناوری برای تشخیص تصاویر و ویدئوها استفاده میکنند.
یادگیری عمیق به عنوان زیرمجموعهای از هوش مصنوعی، چه نقشی در پیشرفت بینایی ماشین ایفا میکند؟
بسیاری از مسائل حوزه بینایی کامپیوتر پیچیدگی زیادی دارند و با استفاده از روشهای سنتی هوش مصنوعی نمیتوان به پاسخ قابل قبولی برای آنها دست یافت. با ظهور یادگیری عمیق و توانایی یادگیری از حجم زیادی از دادههای تصویری، کااربردهای بسیار زیادی برای بینایی کامپیوتر به وجود آمده است.
نحوه درک تصاویر و ویدئوها توسط ماشین ها به چه صورتی است؟
در ماشینهای موجود، تصویر دیجیتال به صورت یک ماتریس از اعداد (که رنگ پیکسلها را مشخص میکنند) وارد مدل میشود و مدل با استفاده از فرمولهای ساده ریاضی، به صورت سلسلهمراتبی از این ماتریس ویژگیهای جدیدی را استخراج میکند تا بتواند اطلاعات خواسته شده را از این ماتریس استخراج نماید.
چه اپلیکیشنهایی در حوزه بینایی ماشین در کشور ما توسعه و اجرایی شده است؟
در حوزه تشخیص پلاک و شناسایی چهره اپلیکیشنهای متعددی توسعه یافته است و به صورت روزمره استفاده میشود. در حوزه کنترل کیفیت و خطوط تولید، بینایی ماشین کاربرد زیادی داشته است. همچنین، در حوزه پردازش تصاویر هوایی (پهپادها و کوادکوپترها و …) پروژههای خوبی انجام شده است. در حوزه تشخیص پزشکی نیز برنامههای خوبی توسعه یافته است. در مجموع تیمهای خوبی در این زمینه فعال هستند و تعداد محصولات بسیار بیشتر از چیزی است که اشاره شد.
خودروهای خودران یکی از جذابترین کاربردهای بینایی ماشین هستند. چگونه این خودروها با استفاده از دوربینها و سنسورها، محیط اطراف خود را درک میکنند؟
در خودروهای خودران از سنسورهای مختلفی استفاده میشود که شامل تعدادی دوربین نیز میشود. برای پردازش این تصاویر و ترکیب اطلاعات آنها با سنسورهای دیگر، به طور معمول از یادگیری عمیق و حجم بسیار زیادی داده آموزشی استفاده میشود تا بتوانند در شرایط مختلف عملکرد مطلوبی داشته باشند.
تشخیص بیماریها از روی تصاویر پزشکی، یکی دیگر از کاربردهای مهم بینایی ماشین است. آیا میتوانید مثالی از این کاربرد بزنید و توضیح دهید که چگونه این فناوری به پزشکان کمک میکند؟
یکی از کاربردهای متداول پردازش تصاویر پزشکی، تشخیص مرز اشیاء مختلف از جمله تومورها است. بدست آوردن این ناحیهها، به پزشکان برای تشخیص بیماری و همچنین انجام عمل جراحی با دقت بالا کمک میکند. علاوهبراین، با توسعه هوش مصنوعی، میتوان درمانهای شخصیسازی شده برای افراد مختلف بر اساس شرایط آنها طراحی کرد.
به چه شکلی میتوان از بینایی ماشین در ایجاد تجربیات واقعگرایانه در حوزه واقعیت افزوده بهره برد؟
مدلهای مولد برای تولید تصاویر ساختگی واقعگرایانه پیشرفت زیادی داشتهاند و با استفاده از آنها میتوان تصاویر و ویدئوهایی ایجاد کرد که به واقعیت بسیار نزدیک هستند و تشخیص ساختگی بودن آنها دشوار است.
چه کاربردهای دیگری از بینایی ماشین را در آینده انتظار داریم؟ آیا میتوانید یک کاربرد جالب و آیندهنگرانه برای ما بگویید؟
با توسعه مدلهای بزرگ زبانی-بینایی، الگوریتمهای یادگیری بدون نمونه (Zero-Shot Learning) توسعه پیدا خواهند کرد و برای توسعه یک کاربرد جدید، بجای جمعآوری مجموعهداده بزرگ، کافی است با مدل گفتگو کرد. همچنین، با توسعه مدلهای مولد، میتوان فیلمهای واقعگرایانه را تنها بر اساس یک متن ایجاد کرد.
با توجه به شرایط کشور ، نقش بینایی ماشین را در کدام حوزه ها برجسته تر میدانید و برای دانشجویان و متخصصین جای کار بیشتری دارند؟
صنایعی که در کشور گردش مالی بالایی دارند (مانند صنایع پتروشیمی، صنایع فولاد، کشاورزی، معدن و …) نیاز زیادی به الگوریتمهای بینایی ماشین دارند. همچنین، استفاده از بینایی کامپیوتر در صنعت انمیشن نیز کاربرد زیادی خواهد داشت.
آیا ممکن است الگوریتمهای بینایی ماشین نیز مانند انسانها، دارای تعصبات باشند؟ چگونه میتوانیم از ایجاد تعصبات نژادی یا جنسیتی در این الگوریتمها جلوگیری کنیم؟
بله، الگوریتمهای بینایی کامپیوتر که مبتنی بر یادگیری هستند، وابستگی زیادی به دادههای آموزشی خود دارند و در مقالات متعددی به سوگیری مدلهای یادگیری عمیق پرداخته شده است. تهیه مجموعهدادههای بدون سوگیری تاثیر زیادی در مقابله با این چالش دارد. همچنین، با توجه به پرهزینه بودن توسعه مدلهای بینایی بزرگ، توسعه چنین مدلهایی محدود به چند شرکت بزرگ شده است که منجر به سوگیری توسعه مدلهای بینایی ماشین خواهد شد.
با گسترش استفاده از دوربینها و سیستمهای تشخیص چهره، نگرانیهایی در مورد حریم خصوصی افراد وجود دارد. چگونه میتوان از سوءاستفاده از این فناوریها جلوگیری کرد؟
تصویب قوانین مناسب و استفاده از فناوریهای امنیتی میتواند از سوءاستفاده از سیستمهای تشخیص چهره جلوگیری کند. ایجاد سازمانهای نظارتی و آموزش جامعه نیز نقش مهمی در حفاظت از حریم خصوصی افراد دارد. استفاده از رمزنگاری و تکنیکهای ناشناسسازی نیز به حفظ اطلاعات کمک میکند.
بزرگترین چالشهای فنی پیش روی توسعه فناوری بینایی ماشین چیست؟ آیا توسعه این فناوری میتواند خطراتی نیز به همراه داشته باشد؟
مدلهای بینایی توسعه یافته هنوز توانایی استدلال بالایی ندارند و میتوانند مورد حمله قرار بگیرند و عملکرد آنها مختل شود. همچنین، تفسیر کردن دانش آموخته شده توسط مدلهای بینایی ماشین یک چالش مهم است و در بسیاری از مواقع، مدلهای بزرگ را به صورت جعبه سیاه تعریف میکنند. تولید دادههای ساختگی شبیه به واقعی میتواند برای جامعه خطرات زیادی داشته باشد.
یکی از چالشهای این حوزه دادهها و جمعآوری دادههای بومی برای پیادهسازی و توسعه بهتر مدلهاست. همانطور که مطلع هستید برخی از شرکتها یا سازمان ها به دلایلی چون شفافیت و وجود اطلاعات پیدا در داده ها و از سوی دیگر سوء استفاده از داده ها تمایل به اشتراک یا انتشار دادههای خود را با متخصصین ندارند. چگونه می توان بر این مانع فائق آمد؟
برای فائق آمدن بر چالش جمعآوری دادههای بومی، میتوان همکاریهای مشترک بین سازمانها و دانشگاهها ایجاد کرد و از تکنیکهای پیشپردازش برای ناشناسسازی دادهها استفاده نمود. همچنین، تدوین قوانین شفاف و ارائه مشوقها میتواند به افزایش تمایل به اشتراکگذاری دادهها کمک کند.
یکی از چالشهای دیگر نبود یا کمبود زیرساختهای سخت افزاری برای توسعه مدل ها است که گاها این منابع در دسترس سازمان هاست و دانشجویان و متخصصین این حوزه امکان دسترسی به آن را ندارند. این مشکل را به چه نحو میتوان مرتفع نمود یا چه راهکارهای جایگزینی وجود دارد؟
برای رفع مشکل کمبود زیرساختهای سختافزاری، میتوان از خدمات ابری مثل سیمرغ امیرکبیر استفاده کرد. ایجاد مشوقهایی از جمله گرنت به دانشجویان و شرکتهای دانشبنیان میتواند این زیستبوم را تقویت کند. در نهایت، زمانیکه شرکتها بتوانند از هوش مصنوعی درآمدزایی مناسبی بدست بیاورند، خودشان برای ایجاد زیرساختهای مناسب هزینه نمایند.
بنظر شما مهمترین موانع پیادهسازی پروژه های هوش مصنوعی در کشور ایران چیست؟
در حال حاضر، زیرساخت پردازشی و مجموعهداده دو چالش مهم هستند. با این حال، شناخت درست قابلیتهای هوش مصنوعی و سرمایهگذاری هدفمند میتواند منجر به توسعه شرکتهایی شود که بر این موانع غلبه کنند.
آینده
چه آیندهای برای بینایی ماشین متصور هستید؟ چه فناوریهای جدیدی در این حوزه در حال توسعه هستند؟ و در یک نگاه اجمالی از نظر شما در ده سال آینده، بزرگترین پیشرفت در حوزه بینایی ماشین چه خواهد بود؟
آینده بینایی ماشین بسیار روشن است، با پیشرفتهای بزرگی که در دقت و سرعت الگوریتمهای بینایی ماشین ایجاد شده است و کاربردهای فراوانی که در صنایع مختلف دارند. فناوریهای جدید مانند تحلیلهای چندمنظوره و چندگانه در حال توسعه هستند. در ده سال آینده، ترکیب اطلاعات مختلف مانند صوت و مکان با تصاویر برای تحلیل دقیقتر، نقش کلیدی خواهد داشت. این پیشرفتها میتوانند کاربردهای وسیعتری در صنایع مختلف ایجاد کنند.
اخیرا در کشور ما سازمانی ویژه هوش مصنوعی با نام “سازمان ملی هوش مصنوعی جمهوری” تاسیس شد. نظر شما در مورد تاسیس سازمان ملی هوش مصنوعی در ایران چیست و این سازمان چه نقشی در توسعه هوش مصنوعی خواهد داشت؟
با توجه به اهمیت هوش مصنوعی در آینده، وجود چنین سازمانی برای کشور ضروری است. این سازمان باید تلاش کند موانع موجود در توسعه هوش مصنوعی را شناسایی کند و برای رفع آنها تلاش نماید تا شرکتهای خصوصی بتوانند در این زمینه فعالیت موفقی داشته باشند.
تاثیرات اجتماعی
آیا گسترش فناوری بینایی ماشین میتواند بر بازار کار تأثیر بگذارد؟ آیا ممکن است برخی مشاغل منسوخ شوند و مشاغل جدیدی ایجاد شوند؟
گسترش فناوری بینایی ماشین میتواند تأثیر زیادی بر بازار کار بگذارد. برخی مشاغل سنتی ممکن است منسوخ شوند، اما در عوض مشاغل جدیدی در زمینه توسعه، مدیریت و نگهداری این فناوریها ایجاد خواهند شد. توانایی تطبیق با تغییرات و کسب مهارتهای جدید برای افراد حیاتی خواهد بود. این تحول میتواند فرصتهای شغلی جدید و متنوعی ایجاد کند.
با توجه به افزایش استفاده از سیستمهای نظارتی مبتنی بر بینایی ماشین، چه نگرانیهایی در مورد حریم خصوصی افراد وجود دارد؟
تصویب قوانین مناسب و استفاده از فناوریهای امنیتی میتواند از سوءاستفاده از سیستمهای تشخیص چهره جلوگیری کند. ایجاد سازمانهای نظارتی و آموزش جامعه نیز نقش مهمی در حفاظت از حریم خصوصی افراد دارد. استفاده از رمزنگاری و تکنیکهای ناشناسسازی نیز به حفظ اطلاعات کمک میکند.
بنظر شما با توجه به رشد بالای مهاجرت نخبگان این حوزه و استقبال کشورها از متخصصین این حوزه چه راهکاری برای توقف یا به حداقل رساندن این مهم سراغ دارید؟
شغل مناسب با درآمد مطلوب میتواند از مهمترین عوامل حفظ نخبگان باشد. برای دستیابی به این هدف، باید از توسعه و رشد شرکتهای خصوصی فعال در زمینه هوش مصنوعی حمایت کرد. استفاده مناسب از هوش مصنوعی میتواند خدمات قابل توجهی به جامعه ارائه دهد و متخصصان این حوزه نیز از درآمد خوبی برخوردار شوند.
سایر سوالات تخصصی:
در دهه گذشته، یادگیری عمیق موجب تحولی شگرف در حوزه بینایی ماشین شده است. به نظر شما، مرز بعدی در این حوزه چیست؟ آیا فناوریهای نوظهوری وجود دارند که رویکرد ما را نسبت به دادههای بصری متحول کنند؟
مدلهای فونداسیون زبانی-بینایی تحولات زیادی در حوزه بینایی کامپیوتر ایجاد خواهند کرد.
یکی از موضوعات مهم در هوش مصنوعی ” هوش مصنوعی قابل تفسیر” است. به نظر شما، قابلیت تفسیر در مدلهای یادگیری عمیق در بخش کاربردهای بینایی ماشین، به ویژه در حوزههای پرخطری چون مراقبتهای بهداشتی و خودروهای خودران، تا چه اندازه اهمیت دارد؟”
یکی از عواملی که مانع استفاده از هوش مصنوعی در حوزههایی مانند مراقبتهای بهداشتی شده، همین مسئله است. در سالهای اخیر، تلاشهای زیادی برای تفسیر مدلهای یادگیری عمیق صورت گرفته، اما هنوز نتایج رضایتبخشی به دست نیامده است.
نظر شما در مورد الهام گیری از زیست شناسی در نسل بعدی هوش مصنوعی چیست؟
تا کنون الهام گیری از زیستشناسی در هوش مصنوعی باعث پیشرفتهای زیادی شده است. ادامه این روند میتواند به توسعه سیستمهای هوشمندتر و کارآمدتر کمک کند. مطالعه مغز و شبکههای عصبی زیستی، الگوریتمهایی پیچیدهتر و توانمندتر ایجاد میکند که شبیه به فرآیندهای طبیعی عمل میکنند و به پیشرفتهای بزرگی در حوزههای مختلف هوش مصنوعی منجر میشود.
مدلهای هوش مصنوعی مولد مانند GANs و مدلهای انتشار، درهای جدیدی را به روی خلاقیت در هوش مصنوعی گشودهاند. به نظر شما، هیجانانگیزترین یا شگفتانگیزترین کاربردهای این مدلها در بینایی ماشین کدامند؟”
از هیجانانگیزترین کاربردهای این مدلها میتوان به تولید تصاویر واقعگرایانه، ارتقای کیفیت تصاویر، و تغییر سبک هنری تصاویر اشاره کرد. این پیشرفتها امکانپذیریهای جدیدی را در حوزههای مختلفی مانند هنر، پزشکی و تولید محتوا فراهم میکنند. به عنوان مثال، میتوان با یک جمله ساده از این مدلها خواست تا یک فیلم کامل راجع به آن تولید کنند.
پیشنهادات
به عنوان یک متخصص و فرد صاحب دانش عمیق در این حوزه ۳ کتاب برتر را به مخاطبین هوش مصنوعی سیمرغ معرفی بفرمایید.
Bishop, Christopher M., and Hugh Bishop. Deep learning: Foundations and concepts. Springer Nature, 2023.
Zhang, Aston, et al. Dive into deep learning. Cambridge University Press, 2023.
Chollet, Francois. Deep learning with Python. Simon and Schuster, 2021.
برای دانشجویان و محققان جوانی که میخواهند در حوزه بینایی ماشین فعالیت کنند چه توصیه هایی دارید؟
یادگیری ریاضیات مورد نیاز (جبرخطی، آمار و احتمال و …)، مطالعه کتابهای پایه، سپس مطالعات مقالات مرتبط در حوزه پژوهشی، و شرکت در مسابقات هوش مصنوعی و انجام پروژههای واقعی
سایر مهارتهای جانبی که علاقه مندان باید برای ورود به این حوزه کسب کنند؟
استفاده از ابزارهای کدنویسی مبتنی بر هوش مصنوعی مانند Cursor.
صبر و حوصله. زیرا بسیاری از ایدهها به نتیجه نمیرسند و توسعه یک الگوریتم هوش مصنوعی جدید نیاز به صبر و حوصله دارد.
در بخش نظرات سوالات خود را مطرح نمایید تا در مصاحبههای بعدی مورد استفاده قرار گیرد.
بزودی مصاحبه با دکتر اخایی نیز منتشر خواهد شد.